1. 데이터 분류의 강건성(Robustness) 확보, SVM 마진의 개요
정의: 서포트 벡터 머신(SVM)에서 결정 경계(Decision Boundary)와 가장 가까운 학습 데이터 점(Support Vector) 사이의 거리를 **마진(Margin)**이라 하며, 이를 최대화하여 분류 성능을 높이는 알고리즘.
핵심 원리: 마진이 클수록 새로운 데이터에 대한 일반화(Generalization) 능력이 향상되며, 데이터의 분포 특성에 따라 하드 마진과 소프트 마진으로 구분하여 적용함.
2. 선형 SVM의 마진 분류 방법 2가지 비교
가. 하드 마진 (Hard Margin) 분류: 엄격한 분리
개념: 모든 학습 데이터가 결정 경계를 사이에 두고 완벽하게 분리되어야 한다는 엄격한 조건을 가진 분류 방식.
특징: 선형적으로 완벽히 분리 가능한(Linearly Separable) 데이터셋에서만 작동함.
장단점: * 장점: 이상치(Outlier)가 없는 경우 매우 명확한 이진 분류 가능.
단점: 이상치에 매우 민감하여 모델이 존재하지 않을 수 있으며, 과적합(Overfitting) 위험이 높음.
나. 소프트 마진 (Soft Margin) 분류: 유연한 분리
개념: 일부 데이터가 마진 내부나 반대편에 위치하는 것(오류)을 허용하면서 마진을 최대화하는 유연한 분류 방식.
특징: 현실 세계의 노이즈가 포함된 비선형적 데이터셋에 주로 적용하며, **슬랙 변수($\xi$, Slack Variable)**를 도입함.
장단점:
장점: 이상치에 강건(Robust)하며 일반화 성능이 뛰어남.
단점: 하이퍼파라미터 $C$ 설정에 따라 모델 성능이 크게 좌우됨.
3. 하드 마진과 소프트 마진의 핵심 비교 분석
| 구분 | 하드 마진 (Hard Margin) | 소프트 마진 (Soft Margin) |
| 핵심 목적 | 오류 없는 완벽한 분리 | 마진 최대화와 오류 최소화의 균형 |
| 이상치 대응 | 허용 안 함 (매우 민감) | 일부 허용 (강건함 확보) |
| 주요 수식 요소 | 제약 조건($y_i(w \cdot x_i + b) \ge 1$) | 슬랙 변수($\xi \ge 0$) 도입 |
| 위험 요소 | 과적합(Overfitting) 가능성 높음 | 과소적합(Underfitting) 가능성 존재 |
| 현실 적용성 | 낮음 (이론적 모델) | 매우 높음 (실질적 활용) |
4. 소프트 마진의 성능 제어 하이퍼파라미터, $C$ 값의 영향
소프트 마진은 규제 매개변수 $C$를 통해 오류 허용 범위를 조절합니다.
큰 $C$ (Large C): 오류를 적게 허용함 $\rightarrow$ 하드 마진과 유사해지며 과적합 위험 증가.
작은 $C$ (Small C): 오류를 많이 허용함 $\rightarrow$ 마진 폭이 넓어지며 일반화 성능은 좋아지나 과소적합 위험 존재.
5. 기술사적 제언: 실무적 SVM 적용 전략
데이터 전처리 필수: SVM은 특성(Feature)의 스케일에 민감하므로 **데이터 표준화(Standardization)**를 반드시 선행하여 특정 변수가 마진 결정에 지배적인 영향을 미치지 않도록 해야 함.
커널 트릭(Kernel Trick) 연계: 선형 분리가 불가능한 복잡한 데이터의 경우, 소프트 마진 전략과 함께 RBF, Polynomial 커널 등을 활용하여 고차원 공간에서 최적의 마진을 찾아야 함.
결언: 하드 마진은 이론적 기반을 제공하지만, 실무에서는 노이즈와 일반화 성능을 고려한 소프트 마진이 표준임. 기술사는 데이터 특성에 맞는 최적의 $C$ 값을 탐색하여 모델의 편향(Bias)과 분산(Variance) 사이의 트레이드 오프를 해결해야 함.
댓글 없음:
댓글 쓰기