1. 차원의 저주(Curse of Dimensionality) 해결사, 차원 축소의 개요
정의: 분석 대상이 되는 고차원 데이터셋에서 정보의 손실을 최소화하면서 변수의 개수를 줄여 저차원 공간으로 변환하는 전처리 기법.
필요성: * 차원의 저주 방지: 차원이 증가할수록 데이터 공간이 급격히 희소(Sparse)해져 모델 성능이 저하되는 현상 극복.
모델 성능 향상: 불필요한 노이즈 제거, 계산 복잡도 감소, 과적합(Overfitting) 방지.
시각화: 4차원 이상의 데이터를 2~3차원으로 축소하여 데이터의 패턴 시각적 파악.
2. 차원 축소의 주요 메커니즘: 변수 선택 vs 변수 추출
차원 축소는 기존 변수를 유지하느냐, 새로운 변수를 만드느냐에 따라 두 가지 방식으로 구분됩니다.
가. 변수 선택(Feature Selection)과 변수 추출(Feature Extraction) 비교
| 구분 | 변수 선택 (Feature Selection) | 변수 추출 (Feature Extraction) |
| 개념 | 중요도가 높은 기존 변수만 선별하여 유지 | 기존 변수를 조합하여 새로운 축(특징)을 생성 |
| 장점 | 결과 해석이 용이함 (도메인 지식 활용) | 데이터 압축 효율이 높고 변수 간 상관관계 해결 |
| 단점 | 선택되지 않은 변수의 정보가 완전히 소실됨 | 생성된 변수의 의미 해석이 어려움 |
| 사례 | Filter, Wrapper, Embedded 방식 | PCA, LDA, SVD, t-SNE |
3. 차원 축소의 주요 기술 및 알고리즘
가. 주요 알고리즘 상세
| 유형 | 알고리즘 | 특징 및 원리 |
| 선형 | PCA (주성분 분석) | 데이터 분산이 가장 큰 방향으로 새로운 축을 설정하여 정보 손실 최소화 (비지도 학습) |
| 선형 | LDA (선형 판별 분석) | 클래스 간 분산은 최대화, 클래스 내 분산은 최소화하여 분류 효율 최적화 (지도 학습) |
| 비선형 | t-SNE | 고차원의 유사도를 저차원에서도 유지하도록 확률적으로 배치 (시각화 특화) |
| 행렬분기 | SVD (특이값 분해) | $A = U\Sigma V^T$ 형태의 행렬 분해를 통한 차원 축소 (추천 시스템 활용) |
나. 변수 선택(Selection)의 주요 기법
Filter 방식: 통계적 측정(Correlation, Chi-square)을 통해 변수 간 우선순위 결정.
Wrapper 방식: 하위 집합을 반복적으로 학습하여 최적의 조합 선정 (RFE, 전진 선택법).
Embedded 방식: 모델 학습 과정에서 자체적으로 변수 선택 (Lasso(L1), Ridge(L2)).
4. 차원 축소 적용 시 고려사항 및 발전 방향
가. 적용 시 고려사항
정보 손실률: 차원을 축소함에 따라 발생하는 분산 설명력(Explained Variance)의 변화를 모니터링해야 함.
해석 가능성(Explainability): 금융, 의료 등 도메인에서는 변수 추출(Extraction)보다 선택(Selection) 방식이 선호됨.
나. 향후 발전 방향
AutoEncoder 활용: 딥러닝 기반의 비지도 학습을 통해 비선형적인 복잡한 데이터 구조를 효과적으로 압축(Encoding).
결언: DX 가속화에 따른 빅데이터 환경에서 차원 축소는 **'데이터 다이어트'**의 필수 과정이며, 데이터 품질 관리(DQ)와 연계하여 분석 모델의 신뢰성을 확보하는 핵심 기술로 자리 잡고 있음.
댓글 없음:
댓글 쓰기