1. 회귀모형의 기본 가정과 오차의 등분산성 (Homoscedasticity)
가. 정의
독립변수의 모든 값에 대하여 종속변수의 오차(Error) 항의 분산이 일정해야 한다는 가정입니다.
선형 회귀모델이 최적선형불편추정량(BLUE)이 되기 위한 필수 조건 중 하나입니다.
나. 문제점: 이분산성(Heteroscedasticity) 발생 시
계수의 유의성 왜곡: 회귀계수의 표준오차가 왜곡되어, 실제로는 유의하지 않은 변수가 유의하게 나타날 수 있습니다(제1종 오류).
효율성 저하: 최소제곱법(OLS)이 더 이상 최소 분산을 가지지 않게 되어 모델의 신뢰도가 하락합니다.
다. 판별 및 해결 방안
판별법: 잔차도(Residual Plot) 시각화 분석, Breusch-Pagan 검정, White 검정.
해결방안: 변수 변환(Log 변환, Square Root 변환), 가중최소제곱법(WLS, Weighted Least Squares) 적용.
2. 회귀모형의 다중공선성 (Multicollinearity)
가. 정의
회귀모형 내의 독립변수들 간에 강한 상관관계가 존재하여, 모델 분석 시 부정적인 영향을 미치는 현상입니다.
나. 문제점
회귀계수의 불안정성: 독립변수가 조금만 변해도 회귀계수 값이 크게 변하거나 부호가 반대로 바뀔 수 있습니다.
해석의 어려움: 특정 변수가 종속변수에 미치는 개별적인 영향력을 파악하기 어렵게 만듭니다.
유의성 판단 오류: 모델의 결정계수($R^2$)는 높으나, 개별 변수의 $p$-value는 높게 나타나 통계적 유의성이 없어 보일 수 있습니다.
다. 판별 및 해결 방안
판별법:
VIF (분산팽창요인): 일반적으로 $VIF > 10$ 이상이면 다중공선성이 심각하다고 판단.
상관관계 행렬: 변수 간 상관계수가 $0.9$ 이상인 경우 의심.
상태지수(Condition Index): 지수가 $30$ 이상인 경우 발생 가능성 높음.
해결방안:
변수 제거: 상관관계가 높은 변수 중 중요도가 낮은 변수 삭제.
변수 통합: 주성분 분석(PCA)을 통한 차원 축소 및 변수 결합.
규제 모델 활용: Ridge 또는 Lasso 회귀를 통해 계수의 크기를 제한하여 변동성 억제.
3. 등분산성과 다중공선성의 비교 요약
| 구분 | 오차의 등분산성 | 독립변수의 다중공선성 |
| 관심 대상 | 오차항(Residual)의 분포 | 독립변수(X) 간의 관계 |
| 핵심 가정 | 가우스-마르코프 기본 가정 | 독립변수 간 독립성 유지 |
| 주요 판별 | 잔차 산점도, White Test | VIF (분산팽창요인) |
| 발생 영향 | 추정치의 효율성 상실, $t$-검정 오류 | 계수 추정치의 분산 증가, 해석 불가 |
4. 기술사적 제언: 모델 강건성(Robustness) 확보 전략
데이터 전처리의 중요성: 다중공선성은 데이터 수집 단계의 편향에서 기인하는 경우가 많으므로, 탐색적 데이터 분석(EDA) 단계에서 변수 간 관계를 면밀히 파악해야 합니다.
정교한 알고리즘 선택: 단순 OLS 회귀보다는 데이터 특성에 따라 Elastic Net과 같은 하이브리드 규제 모델을 사용하여 등분산성과 다중공선성 문제를 동시에 완화하는 아키텍처 설계가 필요합니다.
비즈니스 해석력과 성능의 균형: 기술사는 높은 예측 성능($R^2$)뿐만 아니라, 독립변수의 기여도를 명확히 설명할 수 있도록 통계적 가정을 엄격히 준수하는 '신뢰할 수 있는 데이터 모델링' 역량을 발휘해야 합니다.
댓글 없음:
댓글 쓰기