1. 통계적 가설검정의 출발점, 중심극한정리의 개요
정의: 모집단의 분포 형상과 관계없이, 표본의 크기($n$)가 충분히 크면(통상 $n \ge 30$) 표본평균들의 분포가 정규분포에 근접한다는 정리.
의미: 현실적으로 알기 어려운 모집단의 특성을 표본 데이터의 분포를 통해 확률적으로 추론할 수 있는 수학적 근거를 제공함.
2. 중심극한정리(Central Limit Theorem, CLT)의 메커니즘
평균과 분산: 모집단의 평균이 $\mu$, 표준편차가 $\sigma$일 때, 표본평균 $\bar{X}$의 분포는 $N(\mu, \frac{\sigma^2}{n})$에 따름.
표준오차(Standard Error): 표본 크기($n$)가 커질수록 표본평균의 변동성(분산)은 줄어들어 추정의 정확도가 향상됨.
3. 모집단의 정보에 따른 가설검정: Z-검정과 t-검정
가. Z-검정 (Z-test): 모분산을 아는 경우
개념: 모집단의 표준편차($\sigma$)가 알려져 있거나, 표본의 크기가 충분히 커서 모분산을 추정할 수 있을 때 사용하는 검정 방식.
검정 통계량: $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$
특징: 표준정규분포(평균 0, 분산 1)를 이용하여 임계값과 비교함.
나. t-검정 (t-test): 모분산을 모르는 경우
개념: 모집단의 표준편차를 알 수 없어 표본 표준편차($s$)로 대체해야 할 때, 또는 표본 크기가 작을 때 사용하는 검정 방식.
검정 통계량: $t = \frac{\bar{X} - \mu}{s / \sqrt{n}}$
특징: t-분포를 따르며, 표본 크기에 따른 **자유도(Degree of Freedom, $n-1$)**를 고려함. 표본이 커질수록 Z-분포에 수렴함.
4. Z-검정과 t-검정의 비교 분석
| 구분 | Z-검정 (Z-test) | t-검정 (t-test) |
| 모분산($\sigma^2$) | 알고 있음 (또는 대규모 표본) | 모름 (표본 분산 $s^2$ 사용) |
| 표본 크기 ($n$) | 대규모 ($n \ge 30$) | 소규모 ($n < 30$에 주로 활용) |
| 참조 분포 | 표준정규분포 | t-분포 (자유도 반영) |
| 분포의 형태 | 뾰족한 종 모양 | 정규분포보다 꼬리가 두꺼움(Fat tail) |
| 주요 용도 | 대규모 데이터 기반 평균 검정 | 소규모 임상시험, 품질관리 샘플 검사 |
5. 통계적 유의성 판단 및 기술사적 제언
p-value의 해석: 계산된 통계량이 유의수준($\alpha$, 통상 0.05)보다 작으면 귀무가설을 기각하고 대립가설을 채택함.
데이터 사이언스에서의 활용: 머신러닝 모델 간 성능 비교 시, 두 모델의 정확도 차이가 통계적으로 유의미한지 판단하기 위해 Paired t-test 등을 적극 활용함.
결언: 중심극한정리는 비정규 데이터에서도 통계적 추론을 가능케 하는 핵심 원리임. 기술사는 데이터의 특성(표본 수, 분산 인지 여부)에 따라 적절한 검정 기법을 선택하여 의사결정의 객관적 근거를 제시해야 함.
댓글 없음:
댓글 쓰기