Limit(0): 데이터 추론의 통계적 기초: 중심극한정리와 Z-검정 및 t-검정의 비교 분석

2026년 3월 31일 화요일

데이터 추론의 통계적 기초: 중심극한정리와 Z-검정 및 t-검정의 비교 분석

1. 통계적 가설검정의 출발점, 중심극한정리의 개요

정의: 모집단의 분포 형상과 관계없이, 표본의 크기( $n$ )가 충분히 크면(통상 $n \ge 30$ ) 표본평균들의 분포가 정규분포에 근접한다는 정리.
의미: 현실적으로 알기 어려운 모집단의 특성을 표본 데이터의 분포를 통해 확률적으로 추론할 수 있는 수학적 근거를 제공함.

2. 중심극한정리(Central Limit Theorem, CLT)의 메커니즘

평균과 분산: 모집단의 평균이 $\mu$ , 표준편차가 $\sigma$ 일 때, 표본평균 $\bar{X}$의 분포는 $N(\mu, \frac{\sigma^2}{n})$에 따름.
표준오차(Standard Error): 표본 크기( $n$ )가 커질수록 표본평균의 변동성(분산)은 줄어들어 추정의 정확도가 향상됨.

3. 모집단의 정보에 따른 가설검정: Z-검정과 t-검정

가. Z-검정 (Z-test): 모분산을 아는 경우

개념: 모집단의 표준편차( $\sigma$ )가 알려져 있거나, 표본의 크기가 충분히 커서 모분산을 추정할 수 있을 때 사용하는 검정 방식.
검정 통계량: $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$
특징: 표준정규분포(평균 0, 분산 1)를 이용하여 임계값과 비교함.

나. t-검정 (t-test): 모분산을 모르는 경우

개념: 모집단의 표준편차를 알 수 없어 표본 표준편차( $s$ )로 대체해야 할 때, 또는 표본 크기가 작을 때 사용하는 검정 방식.
검정 통계량: $t = \frac{\bar{X} - \mu}{s / \sqrt{n}}$
특징: t-분포를 따르며, 표본 크기에 따른 **자유도(Degree of Freedom, $n-1$ )**를 고려함. 표본이 커질수록 Z-분포에 수렴함.

4. Z-검정과 t-검정의 비교 분석

구분	Z-검정 (Z-test)	t-검정 (t-test)
모분산( $\sigma^2$ )	알고 있음 (또는 대규모 표본)	모름 (표본 분산 $s^2$ 사용)
표본 크기 ( $n$ )	대규모 ( $n \ge 30$ )	소규모 ( $n < 30$ 에 주로 활용)
참조 분포	표준정규분포	t-분포 (자유도 반영)
분포의 형태	뾰족한 종 모양	정규분포보다 꼬리가 두꺼움(Fat tail)
주요 용도	대규모 데이터 기반 평균 검정	소규모 임상시험, 품질관리 샘플 검사

5. 통계적 유의성 판단 및 기술사적 제언

p-value의 해석: 계산된 통계량이 유의수준( $\alpha$ , 통상 0.05)보다 작으면 귀무가설을 기각하고 대립가설을 채택함.
데이터 사이언스에서의 활용: 머신러닝 모델 간 성능 비교 시, 두 모델의 정확도 차이가 통계적으로 유의미한지 판단하기 위해 Paired t-test 등을 적극 활용함.
결언: 중심극한정리는 비정규 데이터에서도 통계적 추론을 가능케 하는 핵심 원리임. 기술사는 데이터의 특성(표본 수, 분산 인지 여부)에 따라 적절한 검정 기법을 선택하여 의사결정의 객관적 근거를 제시해야 함.

댓글 없음:

피드 구독하기: 댓글 (Atom)