Limit(0): 대수의 법칙과 중심극한정리

1. 빅데이터 통계 분석의 근간, 대수의 법칙과 중심극한정리의 개요

대수의 법칙(Law of Large Numbers): 표본의 크기( $n$ )가 커질수록 표본평균( $\bar{X}$ )이 모집단의 실제 평균( $\mu$ )에 가까워진다는 정리 (확률적 수렴성 증명).
중심극한정리(Central Limit Theorem): 모집단의 분포 모양과 관계없이, 표본의 크기( $n$ )가 충분히 크면(보통 $n \ge 30$ ), 표본평균들의 분포가 정규분포(Normal Distribution)를 따른다는 정리.

약한 대수의 법칙(WLLN): 표본의 크기가 무한히 커지면, 표본평균이 모평균과 다를 확률이 0에 수렴함 (확률 수렴).
강한 대수의 법칙(SLLN): 표본의 크기가 무한히 커지면, 표본평균이 모평균에 거의 확실하게(Almost surely) 일치함 (확실 수렴).

\lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1

모집단의 비정규성 극복: 모집단이 균일분포, 이항분포, 혹은 왜도(Skewness)가 심한 분포라 할지라도 표본평균의 분포는 정규분포로 수렴함.
수학적 공식화: 모집단의 평균이 $\mu$ , 표준편차가 $\sigma$ 일 때, 표본평균 $\bar{X}$의 분포는 다음과 같이 정규분포에 수렴함.

\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

비교 항목	대수의 법칙 (LLN)	중심극한정리 (CLT)
핵심 관심사	표본평균의 수렴 값 (기댓값 일치 여부)	표본평균의 확률 분포 형태
결과 형태	상수 (모평균 $\mu$ )	확률 분포 (정규분포 $N$ )
수학적 기반	체비셰프 부등식, 마르코프 부등식	특성함수(Characteristic Function), 테일러 전개
주요 용도	모수 추정의 일치성(Consistency) 증명	가설 검정, 신뢰구간(Confidence Interval) 산정

두 법칙은 표본 데이터( $n$ )가 증가함에 따라 서로 보완적으로 작동하며 모집단을 추론하는 기반이 된다.

상황 발생: 모집단에서 표본 크기 $n$ 인 샘플을 무한히 반복 추출.
CLT 작동: 추출된 표본평균들의 분포를 그려보면 아름다운 종 모양(정규분포)을 형성함.
LLN 작동: 이때 $n$ 을 극단적으로 키우면 분산( $\frac{\sigma^2}{n}$ )이 0에 가까워지면서, 종 모양이 모평균( $\mu$ ) 위치로 칼처럼 날카롭게 수렴함.

A/B 테스트의 유의성 검정: 데이터 분포가 정규분포를 따르지 않는 웹 로그 데이터 분석 시, 샘플 수가 충분하다면 CLT를 근거로 $z$ -test 또는 $t$ -test 수행 가능.
몬테카를로 시뮬레이션 (Monte Carlo): 무작위 추출(Sampling)을 반복하여 복잡한 함수의 기댓값을 구하는 계산 기법으로, 대수의 법칙에 의해 반복 횟수가 많을수록 정확도가 보장됨.

표본 추출(Sampling) 최적화: 빅데이터 환경에서 전수 조사가 불가능할 때, CLT 표준오차 공식을 역산하여 비용 대비 최적의 표본 크기( $n \ge 30$ 이상 중 최적점)를 결정하여 데이터 처리 리소스 절감.
품질 관리 및 이상 탐지: 데이터 파이프라인에서 발생하는 지연 시간(Latency)이나 에러율의 표본 분포를 정규분포로 가정하고, $3\sigma$ 구간을 벗어나는 시스템 이상 징후를 실시간 탐지(SPC)하는 기준선으로 활용.