1. 이산확률분포의 핵심, 이항 분포와 포아송 분포의 개요
가. 이항 분포 (Binomial Distribution)
결과가 '성공' 아니면 '실패'인 **베르누이 시행(Bernoulli Trial)**을 $n$번 독립적으로 반복했을 때, 성공 횟수 $X$의 확률 분포입니다.
주요 파라미터: 시행 횟수($n$), 성공 확률($p$).
나. 포아송 분포 (Poisson Distribution)
정해진 시간이나 공간 단위 내에서 발생하는 희귀 사건의 횟수에 대한 확률 분포입니다.
주요 파라미터: 단위당 평균 발생 횟수($\lambda$).
2. 두 분포의 확률질량함수(PMF) 및 특성 비교
| 구분 | 이항 분포 (Binomial) | 포아송 분포 (Poisson) |
| 확률 함수 | $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$ | $P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}$ |
| 시행 조건 | 시행 횟수($n$)가 고정됨 | 시행 횟수($n$)가 매우 많거나 무한함 |
| 평균 ($E[X]$) | $np$ | $\lambda$ |
| 분산 ($Var[X]$) | $np(1-p)$ | $\lambda$ (평균과 분산이 같음) |
| 주요 특징 | 독립적인 반복 시행 중심 | 특정 구간 내 사건 발생률 중심 |
3. 이항 분포와 포아송 분포의 상관관계 (포아송 근사)
이항 분포에서 시행 횟수가 매우 커지고 성공 확률이 매우 작아지면 포아송 분포로 수렴하게 됩니다.
근사 조건: 시행 횟수 $n$이 충분히 크고($n \ge 30$), 성공 확률 $p$가 매우 작으며($p \le 0.1$), $np = \lambda$가 일정할 때 적용됩니다.
의의: 계산이 복잡한 조합($\binom{n}{k}$) 연산을 지수 함수($e$) 연산으로 단순화하여 대규모 데이터 분석의 효율성을 제고할 수 있습니다.
4. IT 실무 측면의 활용 사례 비교
| 분류 | 이항 분포 활용 사례 | 포아송 분포 활용 사례 |
| 네트워크 | 패킷 전송 시 성공/실패 확률 계산 | 단위 시간당 서버에 도착하는 요청(Request) 수 |
| 품질 관리 | 소프트웨어 모듈의 결함 유무(Pass/Fail) 판정 | 코드 1,000라인당 발생하는 버그(Bug) 수 |
| 하드웨어 | 반도체 웨이퍼의 양품/불량품 개수 추정 | 장비 가동 중 발생하는 고장(Failure) 횟수 |
5. 기술사적 제언: 데이터 특성에 따른 모델 선택 전략
도메인 적합성 판단: 시행 횟수가 명확한 프로젝트 관리(성공/실패)는 이항 분포를, 트래픽 폭주나 보안 사고 탐지와 같은 시계열 이벤트는 포아송 분포를 우선적으로 고려해야 합니다.
모델 고도화: 포아송 분포에서 사건 발생 사이의 **'대기 시간'**에 관심이 있다면 지수 분포(Exponential Distribution)로 확장하여 대기행렬 이론(Queueing Theory)을 적용하는 통합적 시각이 필요합니다.
정규 분포로의 확장: $n$이 충분히 커지면 중심한계정리에 의해 두 분포 모두 정규 분포로 근사할 수 있으므로, 대규모 통계 분석 시 분석 비용과 정확도 사이의 균형을 맞추는 아키텍처 설계가 요구됩니다.
댓글 없음:
댓글 쓰기