1. 이산확률분포의 기초, 베르누이와 기하 분포의 개요
베르누이 분포(Bernoulli Distribution): 결과가 '성공' 혹은 '실패' 두 가지 중 하나로만 나타나는 단일 시행의 확률 분포. 이항 분포의 특수한 형태($n=1$).
기하 분포(Geometric Distribution): 베르누이 시행을 반복할 때, **'처음으로 성공'**이 나타날 때까지 필요한 시행 횟수(또는 실패 횟수)의 확률 분포.
2. 가. 베르누이 분포 (Bernoulli Distribution)
1) 정의 및 확률질량함수(PMF)
성공 확률이 $p$, 실패 확률이 $q = 1-p$인 단일 시행에서 확률변수 $X$가 취하는 분포입니다.
2) 기댓값과 분산
기댓값 $E(X)$: $p$
분산 $V(X)$: $p(1-p) = pq$
3) 특징 및 활용
모든 이산형 확률 모델(이항, 기하, 음이항 등)의 **기본 단위(Building Block)**임.
동전 던지기, 투표 찬반, 시스템의 정상/고장 여부 판별 등에 활용.
3. 나. 기하 분포 (Geometric Distribution)
1) 정의 및 확률질량함수(PMF)
매회 성공 확률이 $p$인 독립적인 베르누이 시행을 반복하여, $x$번째에 첫 번째 성공이 나올 확률입니다.
2) 기댓값과 분산
기댓값 $E(X)$: $\frac{1}{p}$ (첫 성공까지 평균 시행 횟수)
분산 $V(X)$: $\frac{1-p}{p^2} = \frac{q}{p^2}$
3) 주요 특징: 무기억성 (Memoryless Property)
개념: 과거의 실패가 미래의 성공 확률에 영향을 주지 않음. 즉, 이미 $n$번 실패했더라도 앞으로 $m$번 더 시행해서 성공할 확률은 처음부터 $m$번 시행해서 성공할 확률과 동일함.
수식: $P(X > n+m | X > n) = P(X > m)$
4. 다. 베르누이 분포와 기하 분포 비교 및 관계
| 비교 항목 | 베르누이 분포 | 기하 분포 |
| 관심 대상 | 단일 시행의 결과 (성공/실패) | 첫 성공이 발생할 때까지의 시행 횟수 |
| 확률변수 $X$ | 0 또는 1 | 1, 2, 3, ... (이산적 무한) |
| 매개변수 (Parameter) | 성공 확률 $p$ | 성공 확률 $p$ |
| 주요 활용 | 단순 가부 결정 모델링 | 마케팅 응답률 분석, 대기 행렬 모델링 |
| 상호 관계 | 독립적 베르누이 시행의 반복 | 기하 분포는 베르누이 시행의 확장형 |
5. 기술사적 제언: 확률 모델을 활용한 IT 성능 분석 및 신뢰성 설계
시스템 장애 분석: 특정 서버가 고장 날 확률($p$)을 베르누이 분포로 정의하고, 평균적으로 몇 번째 요청에서 장애가 발생할지 기하 분포($1/p$)를 통해 예측하여 유지보수 주기 산정.
알고리즘 효율성: 해시 충돌(Hash Collision)이 발생할 때까지의 시도 횟수나, 네트워크 패킷 전송 성공 시까지의 재전송 횟수 분석에 기하 분포 적용.
결언: 데이터 사이언스와 AI 모델링의 핵심은 기초 통계임. 기술사는 베르누이와 기하 분포의 원리를 바탕으로 시스템의 **'신뢰도(Reliability)'**를 정량적으로 계산하고 최적의 가용성 전략을 수립해야 함.
댓글 없음:
댓글 쓰기