1. 분류 모델 평가를 위한 PR 및 ROC 곡선의 개요
가. PR(Precision-Recall) 곡선의 개념
**정밀도(Precision)**와 **재현율(Recall)**의 관계를 나타낸 곡선입니다.
주로 양성(Positive) 데이터가 매우 적은 불균형 데이터셋에서 모델의 성능을 정밀하게 평가하기 위해 사용합니다.
나. ROC(Receiver Operating Characteristic) 곡선의 개념
**민감도(TPR)**와 **거짓 긍정률(FPR)**의 관계를 나타낸 곡선입니다.
이진 분류 모델의 임계값(Threshold) 변화에 따른 분류 성능을 종합적으로 시각화합니다.
2. PR 곡선과 ROC 곡선의 메커니즘 및 주요 지표
가. 핵심 지표 산출식 (Confusion Matrix 기반)
| 지표명 | 공식 | 의미 |
| Precision (정밀도) | $\frac{TP}{TP + FP}$ | Positive로 예측한 것 중 실제 Positive인 비율 |
| Recall (재현율, TPR) | $\frac{TP}{TP + FN}$ | 실제 Positive인 것 중 모델이 맞춘 비율 |
| FPR (거짓 긍정률) | $\frac{FP}{FP + TN}$ | 실제 Negative인 것 중 모델이 틀린 비율 |
나. 곡선의 형상과 해석
ROC 곡선: 왼쪽 상단(0, 1)에 가까울수록 성능이 우수하며, 하단 면적인 **AUC(Area Under Curve)**로 성능을 정량화합니다.
PR 곡선: 오른쪽 상단(1, 1)에 가까울수록 성능이 우수하며, 면적인 **AP(Average Precision)**로 평가합니다.
3. PR 곡선과 ROC 곡선의 상세 비교
| 비교 항목 | ROC 곡선 (AUC) | PR 곡선 (AP) |
| 평가 축 (X, Y) | X: FPR, Y: TPR(Recall) | X: Recall, Y: Precision |
| 데이터 특성 | 클래스 분포가 균등할 때 유리함 | 클래스 불균형(Imbalance) 시 유리함 |
| 기준점(Baseline) | 무작위 예측 시 $0.5$ (대각선) | 양성 클래스의 비율에 따라 가변적임 |
| 특징 | TN(True Negative)을 계산에 포함함 | TN을 고려하지 않음 (Positive에 집중) |
| 변화 민감도 | 데이터 분포 변화에 강건함(Robust) | 데이터 분포 변화에 민감하게 반응함 |
4. 상황별 선택 가이드 및 활용 사례
클래스 불균형이 심한 경우 (PR 곡선 권장):
암 진단, 사기 탐지(FDS)와 같이 음성(Normal) 데이터는 압도적으로 많고 양성(Abnormal) 데이터가 극소수인 경우입니다.
ROC 곡선은 다수의 TN으로 인해 성능이 과하게 좋게 보일 수 있으므로, PR 곡선을 통해 희소한 양성 데이터에 대한 정밀도를 확인해야 합니다.
클래스 분포가 비슷한 경우 (ROC 곡선 권장):
일반적인 스팸 메일 분류나 성별 분류 등 두 클래스의 비중이 유사한 경우입니다.
모델의 전반적인 분류 변별력을 판단하는 데 ROC AUC가 가장 보편적이고 안정적입니다.
5. 기술사적 제언: 비즈니스 목적에 따른 임계값(Threshold) 최적화
F1-Score와의 연계: PR 곡선상에서 정밀도와 재현율의 균형점인 F1-Score가 최대가 되는 임계값을 찾아 시스템에 적용하는 설계 역량이 필요합니다.
비용 함수(Cost Function) 고려: 재현율이 중요한 서비스(암 진단)인지, 정밀도가 중요한 서비스(유료 마케팅 타겟팅)인지를 분석하여 평가 지표를 우선순위화해야 합니다.
모델 해석력(XAI) 결합: 단순히 곡선의 면적만 볼 것이 아니라, 임계값 변화에 따라 어떤 특성(Feature)이 결과에 영향을 주는지 분석하여 모델의 신뢰성을 확보해야 합니다.
댓글 없음:
댓글 쓰기