Limit(0): 모델 성능 평가의 이면, PR 곡선과 ROC 곡선의 비교 분석

2026년 3월 31일 화요일

모델 성능 평가의 이면, PR 곡선과 ROC 곡선의 비교 분석

1. 분류 모델 평가를 위한 PR 및 ROC 곡선의 개요

가. PR(Precision-Recall) 곡선의 개념

**정밀도(Precision)**와 **재현율(Recall)**의 관계를 나타낸 곡선입니다.
주로 양성(Positive) 데이터가 매우 적은 불균형 데이터셋에서 모델의 성능을 정밀하게 평가하기 위해 사용합니다.

나. ROC(Receiver Operating Characteristic) 곡선의 개념

**민감도(TPR)**와 **거짓 긍정률(FPR)**의 관계를 나타낸 곡선입니다.
이진 분류 모델의 임계값(Threshold) 변화에 따른 분류 성능을 종합적으로 시각화합니다.

2. PR 곡선과 ROC 곡선의 메커니즘 및 주요 지표

가. 핵심 지표 산출식 (Confusion Matrix 기반)

지표명	공식	의미
Precision (정밀도)	$\frac{TP}{TP + FP}$	Positive로 예측한 것 중 실제 Positive인 비율
Recall (재현율, TPR)	$\frac{TP}{TP + FN}$	실제 Positive인 것 중 모델이 맞춘 비율
FPR (거짓 긍정률)	$\frac{FP}{FP + TN}$	실제 Negative인 것 중 모델이 틀린 비율

나. 곡선의 형상과 해석

ROC 곡선: 왼쪽 상단(0, 1)에 가까울수록 성능이 우수하며, 하단 면적인 **AUC(Area Under Curve)**로 성능을 정량화합니다.
PR 곡선: 오른쪽 상단(1, 1)에 가까울수록 성능이 우수하며, 면적인 **AP(Average Precision)**로 평가합니다.

3. PR 곡선과 ROC 곡선의 상세 비교

비교 항목	ROC 곡선 (AUC)	PR 곡선 (AP)
평가 축 (X, Y)	X: FPR, Y: TPR(Recall)	X: Recall, Y: Precision
데이터 특성	클래스 분포가 균등할 때 유리함	클래스 불균형(Imbalance) 시 유리함
기준점(Baseline)	무작위 예측 시 $0.5$ (대각선)	양성 클래스의 비율에 따라 가변적임
특징	TN(True Negative)을 계산에 포함함	TN을 고려하지 않음 (Positive에 집중)
변화 민감도	데이터 분포 변화에 강건함(Robust)	데이터 분포 변화에 민감하게 반응함

4. 상황별 선택 가이드 및 활용 사례

클래스 불균형이 심한 경우 (PR 곡선 권장):
- 암 진단, 사기 탐지(FDS)와 같이 음성(Normal) 데이터는 압도적으로 많고 양성(Abnormal) 데이터가 극소수인 경우입니다.
- ROC 곡선은 다수의 TN으로 인해 성능이 과하게 좋게 보일 수 있으므로, PR 곡선을 통해 희소한 양성 데이터에 대한 정밀도를 확인해야 합니다.
클래스 분포가 비슷한 경우 (ROC 곡선 권장):
- 일반적인 스팸 메일 분류나 성별 분류 등 두 클래스의 비중이 유사한 경우입니다.
- 모델의 전반적인 분류 변별력을 판단하는 데 ROC AUC가 가장 보편적이고 안정적입니다.

5. 기술사적 제언: 비즈니스 목적에 따른 임계값(Threshold) 최적화

F1-Score와의 연계: PR 곡선상에서 정밀도와 재현율의 균형점인 F1-Score가 최대가 되는 임계값을 찾아 시스템에 적용하는 설계 역량이 필요합니다.
비용 함수(Cost Function) 고려: 재현율이 중요한 서비스(암 진단)인지, 정밀도가 중요한 서비스(유료 마케팅 타겟팅)인지를 분석하여 평가 지표를 우선순위화해야 합니다.
모델 해석력(XAI) 결합: 단순히 곡선의 면적만 볼 것이 아니라, 임계값 변화에 따라 어떤 특성(Feature)이 결과에 영향을 주는지 분석하여 모델의 신뢰성을 확보해야 합니다.

댓글 없음:

피드 구독하기: 댓글 (Atom)