1. 머신러닝 성능지표의 개요 및 필요성
가. 머신러닝 성능지표의 정의
학습이 완료된 머신러닝 모델의 예측 결과와 실제 데이터(Ground Truth)를 비교하여, 모델의 정확성, 효율성, 신뢰성을 정량적으로 평가하는 척도입니다.
나. 도입 필요성
모델의 최적화: 하이퍼파라미터 튜닝 및 최적의 알고리즘 선택을 위한 객관적 기준 제공.
비즈니스 목표 정렬: 도메인 특성(예: 의료 진단 vs 스팸 분류)에 따른 오분류 비용(Cost)을 반영한 모델 평가.
과적합(Overfitting) 방지: 학습 데이터와 테스트 데이터의 성능을 비교하여 모델의 일반화(Generalization) 성능 검증.
2. 분류(Classification) 모델의 주요 성능지표
분류 모델의 평가는 실제 클래스와 예측 클래스의 일치 여부를 나타내는 **오차행렬(Confusion Matrix)**을 기반으로 산출됩니다.
가. 오차행렬 (Confusion Matrix) 요소
| 구분 | 예측: Positive (긍정) | 예측: Negative (부정) |
| 실제: Positive | TP (True Positive): 정답을 맞춤 | FN (False Negative): 긍정을 부정으로 오판 |
| 실제: Negative | FP (False Positive): 부정을 긍정으로 오판 | TN (True Negative): 정답을 맞춤 |
나. 주요 평가 지표
| 지표명 | 수식 | 의미 및 활용 목적 |
정확도 (Accuracy) | $Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$ | 전체 예측 중 올바르게 예측한 비율. 데이터 불균형 시 신뢰도가 하락하는 단점 존재. |
정밀도 (Precision) | $Precision = \frac{TP}{TP + FP}$ | 모델이 Positive로 예측한 것 중 실제 Positive인 비율. FP(오탐)를 줄여야 할 때 중요 (예: 스팸 메일 필터링). |
재현율 (Recall) | $Recall = \frac{TP}{TP + FN}$ | 실제 Positive인 것 중 모델이 Positive로 예측한 비율. FN(미탐)을 줄여야 할 때 중요 (예: 암 환자 진단). |
| F1-Score | $F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$ | 정밀도와 재현율의 조화평균(Harmonic Mean). 데이터 클래스가 심하게 불균형할 때 성능을 평가하는 핵심 지표. |
3. 확률 기반 분류 평가 지표 (ROC Curve 및 AUC)
단일 임계값(Threshold)이 아닌, 다양한 임계값에서의 모델 성능을 종합적으로 평가하기 위해 사용됩니다.
| 지표명 | 특징 및 설명 |
| ROC Curve | 거짓 긍정률($FPR = \frac{FP}{FP+TN}$)을 X축으로, 참 긍정률($TPR = Recall$)을 Y축으로 그린 곡선. 좌상단에 붙을수록 우수한 모델. |
| AUC (Area Under Curve) | ROC 곡선 아래의 면적을 수치화한 값. $0.5$ ~ $1.0$ 사이의 값을 가지며, $1$에 가까울수록 분류 성능이 뛰어남을 의미함. |
4. 회귀(Regression) 모델의 주요 성능지표
회귀 모델은 연속적인 값을 예측하므로, 실제값($y_i$)과 예측값($\hat{y}_i$)의 차이인 **오차(Error)**를 기반으로 평가합니다.
| 지표명 | 수식 | 특징 및 설명 |
| MAE | $MAE = \frac{1}{n} \sum | y_i - \hat{y}_i |
| MSE | $MSE = \frac{1}{n} \sum (y_i - \hat{y}_i)^2$ | 오차의 제곱 평균. 큰 오차에 대해 무거운 페널티를 부여함. |
| RMSE | $RMSE = \sqrt{MSE}$ | MSE에 루트를 씌워 실제 데이터와 동일한 단위를 가지게 하여 직관적 해석 가능. |
| $R^2$ (결정계수) | $R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$ | 모델이 데이터의 분산을 얼마나 설명하는지 나타내는 비율. $1$에 가까울수록 설명력이 높음. |
5. 기술사적 제언: 비즈니스 맥락에 따른 성능지표의 전략적 선택
머신러닝 프로젝트의 성패는 알고리즘의 고도화뿐만 아니라, **'어떤 지표를 최적화할 것인가'**에 대한 기술사의 통찰력에 달려 있습니다.
데이터 불균형(Imbalanced Data)의 함정 회피:
제조업의 불량 탐지나 금융 사기 적발(FDS)과 같이 정상 데이터가 압도적으로 많은 환경에서는 '정확도(Accuracy)'가 $99%$라도 무의미할 수 있습니다. 이때는 F1-Score나 **PR AUC(Precision-Recall AUC)**를 핵심 KPI로 설정해야 합니다.
Trade-off의 비즈니스적 해석:
정밀도와 재현율은 상충 관계(Trade-off)에 있습니다. 보안 관제 시스템에서는 미탐(FN)으로 인한 해킹 피해액이 오탐(FP)으로 인한 분석가 인건비보다 크므로, 임계값을 낮춰 **재현율(Recall)**을 극대화하는 방향으로 모델링 전략을 수립해야 합니다.
설명 가능성(XAI)과의 연계:
성능지표는 결과의 정확성만 보여줄 뿐, 그 이유를 설명하지 못합니다. 높은 성능지표를 달성하더라도 실무에 적용하기 위해서는 SHAP, LIME 등의 기법을 결합하여 예측의 근거를 제공하는 AI 거버넌스 체계가 병행되어야 합니다.
댓글 없음:
댓글 쓰기