F1 스코어와 관련된 평가 지표
1. F1 스코어란?
- F1 스코어는 정밀도(Precision)와 재현율(Recall)의 조화 평균을 계산한 값입니다.
- 정의:
[
F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
]
- 사용 목적:
- 데이터의 불균형이 있는 상황에서 모델 성능 평가.
- 정밀도와 재현율 사이의 균형 확인.
2. F1 스코어를 구성하는 주요 요소
(1) 정밀도 (Precision)
- 정의: 모델이 양성으로 예측한 것 중 실제로 양성인 비율.
[
\text{Precision} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP)} + \text{False Positives (FP)}}
]
- 목적: 예측 결과의 정확성 평가.
- 높은 Precision: 잘못된 양성 예측(FP)이 적음.
(2) 재현율 (Recall)
- 정의: 실제 양성인 것 중 모델이 양성으로 예측한 비율.
[
\text{Recall} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP)} + \text{False Negatives (FN)}}
]
- 목적: 모델이 얼마나 실제 양성을 놓치지 않았는지 평가.
- 높은 Recall: 놓친 양성(FN)이 적음.
(3) F1 스코어의 해석
- F1 스코어는 Precision과 Recall의 균형을 평가:
- Precision과 Recall이 비슷할수록 F1 값이 높음.
- 두 값 중 하나가 매우 낮으면 F1 스코어도 낮아짐.
- 완벽한 모델: F1 스코어 = 1 (Precision = Recall = 1).
- 무의미한 모델: F1 스코어 = 0.
3. F1 스코어와 유사하거나 관련된 다른 평가 지표
(1) Accuracy (정확도)
- 정의: 전체 데이터 중 모델이 정확히 예측한 비율.
[
\text{Accuracy} = \frac{\text{TP + TN}}{\text{TP + TN + FP + FN}}
]
- 한계:
- 데이터가 불균형일 경우, 정확도가 높아도 의미가 없을 수 있음.
- 예: 양성이 1%인 데이터에서 모든 샘플을 음성으로 예측해도 99%의 정확도를 달성.
(2) Specificity (특이도)
- 정의: 실제 음성인 것 중 모델이 음성으로 올바르게 예측한 비율.
[
\text{Specificity} = \frac{\text{True Negatives (TN)}}{\text{True Negatives (TN)} + \text{False Positives (FP)}}
]
- 목*: 모델이 음성을 얼마나 잘 예측하는지 평가.
(3) Balanced Accuracy
- 정의: Accuracy의 균형 조정 버전으로, 클래스 불균형 문제를 해결.
[
\text{Balanced Accuracy} = \frac{\text{Sensitivity} + \text{Specificity}}{2}
]
- 특징: 데이터 불균형 상황에서 정확한 평가 가능.
(4) ROC-AUC (Receiver Operating Characteristic - Area Under Curve)
- 정의: TPR(재현율)과 FPR(1 - 특이도) 간의 관계를 나타낸 곡선의 아래 면적.
[
\text{AUC} = \int_{0}^{1} \text{ROC Curve}
]
- 목적: 모델의 전반적인 분류 능력 평가.
- AUC = 1: 완벽한 모델.
- AUC = 0.5: 랜덤 예측 수준.
(5) Matthews Correlation Coefficient (MCC)
- 정의: TP, TN, FP, FN 간의 상관관계를 측정.
[
\text{MCC} = \frac{\text{TP} \cdot \text{TN} - \text{FP} \cdot \text{FN}}{\sqrt{(\text{TP}+\text{FP})(\text{TP}+\text{FN})(\text{TN}+\text{FP})(\text{TN}+\text{FN})}}
]
- 목적: 데이터 불균형 상황에서도 성능 평가 가능.
(6) Fβ 스코어
- 정의: Precision과 Recall 사이의 가중치를 조정한 F1 스코어.
[
F_\beta = (1 + \beta^2) \cdot \frac{\text{Precision} \cdot \text{Recall}}{(\beta^2 \cdot \text{Precision}) + \text{Recall}}
]
- (\beta = 1): F1 스코어 (Precision과 Recall 동일 가중치).
- (\beta > 1): Recall에 더 높은 가중치.
- (\beta < 1): Precision에 더 높은 가중치.
(7) Log Loss (Logarithmic Loss)
- 정의: 예측 확률과 실제 레이블 간의 오차를 계산.
[
\text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]
]
- 목적: 확률 기반 예측 평가.
(8) G-Mean (Geometric Mean)
- 정의: 민감도(재현율)와 특이도의 기하 평균.
[
G\text{-Mean} = \sqrt{\text{Sensitivity} \cdot \text{Specificity}}
]
- 목적: 데이터 불균형 문제를 다룰 때 사용.
4. 활용 요약
- F1 스코어: Precision과 Recall 사이의 균형을 강조.
- ROC-AUC: 전체적인 분류 성능.
- Specificity와 Sensitivity: 음성과 양성 각각의 예측 능력 평가.
- MCC: 데이터 불균형 상황에서 전체적인 모델 성능 평가.
- Fβ 스코어: Precision과 Recall의 가중치 조정 필요 시.
이 지표들은 문제의 특성과 평가하고자 하는 모델의 목적에 따라 적절히 선택해야 한다.