모델에 대한 평가를 하다보면, 평가지표인 accuracy, precision, recall(=sensitivity), specificity 라는 용어를 보게된다. 보통은 2x2 confusion matrix에서 계산하지만 그 이상의 사이즈를 가진 matrix에 대해서도 계산하는 방법을 소개하겠다.
위 2x2 confusion matrix에서는 case를 기준으로 한다.
True or False ?
True는 실제와 예상되는 결과나 실험 결과가 일치할 경우를 이야기한다.
False는 일치하지 않는 경우이다.
Positive or Negative ?
Positive는 예상되는 결과가 positive인 경우, 즉 case라고 예상됨을 이야기한다.
Negative는 예상되는 결과가 case가 아닌, 다시말해 예상되는 기준이 아님을 이야기한다.
평가지표에대해 알아보자.
- Accuracy : 전체에서 예상과 실제와 맞는게 얼만큼인가 이다. 정밀도라고 한다.
= (TP+TN) / Total
- Precision : 예상되는 Positive 결과 중에 실제와 맞는 결과는 얼만큼인가 이다. Case가 기준이라고 했으니까 얼만큼 정확하게 case를 찾았는가이다.
= TP / (TP + FP)
- Recall(=Sensitivity) : 실재 case에 대해서, 얼마나 잘 예측하는지 이다. 재현율 또는 민감도라고 말한다.
= TP / (TP + FN)
- Specificity : Recall과 반대로 control을 얼마나 잘 예측했는가 하는 것이다. 특이도라고 한다.
= TN / (TN + FP)
- F1-score : Precision과 Recall의 조화평균이다. 이 둘의 중요도를 동등하게 보고 계산하겠다는 뜻이다.
= 2 / (1/Precision + 1/Recall)
2x2보다 큰 사이즈인 4x4 confusion matrix에 대해서 알아보자.
A에 대해서 precision과 recall은 2x2 계산과 같고, accuracy는 전체에 대해 True값들을 계산하면 된다. 판단이 어려울 수 있는 부분은 true negative인데, A를 기준으로 보고 있고, 실재 A가 아닌 것들에 대해서 아닌 것으로 예측했니 true negative가 되는 것이다.
나머지 경우에 대해서도 마찬가지로 계산해 주면 되고, 위와 같이 2x2보다 큰 사이즈에서는 평가지표가 무엇인지 표시를 해 주어야 한다.
추가적으로, Type of error에 대해서 알아보자.
Type I error ( alpha error ) : False positive를 가리킨다.
Type II error ( beta error ) : False negative를 말한다.
이를 설명하는 잘 알려진 그림이 있다.
위 개념을 설명하기 위해서, 보통 한글로 귀무가설(Null hypothesis)라는 용어를 사용하는데 한자어라서 의미와 연결시켜 개념을 받아들이는데 어려움이 있다. 단어를 바꾸어야 할 필요성이 있어 보이고, 이에 대해서 다음에 글을 써보려한다.
Reference
- https://en.wikipedia.org/wiki/Type_I_and_type_II_errors
- https://en.wikipedia.org/wiki/Precision_and_recall
- [Tyepe of error image] https://effectsizefaq.com/2010/05/31/i-always-get-confused-about-type-i-and-ii-errors-can-you-show-me-something-to-help-me-remember-the-difference/
- https://acutecaretesting.org/en/articles/roc-curves-what-are-they-and-how-are-they-used
'Statistics' 카테고리의 다른 글
P-value (0) | 2020.11.30 |
---|---|
FDR : False Discovery Rate (0) | 2020.10.26 |
Geometric mean (0) | 2020.10.19 |
Bayesian inference (0) | 2020.08.03 |
Discrete probability distribution (0) | 2020.07.07 |
댓글