False discovery rate, FDR,이란 통계적 평가에서 type I error, 즉 Posive 중에 false positive가 얼만큼 나왔는가에 대한 지표이다. 다시 말해 유의한 결과를 찾은 것들 중에서 실제로 유의하지 않은 것들의 비율이다.
FDR은 conditional probability인 Bayesian inference이며, 수식은 다음과 같다.
FDR = P( not ill | test pos ) = P( test pos | not ill ) P( not ill ) / P( test pos )
where
P( test pos ) = P( test pos | not ill) P( not ill ) + P( test pos | ill ) P( ill ).
Positive로 판명된 사람들 중에 실제로 아프지 않은 사람이 얼만큼 되는지이다. 이것이 중요한 이유는 아프지 않은 사람을 아픈 사람으로 취급해서 치료를 진행하면 문제가 생기기 때문이기도 하지만, null hypothesis를 잘 설정하였는지, 통계적으로 얻은 값이 의미있다고 할 수 있는지, 결과를 얼만큼 신뢰할 수 있는지 등 수학적 모델에 대한 평가를 하는데 중요한 역할을 하기 때문이다.
위 tree diagram을 보자. 10,000명의 사람이 있을 때, 전염성이 1%인 병에 대해서 alpha를 5%, 즉 5%인 495명을 잘못 판단하는 오류까지는 significant하다고 해보자.
FDR = (0.05*9900) / (0.05*9900 + 0.8*100) = 495/(495 + 80) = 0.86087.
이때 FDR은 86.1%이 된다. 병이 걸리지 않았는데, 걸렸다고 잘못 판단하는 경우가 86.1%이 나왔다.
이렇게 높은 확률로 잘못 진단한다면 아마도 신뢰성이 떨어질 것이다. 이것은 alpha를 5%로 잡아서이기 때문이지만, 샘플 그룹의 차이가 크기 때문이기도 하다.
가장 쉽게 FDR을 떨어트리는 방법은 alpha, 즉 significant level을 더 낮게 잡는 것이다. 그렇게 되면 false positive의 수가 줄어들어 FDR을 낮출 수 있다.
Adjustment method
Benjamini-Hochberg adjustment
: The FDR-based control is less stringent with the increased gain in power and has been widely used in cases where a large number of hypotheses are simultaneously tested.
Reference
- A general introduction to adjustment for multiple comparisons (2017), http://dx.doi.org/10.21037/jtd.2017.05.34
- P-values and statistical tests 7. Multiple test corrections, http://www.compbio.dundee.ac.uk/user/mgierlinski/talks/p-values1/p-values8.pdf
'Statistics' 카테고리의 다른 글
SKAT-O (0) | 2021.01.06 |
---|---|
P-value (0) | 2020.11.30 |
Confusion matrix (0) | 2020.10.25 |
Geometric mean (0) | 2020.10.19 |
Bayesian inference (0) | 2020.08.03 |
댓글