본문 바로가기
Statistics

FDR : False Discovery Rate

by wycho 2020. 10. 26.

False discovery rate, FDR,이란 통계적 평가에서 type I error, 즉 Posive 중에 false positive가 얼만큼 나왔는가에 대한 지표이다. 다시 말해 유의한 결과를 찾은 것들 중에서 실제로 유의하지 않은 것들의 비율이다.

 

FDR은 conditional probability인 Bayesian inference이며, 수식은 다음과 같다.

 

FDR = P( not ill | test pos ) = P( test pos | not ill ) P( not ill ) / P( test pos )

where

P( test pos ) = P( test pos | not ill) P( not ill ) + P( test pos | ill ) P( ill ).

 

Positive로 판명된 사람들 중에 실제로 아프지 않은 사람이 얼만큼 되는지이다. 이것이 중요한 이유는 아프지 않은 사람을 아픈 사람으로 취급해서 치료를 진행하면 문제가 생기기 때문이기도 하지만, null hypothesis를 잘 설정하였는지, 통계적으로 얻은 값이 의미있다고 할 수 있는지, 결과를 얼만큼 신뢰할 수 있는지 등 수학적 모델에 대한 평가를 하는데 중요한 역할을 하기 때문이다.

https://doi.org/10.1098/rsos.140216

위 tree diagram을 보자. 10,000명의 사람이 있을 때, 전염성이 1%인 병에 대해서 alpha를 5%, 즉 5%인 495명을 잘못 판단하는 오류까지는 significant하다고 해보자.

 

FDR = (0.05*9900) / (0.05*9900 + 0.8*100) =  495/(495 + 80) = 0.86087.

 

이때 FDR은 86.1%이 된다. 병이 걸리지 않았는데, 걸렸다고 잘못 판단하는 경우가 86.1%이 나왔다.

 

이렇게 높은 확률로 잘못 진단한다면 아마도 신뢰성이 떨어질 것이다. 이것은 alpha를 5%로 잡아서이기 때문이지만, 샘플 그룹의 차이가 크기 때문이기도 하다.

 

가장 쉽게 FDR을 떨어트리는 방법은 alpha, 즉 significant level을 더 낮게 잡는 것이다. 그렇게 되면 false positive의 수가 줄어들어 FDR을 낮출 수 있다. 

 

Adjustment method

Benjamini-Hochberg adjustment
: The FDR-based control is less stringent with the increased gain in power and has been widely used in cases where a large number of hypotheses are simultaneously tested.

http://dx.doi.org/10.21037/jtd.2017.05.34

 

 

 

Reference

- A general introduction to adjustment for multiple comparisons (2017), http://dx.doi.org/10.21037/jtd.2017.05.34

- P-values and statistical tests 7. Multiple test corrections, http://www.compbio.dundee.ac.uk/user/mgierlinski/talks/p-values1/p-values8.pdf

 

 

'Statistics' 카테고리의 다른 글

SKAT-O  (0) 2021.01.06
P-value  (0) 2020.11.30
Confusion matrix  (0) 2020.10.25
Geometric mean  (0) 2020.10.19
Bayesian inference  (0) 2020.08.03

댓글