David Colquhoun
Published:01 November 2014
www.doi.org/10.1098/rsos.140216
Abstract
p=0.05를 사용하여 발견을 했다고 제안하면 적어도 30%는 틀리게 된다. 흔히 그렇듯이 실험이 힘이 부족하면 대부분 틀리게 된다. 이 결론은 몇 가지 관점에서 증명된다. 첫째, 스크리닝 테스트 문제와 밀접한 유사점을 보여주는 트리 다이어그램이다. 비슷한 결론은 t-test에 의해 도출된다.
반복적인 시뮬레이션 이런 것들은 실제 삶에서 행해지는 것을 흉내내서, 그 결과를 더욱 설득력 있게 만든다. 시뮬레이션 방법은 특히 저전력 실험에서 효과 크기가 과대 추정되는 정도를 평가하는 데도 사용된다. 대본은 독자가 직접 시뮬레이션을 할 수 있도록 제공되며, 자신의 작업에 적합한 숫자로 구성된다. 허위 발견률을 5% 미만으로 유지하려면 3시그마 규칙을 사용하거나 p p0.001을 고집해야 한다는 결론이 나온다. 그리고 절대로 '중대한'이라는 단어를 사용하지 말라.
…Lydgate의 기술이 알려지기 전에, 그것에 대한 판단은, 가능성의 감각에 따라, 아마도 위나 송골샘의 구덩이에 위치하여, 그 평결은 다르지만, 증거의 총결손에서 가이드로서 덜 가치 있는 것은 아니었다. 조지 엘리엇(미들 행진, 45장)잘못된 해석을 경고하면서 p-값의 형식적 정의를 강조하는 가르침의 표준적 접근법은 그야말로 최악의 실패였다. 셀케 외 연구진 [1, 페이지 71]
Introduction
과학에 어떤 위기가 있었다. 놀랄 만큼 많은 수의 출판된 결과가 다른 사람들에 의해 재현될 수 없다는 것이 명백해졌다. 그것이 John Ioannidis가 그의 현재 유명한 논문인 Why Most Published Research Finds Are False [2]를 쓰게 된 원인이다. 그것은 매우 강하게 들린다. 그러나 과학의 일부 분야에서는 그것이 아마도 옳을 것이다. 이 슬픈 상황에 대한 한 가지 기여는 잘못된 발견률을 지배하는 것을 감사하기 위한 거의 보편적인 의학적 논문의 실패임에 틀림없다.
1971년 제 관점은
유의성 시험의 기능은 당신이 자신을 바보로 만드는 것을 방지하고, 공개되지 않는 결과를 공표할 수 없도록 하는 것이다[3].
(물론 지금은 부정적이든 긍정적이든 모든 결과를 발표하는 것의 중요성을 더 잘 인식한다.)
당신이 관찰하고 있는 모든 것이 무작위적인 우연일 때, 당신이 무언가를 발견했다고 선언한다면, 당신은 스스로를 웃음거리로 만든다. 이 관점에서 중요한 것은, 결과가 '통계적으로 유의미하다'는 것을 발견했을 때, 실제로 실제 효과가 있을 확률이다. 플레이할 수 있는 기회밖에 없는 상황에서 '중대한' 결과를 발견하게 되면 그 결과는 거짓 양성반응이 되고, 거짓 양성반응을 얻을 확률은 놀라울 정도로 높은 경우가 많다. 이 확률은 이 논문에서 거짓 발견률이라고 할 것이다. 흔히 오류율이라고도 한다.
비록 그것이 당신의 명성에 덜 나쁘지만, 당신이 진짜 효과를 발견하지 못한다면 당신은 또한 바보짓을 할 수 있다.
거짓 발견률은 양의 예측 값(PPV)을 보완하는 것으로, 이는 '중대한' 결과를 얻을 때 실제로 실제 효과가 있을 확률이다. 그래서 예를 들어서 허위 발견률이 70%라면 PPV는 30%. 허위 발견 비율은 더 자기 설명적인 용어여서 여기서 더 선호될 것이다.
만일 당신이 '통계적으로 유의미하다'를 p=0.05보다 작은 것으로 정의할 만큼 어리석다면, [1] 한 주장에 따르면, 당신은 자신을 바보로 만들 가능성이 29%(적어도) 있다. 누가 그런 위험을 감수하겠는가? 의학 문헌을 보면, 대부분의 사람들은 그럴 것이다. 문제가 있는 것은 당연하다.
그 문제들은 어떤 방정식을 사용하지 않고도 쉽게 설명될 수 있기 때문에, 방정식은 그들의 아름다움을 감상하는 사람들을 위해 부록에 국한된다. 유의성 시험에 대해 이야기하기 전에, 선별 시험에서 잘못된 발견률의 문제를 반복하는 것이 도움이 될 것이다. 이것이 최근에 많은 홍보를 하기는 했지만, 매우 유사한 주장들이 의의 테스트가 대부분의 생물의학 문헌에서 잘못 해석된다는 결론으로 이어진다는 것은 널리 인정되지 않는다.
The screening problem
유의성 테스트에서 잘못된 긍정성에 대한 주장은 진단 테스트에서 잘못된 긍정성에 대한 주장과 밀접하게 관련되어 있다. 후자가 좀 더 친숙할 수 있으니 우선 처리하자.
해당 질환이 없는 사람의 95%가 해당 질환이 없는 것으로 정확하게 진단되는 시험을 상상해 보십시오(특이성=0.95). 그거 꽤 괜찮은 것 같은데. 또한, 이 테스트가 이 테스트에 의해 이 질환을 가진 5명 중 4명이 탐지될 것이라고 상상한다(감성=0.8). 이것은 꽤 괜찮은 시험인 것 같다. 이러한 수치는 샤레 외 연구진이 제안한 알츠하이머병에 대한 신속한 선별 검사를 신청하는 수치와 유사하다[4]. 또는 오히려 치매로 발전할 수도 있고 그렇지 않을 수도 있는 경도인지장애(MCI)에 대한 검사다. 모든 사람이 치매 검진을 받아야 한다는 제안이 나왔다. 이게 합리적인가? 시험이 완벽하더라도 유용한 치료법이 없기 때문에 선별은 바람직하지 않다고 주장할 수 있다. 그러나 어쨌든 그 시험은 거의 무용지물인 것으로 밝혀졌다. 허위 발견률, 즉 심사 대상 모집단의 MCI 유병률을 찾기 위해서는 한 가지 더 알아야 한다. 전체 인구의 경우, 이는 1%를 조금 넘는 것이다(또는 60세 이상의 경우 약 5%). 이제 우리는 그림 1의 도표를 구성할 수 있다.
10,000명을 심사하면 100명(1%)이 MCI를, 9900명(99%)은 MCI를 하지 않는다. MCI가 없는 9900명 중 9405명(95%)은 정리하되 495명(5%)은 부정확하게 양성검사를 한다.
MCI 보유자 100명 중 80명(80%)이 검출돼 20명이 결장한다. 그래서 전체적으로 495+80=575명이 양성반응을 보일 것이며, 그 중 495명은 거짓 양성반응이다. 이 495개 중에서 양성이 거짓이므로 거짓 발견률은 495/575=86%이다. 따라서 양성반응을 보인다면 MCI가 실제로 있을 확률은 80/575=13.8%에 불과하다. 이 실험은 80퍼센트의 민감도와 95%의 특수성을 지녔지만, 86퍼센트의 잘못된 발견률이 처참할 정도로 높다는 것은 분명히 쓸모없는 것이다. 매카트니[5]가 지적한 바와 같이, 그것은 집단 심사를 촉구하는 사람들에게는 이해되지 않는 것 같다.
The significance test problem
여기서 심사를 논하는 주된 이유는 이 논문의 주제인 유의성 시험의 위험성에 대해 알기 쉽게 소개하기 위해서였다.
p=0.05를 유의하지 않은 결과와 유의하지 않은 결과 사이의 절단으로 간주하는 것은 여전히 매우 일반적인 관행이다. 물론 그건 전적으로 자의적인 것이고, 내가 보기에 나를 바보로 만들 확률은 5%가 매우 높다. 그럼에도 불구하고, 그 관습은 널리 퍼져 있으니 일단은 그것을 고수하자. 그 문제는 5%의 오류율보다 훨씬 더 심각한 것으로 드러났다.
우선 p=0.05가 무엇을 의미하는지 정확히 알자. 그 질문에 정확한 답을 얻는 것은 흔한 일이 아니다. 우리가 그 질문을 간단한 예시로만 본다면 그것은 삶을 더 쉽게 만들 것이다. 치료와 위약이 무작위로 한 무리의 사람들에게 할당된다고 가정하자. 각 치료에 대한 평균 반응을 측정하고, 관측된 평균 간의 차이가 실제인지 여부(0이 아님) 또는 우연에 의해 발생될 수 있는지 여부를 알고자 한다. 유의성 시험의 결과가 p=0.05일 경우, 다음과 같은 진술을 할 수 있다.
실제로 효과가 없는 경우(평균 간의 실제 차이가 0인 경우) 실제로 관측된 차이에 대한 값을 관측할 확률은 p=0.05일 것이다. 다시 말해, 우연한 기회에 의해서만 적어도 우리만큼 큰 차이를 볼 수 있는 5%의 가능성이 있다.
물론 그 숫자는 시험에 의해 이루어진 모든 가정이 사실일 경우에만 옳을 것이다. 이러한 가정에는 비교 대상자 중 한 그룹 또는 다른 그룹에게 무작위로 피험자가 할당되었다는 점에 유의하십시오. 이 가정만으로도 유의성 검정은 사용된 사례의 많은 비율에서 유효하지 않다는 것을 의미한다 그러나 여기서는 적절히 무작위화되고 치우침이 없는 완벽한 경우만을 다룰 것이다.
이 p-값이 충분히 낮으면 차이가 0이라는 전제를 거부하고, 실제 차이가 있다고 주장하는 것이 타당해 보인다.
첫눈에, 이 절차는 시험을 보는 20번마다 한 번씩만 자신을 바보로 만든다는 것을 보장해 줄 것이라고 생각할 수도 있다. 그러나 그것은 그런 종류의 어떤 것도 함축하지 않으며, 여기에 그 이유가 있다.
비록 위의 주장이 타당해 보일지 모르지만, 약간의 생각은 그 질문이 다른 방식으로 제기될 수 있다는 것을 보여준다. Paraprasing Sellke 등 [1]
진정한 차이가 없을 때 데이터가 'ㄹ'이라는 것을 아는 것은 진정한 차이가 있을 때 역시 'ㄹ'인지 아닌지를 결정하지 않는 한 별 소용이 없다.
자신을 바보로 만들지 않기 위해서는 결과가 중요하다고 선언할 때 얼마나 자주 옳은지, 얼마나 자주 틀리는지를 알아야 한다. 이런 맥락에서 틀렸다는 것은 차이의 참값이 실제로 0일 때, 즉 치료와 위약이 실제로 동일할 때 결과가 실제라고 선언한다는 것을 의미한다. 우리는 이것을 우리의 잘못된 발견률 또는 우리의 잘못된 긍정률이라고 부를 수 있다. 이것은 5%가 아니라 훨씬 더 크다.
이 시점에서, 나는 이 논문이 다중 비교에 관한 것이 아니라는 것을 분명히 해야 한다. 단일 개입의 많은 결과를 시험할 때 높은 허위 발견률이 발생한다는 것은 잘 알려져 있다. 이것은 '젤리빈' 문제로 풍자되어 왔다. 악명에도 불구하고 그것은 여전히 널리 무시되고 있다. 다중 비교의 결과로 발생하는 오류를 보완하는 방법이 몇 가지 있다. 가장 잘 알려진 것은 본페로니 교정법이지만, 그 방법은 너무 가혹한 기준을 정하고, 진정한 효과를 감지하지 못할 위험(저전력)을 과하게 한다. 이와는 대조적으로, 베냐미 앤 호흐베르크[6]의 방법은 거짓 발견률의 한도를 설정하는 것에 기초하고 있으며, 이것은 일반적으로 선호된다.
그러나 이 논문은 다중 비교와는 관련이 없다. 그것은 가장 단순한 이상적인 경우만을 다룬다. 유의성 검정의 결과인 단일 p-값을 어떻게 해석할 것인지 묻는다. 테스트의 모든 가정은 사실이다. 오차의 분포는 정확하게 가우스적이며 치료 배분의 무작위화가 완벽하게 이루어졌다. 그 실험은 하나의 미리 정의된 결과를 가지고 있다. 이 이상적인 경우라도 거짓 발견률이 놀랄 정도로 높을 수 있다는 것은 실험자들에게는 진짜 문제가 있다는 것을 의미한다. 어떤 실제 실험도 여기서 논의된 시뮬레이션보다 완벽하지 않을 수 있을 뿐이며, 발견을 했다고 거짓으로 주장함으로써 자신을 바보로 만들 가능성은 이 논문에서 우리가 발견한 것보다 훨씬 더 클 수 밖에 없다.
당신이 당신의 잘못된 발견 비율을 추정할 수 있는 가장 간단한 방법은 매우 쉽게 따를 수 있다.
고전적인 p-값은 그대로 한다. 그러나 그것은 진정한 효과가 없다면 어떻게 될 것인가에 대한 발언이다. 그것은 단지 때때로 정말로 효과가 있기 때문에, 단지 자신을 바보로 만들 수 있는 당신의 장기적 확률을 말해줄 수는 없다. 계산을 하기 위해서는 몇 가지를 더 알아야 한다.
일정 기간 동안 1000개의 테스트를 한다고 상상해 보십시오. 이 중 100건(10%)은 실제 효과가 있고, 900건(90%)은 실제 효과가 없는 경우가 된다.
실제 효과가 없는 900개의 검정(귀무 가설은 정말 사실)을 고려한다면 고전 이론에 따르면 45개의 검정(그 중 5%)은 거짓 양성(그림 2의 하단 사지)이 될 것이다. 그래서 당신은 오발견 비율이 5%라고 상상할 수 있을 것이다. 그렇지 않다, 왜냐하면 잘못된 결과를 주는 양성 테스트의 분율을 알아내기 위해서는 양성 테스트의 총 수를 알아야 하기 때문이다.
이것을 발견하기 위해서는 그림 2의 상지 역시 살펴볼 필요가 있다. 실제 효과가 있는 (귀무 가설이 거짓인) 100개의 검정(10%)에서는 80개(80%)에서 효과가 정확하게 검출되지만 20개의 검정에서는 효과(허위 부정)를 검출하지 못한다.
따라서 양성 시험의 총수는 80+45=125이다. 이 중 45개는 거짓 긍정적이다. 따라서 장기적으로는 결과가 아닐 때 실제라고 선언함으로써 자신을 바보로 만들 가능성은 45/125=36%가 될 것이다.
이 허위 발견률은 5%를 훨씬 웃돈다. 그것은 왜 그렇게 많은 거짓 양성반응이 문헌을 타락시켰는지 설명하는데 어느 정도 도움이 될지도 모른다.
방금 설명한 접근방식은 베이지안(Bayesian)으로 설명되기도 하지만 관련된 모든 확률은 장기적 확률로 표현될 수 있다는 점에 주목한다. 조건부 확률의 연습으로 볼 수 있다. '베이시언'이라는 표현이 틀린 것은 아니지만 꼭 필요한 것은 아니다.
A few more complications
위에서 요약한 주장은 간단하다. 문제가 있다는 것을 보여주지만, 모든 답을 제공하는 것은 아니다. 일단 조금 더 나아가면 통계학자들이 서로 의견이 다른 지역으로 들어가게 되는 겁니다.
많은 정보에 입각한 의견은 있지만, 의견의 일치가 다소 적기 때문에 정보에 입각한 의견의 일치를 내기는 어렵다. 개인적인 견해는 [3]에 따른다.
이러한 문제를 테스트하는 쉬운 방법은 장기적으로 어떤 일이 일어나는지 보기 위해 일련의 테스트를 시뮬레이션하는 것이다. 이것은 하기 쉽고 대본은 R 언어로 [7] 공급된다. 이렇게 하면 10만 t-테스트(노트북에서 약 3.5분 소요)를 신속하게 시뮬레이션할 수 있다. 그것은 현실 생활을 흉내내기 때문에 설득력이 있다.
다시 우리는 두 그룹의 관찰 수단에 실제 차이가 있는지 여부를 시험하기 위해 학생의 t-검정을 사용하는 문제를 고려할 것이다. 각 검정에 대해 시뮬레이션된 '관찰'의 두 그룹은 지정된 평균과 표준 편차를 가진 랜덤 변수로 생성된다. 변수는 정규 분포를 따르므로 t-검정의 가정이 정확히 충족된다.
두 그룹의 참 평균이 같을 때 평균 간의 참 평균 차이는 0이다. 그러한 시험의 10만 개에 대한 차이의 분포는 그림 3a와 같다. 역시 평균 차이는 0에 가깝다. 이 예제에서 각 그룹은 두 그룹에 대해 표준 편차가 1인 16개의 관측치를 가지고 있었으므로 각 평균의 표준 편차(표준 오차)는 1/196=0.25이고, 그 차이의 표준 편차는 √(0.252+0.252)=0.354이다. 관측치가 정상(가우스) 분포를 따르고 p=0.05를 '신호'의 임계값으로 사용한다면 검정의 5%가 '유의적'이 된다는 것을 알게 되며, 이 모든 것이 잘못된 긍정이다. 고전적 접근을 위해 우리가 알아야 할 것은 이것뿐이다.
생성된 100,000 p-값의 분포는 그림 3b에 나타나 있다: 5%(5000개 값)는 실제로 p=0.05보다 낮지만 분포가 평평하다는 점에 유의한다(통계학자의 전문용어에서는 귀무 가설 하에서 p-값의 분포가 균일하다). 그래서 0.55와 0.6 사이에 같은 수의 p-값이 있고, 같은 폭의 다른 간격마다 p-값이 있다. 이것은 p-값이 전혀 재현될 수 없다는 것을 의미한다. p의 모든 값은 동등하게 가능성이 있다.
그림을 완성하기 위해서는 수단과 실제 차이가 있을 때 어떤 일이 일어나는지도 고려해야 한다. 처리 그룹이 관리 그룹의 평균보다 1이 큰 참 평균을 가지므로 그룹 간의 실제 평균 차이는 1이라고 가정하십시오. 대조군(파란색)과 처리(빨간색) 그룹에 대한 관측치의 분포는 그림 4a에 나타나 있다.
우리는 이 예에서 1로 설정된 두 그룹의 표준 편차가 동일해야 한다. (정확한 숫자는 중요하지 않다. 그 결과는 평균 간의 실제 차이가 1 s.d.인 경우에 적용된다.) 대조군 및 처리 그룹에 대한 분포는 상당한 중첩을 보이지만 16개 관측치의 평균은 덜 산포된다. 그들의 표준 편차는 1/16=0.25이다. 겹치는 부분이 크지 않다. 실제로 표본 크기 16을 계산해 검정력을 0.8에 가깝게 만들었기 때문에 실제 차이점의 80% 정도는 검출해야 한다.
그림 5a는 '관찰된' 차이가 실제로 1을 중심으로 이루어졌음을 보여준다. 그림 5b는 p≤0.05의 숫자가 계산된 전력 0.78(에 전력 계산기가 있음)에서 예상한 대로 78%임을 보여준다. 즉, 시험의 78%가 정확한 결과를 준다.
p≤0.05에 대한 모든 '실험'의 평균 효과 크기를 보면 1.0이 아니라 1.14이다. 측정된 효과 크기가 너무 크며(그림 7), 이는 우연히 평균 효과 크기보다 큰 실험이 작은 효과 크기보다 '중대한' 것으로 발견될 가능성이 높기 때문에 발생한다.
The false discovery rate in the simulated t-tests
자신을 바보로 만들 수 있는 장기적인 기회를 알아내기 위해서, 우리는 실제 효과가 있는 곳에서 행하는 실험의 일부분(예를 들어 방금 설명한 시뮬레이션에서 평균 간의 진정한 차이)을 추정해야 한다. 이것은 그림 2의 트리 다이어그램에서 이미 간단한 방법으로 수행되었다. 그것은 심사 예시에서의 유병률과 맞먹는 것이다. 시뮬레이션에서 유사한 추론을 할 수 있다. 트리 다이어그램의 경우, 우리가 하는 모든 실험의 10%가 실제 효과를 가지고 있고 90%는 효과가 없는 경우를 고려했다. 실제 효과가 없었던 시뮬레이션(그림 3)의 90%를 취하여 실제 효과가 있었던 시뮬레이션(그림 4와 5)의 10%와 결합할 수 있다. 100000 시뮬레이션에서는 그림 3에 거짓 긍정(p of0.05)이 5000(5%) 있고, 그림 5에는 (참) 긍정의 78,000 (78%)이 있다. 이것들을 조합하면 0.9×5000+0이 된다.1×78 000=12 300 양성 시험(즉, p≤0.05가 있는 시험), 그 중 5000은 거짓 양성이다. 따라서 양성 검정이 관찰되면 거짓 양성일 확률은 (0.9×5000)/12 300=0이다.36.
따라서 그림 2의 나무 도표에서 유추한 바와 같이 이 경우 36%의 시간 동안 자신을 바보로 만든다. 오발견률은 5%가 아니라 36%이다. 부록 A는 이 숫자를 방정식에서 계산할 수 있는 방법을 보여주지만, 결과를 얻기 위해 방정식이 필요하지 않다. R 스크립트[7]는 사용자 자신의 숫자로 시뮬레이션을 수행하는 데 사용할 수 있다.
실제 효과가 없는 실험의 분수에 대해 다른 가정을 사용한다면, 우리는 다른 결과를 얻게 된다. 예를 들어, 우리가 하는 실험의 절반에 실제 효과가 있다고 가정한다면, 방금 사용한 실험의 90%가 아니라 6%만이 잘못된 긍정일 뿐 p=0.05와 큰 차이가 없을 것이다. 그래서 이 특별한 경우에는 문제가 없어 보인다. 하지만 이것은 세 가지 이유로 우리를 곤경에서 벗어나게 하지 않는다. 한 가지 이유는 우리가 장기적으로 하는 실험의 절반이 진정한 효과를 가져올 것이라고 생각할 이유가 없기 때문이다. 또 다른 이유는 p=0.05를 관찰했을 때 p≤0.05를 계산에 포함시켜야 하는지에 대한 다소 미묘한 문제와 연결되어 있다. 세 번째 이유는 실제 효과에 대한 실험이 50%에 달하는데도 저전력 연구는 0.05보다 더 큰 잘못된 발견을 보여주고 있기 때문이다. 이 문제들은 다음에 고려될 것이다.
우리가 했던 모든 실험이 진짜 효과를 발휘한다면, 모든 양성 테스트는 정확하고 잘못된 발견 속도는 0이 될 것이다. 또한 트리 다이어그램은 음성 테스트의 98%가 올바른 결과를 제공한다는 것을 보여주며, 잘못된 부정은 드물다. 그러나 90%의 테스트가 실제로 효과가 없기 때문에, 부정적인 테스트가 맞을 가능성이 높기 때문에 그것은 놀라운 일이 아니다. 동종 요법의 예에서와 같이 실제 효과가 전혀 없다면 음성 검사의 100%가 옳을 것이다.
Underpowered studies
방금 설명한 사건은 유별나게 좋다. 실제로, 많은 발표된 결과들은 0.8보다 훨씬 적은 힘을 가지고 있다. 0.5 전후의 값은 흔히 볼 수 있으며, 0.2는 희소수와는 거리가 멀다. 반세기 전에 코헨[8]은
…70개 연구 연구에 대한 평균 검정력(허위 귀무 가설 거부)은 작은 효과의 경우 0.18, 중간 효과의 경우 0.48, 큰 효과의 경우 0.83이었다.
그는 사회 심리학에 대해 말하고 있었다. 그는 그 문제를 논한 통계 문헌에 많은 논문이 등장했음에도 불구하고 대체로 무시당했다.
반세기 후, 버튼 외. [9]라고 말했다.
우리는 신경과학 분야의 연구의 중간 통계적 힘을 약 8%에서 약 31% 사이로 낙관적으로 추정한다.
이것은 비참할 정도로 낮다. 50년 전이나 다름없다. 그것은 많은 효과가 상당히 작고, 부적절한 표본 크기가 사용되기 때문이며, 통계학자들의 경고가 무시되었기 때문이다.
우리는 그림 2와 같이 나무 도표에서 또는 많은 t-테스트의 시뮬레이션으로 저전력의 결과를 쉽게 볼 수 있다. 그림 3-5에 표시된 t-검정의 예는 각 그룹에서 16개의 관측치를 사용하여 시뮬레이션되었다. 그것은 임상시험 설계에 자주 사용되는 값에 가까운 0.78의 힘을 주기에 충분했다. 각 그룹에서 관측치를 8개만 사용하면 검정력이 0.46으로 떨어지고 관측치가 각 그룹에 4개씩 있는 경우 검정력은 0.22에 불과해 실제 효과가 있을 때 검출될 확률은 22%에 불과하다. 슬프게도 이런 가치들은, 분명히 만족스럽지 못하지만, 너무 흔하다.
0.22의 전력에 대한 '관찰된' p-값의 분포는 그림 6과 같다. 이는 그림 5b보다 훨씬 더 넓게 퍼져 있으며, p00.05의 22%만이 시험의 힘으로 예상할 수 있다. '중대한' 시험이 발생하면, 사례의 78%에서 다음 시험은 '중대한' 것이 아니다. 다시 우리는 p-값이 전혀 재현될 수 없다는 것을 안다. 실험이 반복될 때 p-값이 크게 달라지는 경우가 많다는 사실은 p-값 접근법 전체에 대한 비판으로 활용되기도 한다. 사실, 그것은 예상된 것이고 전통적인 테스트들은 그것이 주석에서 말한 것과 정확히 일치한다. 이 현상은 p값의 춤에 그래픽으로 묘사되어 있다.
The inflation effect
0.46의 검정력으로 긍정적인 '유의적인' 차이(p≤0.05)를 얻는데 성공한다면, '유의적인' 결과의 효과의 크기를 보면 약 1.4로 나타난다. 그리고 0.22의 검정력으로 약 1.8로 나온다(둘 다 평균 1.0의 실제 차이보다 크다). 즉, 대부분의 경우 진효를 감지하지 못할 뿐만 아니라, (정확하게) 발견해도 그 크기가 틀리게 된다. 전력이 낮을 때 인플레이션 효과는 정말 심각해진다. 추정된 효과 크기는 0.2의 검정력으로 실제 값의 거의 2배이다. 그것은 이 테스트가 평균 효과 크기보다 더 큰 수의 실험에서 양성이 될 가능성이 더 높기 때문이다. 효과 인플레이션은 힘의 함수(또는 각 그룹의 관측치 수)로서 그림 7에 표시되어 있다.
효과 인플레이션의 크기를 계산할 수 있는 간단한 방법은 없지만, R 스크립트[7]를 사용하면 문제에 적합한 숫자에 대한 효과 인플레이션을 추정할 수 있다.
그러나 무엇보다도 진지하게, 실험의 힘이 부족할 때 자신을 바보로 만들 기회는 엄청나게 증가한다. 실험의 절반이 참된 영향을 미치는 가장 좋은 경우라도 0.5의 검정력(시뮬레이션에서 n=8의 표본 크기)에 대해 약 10%의 경우에 효과가 없고 0.2의 검정력(시뮬레이션에서 n=4)에 대해 20%의 경우에 효과가 실제라고 주장함으로써 자신을 바보로 만들 것이다. 그림 2에서와 같이 실험의 10%만이 참된 효과를 가지고 있다면, 힘이 약 0.5일 때 거의 50%의 경우에, 그리고 전력이 0.2일 때 놀랍게도 70%의 경우에 자신을 바보로 만들 것이다.
시뮬레이션 t-테스트 결과가 포함된 스프레드시트 및 직접 실행할 수 있는 R 프로그램을 사용할 수 있다[7].
Two more approaches
p=0.05를 마법의 컷오프 포인트로 사용하면 없는 상황에서 실제 효과를 주장해 바보짓을 할 가능성이 매우 높다는 것은 이미 명백하다. 특히 실험의 동력이 떨어지는 경우가 그러하다. 지금까지 살펴본 모든 사례에서, 효과가 실제라고 잘못 선언할 확률은 5% 이상이었다. 테스트의 힘에 따라 6%에서 70%까지 차이가 났고, 실제 효과가 있는 평생에 걸쳐 우리가 하는 실험의 비율에 따라 이 비율이 작을수록 문제는 더 심각하다.
왜 이런 일이 일어나는지 쉽게 알 수 있다. 실제 효과가 없는 테스트가 많으면, 실제 효과가 있는 소수의 실험에서 발생하는 많은 수의 잘못된 긍정을 압도한다.
지금까지의 모든 결과는 p≤0.05(또는 다른 특정 값)를 관측할 때 실제 효과를 발견했다고 주장하는 재래식 유의성 시험을 참조했다. 그 결과는 이미 경각심을 불러일으키고 있다. 그러나 고려해야 할 또 다른 미묘한 점이 있다.
What happens if we consider p=0.05, rather than p≤0.05?
p≤0.05(또는 다른 특정 값)일 경우 통상적으로 결과를 '중대한' 것으로 선언한다. 따라서 p=0.047은 고전적인 피셔식 방법에서 '중대한'으로 기술될 것이다. 일부 통계학자들은 일단 p=0.047을 관찰한 후에는 그것이 데이터의 일부분이므로 비트 이하를 포함해서는 안 된다고 말할 것이다. 우리가 p=0.047과 함께 나오는 단일 시험의 의미를 해석하려고 한다면 그것은 논쟁의 여지가 없다. 이를 해석하기 위해서는 p~0.05로 모두 나오는 가상의 일련의 실험에서 어떤 일이 일어나는지 볼 필요가 있다.
위와 같이 t-시험의 반복 시뮬레이션으로 어떤 일이 일어나는지 쉽게 알 수 있지만, 이번에는 0.05에 가깝게 나오는 시험에만 주의를 제한한다. 우리는 이전과 동일한 시뮬레이션을 실행하지만, p00.05에 대한 모든 실험을 보기보다는 0.045와 0.05 사이의 p-값이 나오는 실험에만 주의를 집중한다. 논쟁의 여지가 있는 것은, p=0.047을 생산하는 하나의 실험을 해석하기 위해서 우리가 해야 할 일이다.
합리적인 검정력(표본 크기 n=16, 그림 2–5와 같이 80%에 가까운 검정력을 부여함)으로 시험을 위한 시뮬레이션을 실행해 보면, 그림 2–5에서와 같이 실제 크기의 영향이 있을 때, 1424는 100,000개의 검정 중에서 p-값이 0.045와 0.05 사이의 값(진 양수)이 나온다는 것을 알 수 있다. 그리고 시뮬레이션을 다시 실행했을 때 실제 효과(치료와 제어와 제어의 진정한 평균 차이는 0) 없이 511개의 검정이 0.045와 0.05 사이의 p-값을 가지고 나온다는 것을 알게 된다(허위 양수). 그래서 1935년 양성반응이 있는데, 그 중 511건(26%)은 거짓 양성반응이다. 이것은 가장 낙관적인 경우로, 그 힘은 적당하고 당신의 실험은 절반은 참된 효과를 가지고 절반은 그렇지 않다고 가정한다.
따라서 p~0.05를 관찰하여 실제 효과를 발견했다고 선언하면 가장 낙관적인 경우에도 26%의 시간 동안 자신을 바보로 만들게 된다.
흥미롭게도, 이 퍼센트는 테스트의 전력이 부족할 때 크게 변하지 않는다(이미 처참하게 높은 허위 발견 비율을 가지고 있다).
그림 2와 같이 대부분의 실험(90%)이 실제 효과가 없는 경우를 살펴보면 결과는 더욱 악화된다. 0.045에서 0.05 사이의 p-값을 제공하는 실험만 보면, 이 '그냥 중요한' 실험의 76%에서 사실상 아무런 실제 효과가 없었다는 것을 알 수 있다: 귀무 가설은 사실이었다. 다시 말하지만, 이 숫자는 권력과 거의 독립적이다.
결과는 0.05에 가까운 p-값을 관찰했을 때 발견했다고 선언하면 적어도 26%의 잘못된 확률, 그리고 종종 훨씬 더 큰 가능성을 갖게 된다. 그러나 많은 결과들이 발표되는데, 이 결과들은 허위 발견 비율이 적어도 30%이다. 재현성의 문제가 있는 것은 당연하다.
이 진술들은 0.05에 가까운 시험만을 가리키기 때문에, 일생 동안 여러분이 자신을 바보로 만드는 횟수에 대해 알려주지 않는다(모든 결과가 0.05에 근접하지는 않을 것이다). 그러나 p-0.05의 관찰은 여러분이 발견했는지 여부에 대해 현저하게 적게 알려준다는 것을 나타낸다.
Berger's approach
이러한 계산을 하기 위해서, 우리는 실제로 실제 효과가 있는 시험의 유행을 가정해야 했다. 우리는 유병률이 0.5인 가장 낙관적인 경우에도 허위 발견률이 놀랄 정도로 높다는 것을 보았다. 베이지안 사람은 유병률을 실제 효과가 있을 가능성이 있는 이전의 확률로 언급할 것이다. 이런 식으로 설명할 필요는 없다. 이것은 원칙적으로 충분히 엄격한 시험으로 추정할 수 있는 일반적인 빈도수 확률이다.
베이지안에게 어떻게 해야 할지에 대해 물어보는 것의 문제는 베이지안만큼 많은 다른 대답을 얻을 수 있다는 것이다. 제임스 버거는 이 문제에 대한 기발한 해결책을 고안했다[1,10]. 그는 사전 분포의 형태와 상관없이 적용되는 결과를 내놓았다. 사실상 실제 효과가 있다는 가설에 가장 유리한 선행분포를 선택한다. 이를 통해 관찰된 p-값에 해당하는 최소 허위 발견률을 계산할 수 있다. p=0.05의 경우 이런 방식으로 계산된 허위 발견률은 0.289이다. 이것은 최소값이다. p~0.05를 관찰하면 사실상 실제 효과가 없을 확률이 최소 29%에 이른다는 뜻이다. 이 결과는 p-값을 0.045에서 0.05 사이에 주는 실험에 주의를 집중했을 때 위 시뮬레이션 t-테스트에서 유추된 잘못된 발견률에 상당히 근접한다. 자세한 정보는 부록 A에 수록되어 있다.
30%의 시간 동안 자신을 바보로 만드는 것은 용납될 수 없다고 믿는다면, 어떻게 해야 하는가? 버거의 접근법에 따르면 p~0.001은 1.84%의 거짓 발견률에 해당한다(부록 A 참조). 만약 당신이 자신을 바보로 만드는 1.8%의 위험을 감수할 수 있다고 믿는다면, 당신은 p>0.001을 주는 실험에서 실제 효과를 발견했다고 주장하지 않는다.
이 절차는 대략 2시그마 규칙이 아닌 3시그마 정책을 채택하는 것과 같다. 평균으로부터의 두 표준 편차는 정규 분포 하에서의 면적의 약 5%(각 꼬리에서의 2.5%)를 제외하며, p=0.05를 사용할 때 발생한다. 평균으로부터의 세 가지 표준 편차는 영역의 0.27%를 제외한다. 버거의 교정을 보면 p=0.0027은 0.042의 잘못된 발견률에 해당하며, 이는 관례적으로 남용되는 0.05 수준에서 멀지 않은 수준이다.
Is the argument Bayesian?
당신이 잘못된 양성을 얻을 위험을 예측하는 방법은 종종 베이의 정리를 응용한 것으로 묘사된다. 통계학자들 사이에서는 베이즈의 정리의 실용성에 대해 매혹적인 논쟁이 있다. 이 논쟁은 베이스의 결과가 1764년에 발표된 후에 시작되었고, 그것은 여전히 맹렬히 계속된다. 베이지안 방법을 사용하는 것에 대한 논쟁거리 중 하나는 확률에 대한 쉬운 정의를 장기 주파수로 버리고, 대신 주관적인 베팅 확률로 간주할 필요가 있다는 것이다. 다른 하나는 실험이 이루어지기 전에 결과에 대한 여러분의 믿음이 얼마나 강한지를 명시할 필요성인데, 이것은 여러분의 편견을 결과에 주입시키는 것에 위험할 정도로 가까이 올 수 있는 운동이다.
하지만 다행히도, 이런 미묘한 문제들에 관여할 필요는 없다.
나는 여기서의 분석이 베이지안 주장과 형식적으로는 유사할 수 있지만 베이지안 접근법의 더 논쟁적인 부분에서는 자유롭다고 주장한다. 내가 사용한 주장은 주관적인 확률을 포함하지 않으며, 조건부 확률을 나타내는 명백한 규칙의 적용이다.
베이지안 논쟁의 고전적인 예는 지구가 태양 주위를 돈다는 가설의 증거에 대한 평가다. 일부 데이터를 고려할 때 이 가설이 사실일 확률은 주관적이어야 한다. 왜냐하면 태양계의 모집단을 상상할 수 없기 때문이다. 태양계의 일부는 태양 중심이고 일부는 그렇지 않기 때문이다. 태양계는 태양 중심적이거나 그렇지 않다. 태양계는 95%의 태양 중심일 수 없다.
이와 유사하게 개별 약물이 효과가 있거나 효과가 없다고 주장할 수 있다(그 진술의 근거가 되는 몇 가지 명백한 가정은 고려하지 않는다). 그러나 일련의 약물을 실험하는 데 한 번에 한 번씩 소비한 평생 동안 그 효과가 대조군과 다른지 여부를 알아본다면 주관적 확률의 필요성은 사라진다. 몇몇은 활성(proclation p(real)이라고 말하고, 몇몇은 그렇지 않은 많은 수의 후보 약물을 상상하는 것은 쉽다. 따라서 유병률(혹은 반드시 그 이전에)은 완벽하게 잘 정의된 확률로, 충분한 노력으로 결정될 수 있다. 한 가지 약을 무작위로 시험해 보면 활성일 확률은 p(실제)이다. 통계학자들이 좋아하는 예를 이용하기 위해 블랙볼의 분수 p(진짜)가 들어 있는 항아리에서 블랙볼을 고를 확률과 다르지 않다.
그 문제를 보는 방법은 선별 검사의 경우와 정확히 유사하며, 이것은 확실히 주관적인 확률을 필요로 하지 않는다.
Conclusion: what can be done?
위의 모든 접근방식은 p=0.05를 효과를 발견했다고 주장하기 위한 기준으로 삼으면 적어도 30%는 자신을 바보로 만들 수 있다는 것을 암시한다. 이것만으로도 많은 출판된 주장이 사실이 아님을 암시한다.
여기서 설명하는 계산이 가능한 가장 낙관적인 관점이라는 점에 유의해야 한다. 그들은 치료법이 그룹에 무작위로 할당되고 편향(예: 평가가 블라인드 상태)이 없으며 모든 음성 결과가 공표되는 적절하게 설계된 시험에 적용한다. 또한 사전 지정된 결과가 하나 있기 때문에 다중 비교에서 발생하는 문제는 없다고 가정한다. 실생활에서 이런 완벽한 실험은 드물다. 따라서 30%는 효과를 발견했다고 잘못 주장하는 발표된 실험의 비율에 있어 매우 최소치라는 것을 알 수 있다. 그만큼 '대부분 발표된 연구결과는 거짓'이라는 이오아니디스의 주장이 지나치게 경각심을 불러일으키지는 않는 듯하다.
재현성의 위기에 대한 비난은 몇 가지 출처를 가지고 있다.
그 중 하나는 질보다 양을 중요시하고 과학에 막대한 해를 끼친 스스로 초래한 출판-또는 페리시 문화[11]이다.
어리석은 서지학 방법으로 개인을 잘못 평가한 것이 이 해악의 원인이 되었다. 제안된 모든 방법 중에서 '알트메트릭스'가 단연코 가장 어리석은 것이다[12]. 그러나 일부 부찬스들은 [13]을 이해하지 못했다.
또 다른 문제의 원인은 과학자들 자신의 허영심이며, 이로 인해 홍보부서는 불명예스럽게 과장된 보도자료를 발표하게 된다[14].
어떤 경우에는, 논문의 추상화에서는 심지어 데이터가 반대라고 말할 때 발견이 이루어졌다고 기술하기도 한다. 이런 종류의 회전은 돌팔이 세계에서 흔하다. 그러나 심판과 편집자는 계략에 넘어가게 된다(예: 침술 연구[15] 참조).
많은 저널들(그리고 많은 작가들)이 부정적인 결과들을 발표하기를 꺼리는 것은 긍정적인 결과들을 선호하기 위해 전체 문학들을 편향시킨다. 이는 임상 작업에서 매우 비참하기 때문에 압력 그룹이 시작되었다: 이타 순 '모든 임상 실험 등록: 모든 결과 보고됨'(2014년 4월 1일 액세스)
그러나 또 다른 문제는 여러분이 거의 기여하지 않은 출판물에 이름을 올리지 않고 보조금을 받는 것이 매우 어려워졌다는 것이다. 이것은 나이든 과학자들에 의한 젊은 과학자들의 착취로 이어진다. 박사후 조교들의 군대가 점점 더 많은 상사와 대학의 영광을 위해 논문을 생산하도록 내몰리는 노예문화로 이어져, 그 과목의 기초(통계 포함)를 배울 겨를이 없다. Peter Lawrence [16]는 The Miscience의 문제점에 대해 설명했다.
그리고, 이 논문과 가장 관련이 있는 것은, 중요한 시험이 어떤 의미인지 제대로 이해하지 못한 광범위한 실패가 문제에 기여해야 한다는 것이다.
여기 할 수 있는 몇 가지 일들이 있다.
— 유의성의 모든 통계적 검정은 치료가 무작위로 할당되었다고 가정한다는 점에 유의하십시오. 이는 유의성 검사를 관찰 데이터에 적용하는 것(예: 식이요법 및 건강의 역학 조사)은 유효하지 않다는 것을 의미한다. 정답을 얻기를 기대할 수는 없다. 이 가정을 이해하는 가장 쉬운 방법은 무작위화 테스트(t-tests를 수십 년 전에 대체했어야 했지만, 여전히 거의 사용되지 않는 테스트)에 대해 생각하는 것이다. 생물통계학 강의[3], 제8장 및 제9장에 간단한 소개가 있다. 관측치의 분포, 측정의 독립성에 대한 다른 가정도 있지만 무작위화가 가장 중요하다.
— 절대로 종이에 '중대한'이라는 단어를 쓰지 마십시오. 그것은 자의적이며, 우리가 본 바와 같이, 대단히 오해의 소지가 있다. 그럼에도 불구하고 '거의 중요성', '중요성에 대한 엄격성' 또는 매튜 행킨스가 그의 '여전히 중요하지 않은' 블로그에 나열한 수백 개의 유사한 할례를 덜 사용해야 한다[17].
— 유의성 검정을 수행하는 경우 p-값을 명시하고 효과 크기 및 신뢰 구간을 지정하십시오. 그러나 95%의 간격은 오해할 정도로 좁을 수 있으며, 잘못된 발견 속도에 대해서는 아무 것도 말해주지 않는다는 것을 명심하십시오. 신뢰 구간은 p-값에서 얻은 동일한 정보를 더 잘 표시하는 방법이다.
— p~0.05의 관측은 '다른 외모를 가치 있게' 하는 것 이상의 의미가 없다. 실제로, 발견했다고 거짓으로 주장한다면, 그 손실에 대한 진정한 효과를 놓치면, 그 사람의 태도는 뒤따르는 손실을 저울질하는 데 달려 있을 것이다.
— 가치 있는 효과를 나타내는 데 필요할 수 있는 표본 크기를 몇 가지 대략적으로 계산하십시오. 저전력 연구는 여전히 풍부하고 높은 허위 발견률과 크기 인플레이션에 기여한다.
— 자주 웃음거리가 되는 것을 피하고 싶다면, p<0.001보다 더 큰 것을 발견했다는 것을 증명하는 것으로 여기지 마십시오. 또는, 약간 덜 끈적끈적하게, 3시그마 규칙을 사용한다.
비슷한 이유로 다른 많은 사람들이 비슷한 결론을 내렸다(예: [18,19]). 그러나 그들은 대부분 작가들과 편집자들로부터 무시되어 왔다. 그것에 대한 한 가지 예외는 게놈 전체 연관 연구인데, 초기에는 거짓 양성 연관으로 악명이 높았지만, 지금은 통계적 교훈을 얻었다(예: [20]). 그럼에도 불구하고 별표로 두 가치의 차이를 표시하면서, 그것이 발견이라고 말하는 관행이 여전히 생물의학 문헌에 횡행하고 있다. 그것이 그렇게 많이 잘못된 것은 당연하다.
그러나 로널드 피셔가 통계에 기여한 엄청난 기여에도 불구하고, 현명한 저널리스트의 결론에는 진실의 요소가 있다는 것을 마지못해 인정해야 한다.
분명한 사실은 70년 전 로널드 피셔가 과학자들에게 발루니를 돌파구로 만들고, 플루크를 기금으로 만드는 수학적 기계를 제공했다는 것이다. 플러그를 뽑아야 할 시간이다. 로버트 매튜스 [21] 선데이 텔레그래프, 1998년 9월 13일.
댓글