본문 바로가기
Paper

2017 The reproducibility of research and the misinterpretation of p-values

by wycho 2020. 5. 13.

David Colquhoun

Published:06 December 2017

www.doi.org/10.1098/rsos.171085

 

Introduction

이 논문의 주요 요점은 의의 테스트가 그것의 특징적으로 귀속되는 심리 현상에 관한 정보를 제공하지 않는다는 것이다. 더욱이, 많은 장난이 그것의 사용과 연관되어 있다는 것이다. 이 신문에서 말할 것은 거의 독창적이지 않다. 그것은, 어떤 의미에서 '모든 사람이 알고 있는 것'이다. 그것을 '큰 소리로'라고 말하는 것은, 그렇듯이 황제가 정말로 속옷만 입고서 옷을 벗어났다고 지적한 아이의 역할을 가정하는 것이다. 이 논문에 수록된 것 중 일부는 이미 문헌에 나와 있지 않으며, 문헌은 인용될 것이다. 바칸[1].
실험을 했을 때, 당신은 당신이 발견을 했는지 또는 당신의 결과가 우연히 일어날 수 있었는지 알고 싶어한다. 보다 정확하게는 유의성의 통계적 검정이 양성으로 나올 때, 그 확률은 거짓 양성을 가지고 있다는 것, 즉 실제 효과가 없고 우연한 기회에 그 결과가 발생했다는 것이다. 이 확률은 여기서 거짓 양성 위험(FPR)으로 정의된다. Colquhoun[2]에서는 FDR(허위 발견률)이라고 불렸지만, FDR이라는 용어가 일반적으로 사용되는 다중 비교 문제와의 혼동을 피하기 때문에 거짓 양성 위험은 아마도 더 나은 용어일 것이다(부록 A1 참조).

대답해야 할 질문은 [2] 이전과 같이 다음과 같다.

편향되지 않은 단일 실험을 한 후 '중대한' p-값을 관찰한다면, 당신의 결과가 거짓 양성일 확률은 얼마인가?
이 실험은 p-값을 계산할 때 이루어진 모든 가정이 정확히 사실인 상태에서 무작위화되고 편견이 없는 것으로 가정한다. 또한 우리가 단일 실험에 대해 염려하고 있기 때문에 다중 비교의 문제가 없다고 가정한다. 실생활은 더 나빠질 수밖에 없기 때문에, 그런 의미에서 여기서 주어진 결과는 가장 낙관적인 가능성이 있다.
다중 비교의 문제는 종종 잘못된 발견의 중요한 원천이지만, 이 논문에서는 논의되지 않는다. 다중 비교를 위해 수정하는 모든 방법은 유형 1 오류만 수정하는 것을 목표로 한다는 점에 유의할 필요가 있다. 따라서 결과는 (수정된) p-값이기 때문에, 설명해야 할 이유 때문에 잘못된 양의 위험을 여전히 과소평가할 것이다.

이 논문 전체에서 우리는 정확한 가설을 시험하고자 한다고 가정한다. 예를 들어 효과 크기가 0(영(0 [3,4] 주위에 좁은 띠를 허용하면 별 차이가 없지만). 이 접근방식의 합리성은 부록 A1에서 정당화된다.

이 항목의 대부분의 논의는 표준화된 정규 분포(z-값)를 사용한다. 그러나 대부분의 표본은 너무 작고, 종종 너무 작아서 실험의 동력이 부족하기 때문에 여기서는 학생의 t-테스트 분포를 사용한다.

이 논의는 각각 정규 분포 관측치 n개씩 독립 표본 2개의 평균을 비교하는 것으로 틀이 잡힐 것이다. 따라서 학생의 t-시험에 대한 가정은 정확히 이행된다.

최근, 0.05 바로 아래의 p-값을 관측할 경우, 적어도 26%의 확률로 잘못된 양성 결과가 나올 가능성이 있다고 주장되었다[2]. 그 논문에서는 0.05에 가깝게 나온 p-값에 관심이 집중되었고, t-검정의 반복 시뮬레이션에 의해 결과가 발견되었다. 지금 목표는 p-값의 범위로 결과를 확장하고 시뮬레이션에 의한 결과가 아닌 잘못된 양의 위험의 계산을 위해 프로그램(R)과 웹 계산기를 제시하는 것이다. 불확실성을 표현하는 더 나은 방법, 즉 우도 비율과 역 베이시안 추론이 논의된다.

'중대한'과 '비중요한'이라는 용어는 절대 사용하지 않는 것이 좋다. 오히려 p-값과 신뢰 구간은 특정(예: 5%) 잘못된 양의 위험을 발생시키는 데 필요한 이전 확률도 지정하여 보완해야 한다.

결과를 얻기 전에 사용할 아이디어를 명확히 하는 것이 도움이 될 것이다.

 

Definition of terms

p-값은 다음과 같이 정의된다.

실제로 효과가 없는 경우(평균 간의 실제 차이가 0인 경우) 실제로 관측된 차이에 대해 값을 관측할 확률을 p-값이라고 한다. 즉, p-값은 적어도 우리가 한 것만큼 큰 차이를 볼 수 있는 기회인데, 만약 실제로 실제 효과가 없다면 말이다.
이 정의는 약간 복잡하게 들리는데, 실험자들이 p-값을 정확하게 정의할 수 있는 경우는 매우 드물다. 그러나 정의가 옳을 때에도 p-값이 우리에게 무엇을 말해주는지 정확히 알기는 어렵다. 가장 일반적인 (잘못된) 해석은 'p-값은 우연히 결과가 발생할 확률이다'이다. 또는 'p-값은 귀무 가설이 참일 확률'이다. 이 두 가지 모두 처참하게 잘못되었다[6]. 후자의 정의는 분명히 잘못된 것이다. 왜냐하면 p-값은 귀무 가설이 참이라는 전제하에 계산되기 때문에 귀무 가설의 진실에 대해서는 도저히 말할 수 없기 때문이다. 전자가 틀린 것은, 우연히 결과가 나왔을 확률을 계산하기 위해서는 귀무 가설이 참일 때 발견되는 검정뿐만 아니라 양성 검정의 총수가 필요하기 때문이다([2]의 그림 2).
p-값은 그대로 한다. 분명히 p-값이 작을수록 귀무 가설일 가능성이 적다. 문제는 실제로 효과가 없을 때 효과가 진짜라고 주장함으로써 자신을 바보로 만드는 것을 막기 위해 p가 얼마나 작아야 하는지를 쉽게 알 수 없다는 데 있다. 우연히 당신의 결과가 발생할 확률은 p-값이 아니다: 그것은 잘못된 양의 위험이다[6].

귀무 가설 유의성 검정(NHST)을 설명하는 데 사용되는 용어는 이 경우 학생의 t-검정을 그림 1에 정의한다. 유형 1 오류율(이 경우 5%)은 귀무 가설이 참이라는 점에서 '중대한' 결과를 찾을 확률이다. 왜냐하면 p-값과 마찬가지로 귀무 가설이 참인 것을 조건으로 하기 때문에 귀무 가설이 참일 확률을 전혀 알 수 없고 거짓 양성 위험에 대한 직접적인 것도 알 수 없기 때문이다. 그것을 위해 우리는 귀무 가설이 사실이 아닐 때 어떤 일이 일어나는지 또한 알 필요가 있다.

 

n 잘못된 양의 위험을 계산하기 위해 귀무 가설은 충분하지 않다. 우리는 또한 대안적인 가설이 필요하다. 이것은 1942년 Berkson이 말한 바와 같이 [7]에 다음과 같은 이유로 필요하다.

사건이 발생한 경우, 결정적인 질문은 '이 사건이 귀무 가설이 사실이라면 드문 사건인가?'가 아니라 '사건 발생 빈도가 상대적으로 높은 대체 가설이 있는가?'이다.
또는, Sellke 외 타칭. [8]:
진정한 차이가 없을 때 데이터가 'ㄹ'이라는 것을 아는 것은 진정한 차이가 있을 때 역시 'ㄹ'인지 아닌지를 결정하지 않는 한 별 소용이 없다.
그림 1에 정의된 수량은 잘못된 양의 위험을 정의하기에 충분하지 않다. 우리가 원하는 것을 얻기 위해서는 베이스의 정리가 필요하다. 다음과 같이 쓸 수 있다.
Posterior odds ratio = likelihood ratio x prior odds  (2.1) 
(좀 더 정확한 정의는 방정식 (A 8)을 참조하고, Colquhun [2]의 부록 참조). 'prior'라는 단어는 '실험 전'을, 'posterior'는 '실험 후'를 의미한다. 그래서 우도비는 실험이 제공한 증거를 측정한다. 종종 우리는 승산보다는 확률에 대해 말하는 것을 선호한다. 가설이 참일 확률은 가설이 참일 때 유리한 승산비와 관련이 있으므로
probability = odds/(1+odds)  (2.2)

또는 반대로,
odds = probability/(1-probability)  (2.3)
예를 들어, 귀무 가설이 참일 확률을 대립 가설이 참일 확률(귀무 가설에 유리한 9의 오드비)보다 9배 더 크면 귀무 가설이 거짓일 확률은 9/(9 + 1) = 0.9이고 귀무 가설이 거짓일 확률은 1 - 0.9 = 0.1 이다.
사건의 이전 확률은 실험이 이루어지기 전의 확률을 의미한다. 진단 선별 시험의 맥락에서, 시험 대상 전체 모집단에서 조건의 유병률로 잘 정의된다([2]의 그림 1). 중요성 시험의 맥락에서 베이의 정리를 사용하는 것에 대한 끊임없는 전쟁은 우리가 이 이전의 확률에 대한 가치를 거의 알지 못한다는 사실에서 비롯되며, 그 문제는 나중에 논의될 것이다.

그 문제에 이르기 전에 중요한 구분을 분명히 해야 한다.

 

Which interpretation is better: ‘p-less-than’ or ‘p-equals’?

이것은 오래되었지만 종종 무시되는 질문이다. 통계 문헌(예: [3])에서는 이러한 논의가 수십 년 동안 계속되어 왔지만, 대부분의 사용자에게는 알려져 있지 않다. 그것은 콜쿤[2]의 §10에서 논의되었다.

문제는 우리가 질문에 답하려고 할 때 발생한다: 편향되지 않은 단일 시험에서 p = 0.047(또는 관찰된 값 중 어떤 값)을 발견한다면 우연히 우리의 결과가 발생할 확률은 얼마인가? p ≤ 0.047을 생성하는 모든 시험을 고려하는 것이 적절한가 아니면 p = 0.047을 제공하는 시험만을 고려해야 하는가? 이것을 각각 'p-less-them' 해석과 'p-eques' 해석이라고 부르자.

그 구별은 미묘하게 들리지만, 시뮬레이션은 그것의 의미를 명백하게 한다. Colquhoun [2]에서와 같이 100,000개의 t-검정 세트가 시뮬레이션되었다고 가정하자. 시뮬레이션은 실생활에서 수행되는 것을 모방하기 위한 것이므로 시뮬레이션 데이터의 각 집합은 2개의 독립 표본 t-테스트(실생활과 유일한 차이점은 시뮬레이션된 데이터가 테스트에 의해 이루어진 가정을 정확히 충족한다고 알려져 있다는 것이다)로 분석한다. 시뮬레이션된 각 테스트는 p-값을 생성한다. 모의 데이터는 귀무 가설이 참인 경우, 귀무 가설이 참이 아닌 경우 각각 생성된다. 따라서 실생활에서와는 달리 각 검정에 대해 귀무 가설이 참이었는지 여부를 알 수 있다. 이는 귀무 가설이 얼마나 자주 잘못 기각되는지 계산할 수 있게 하고 따라서 거짓 양성 위험을 추정할 수 있게 한다([2]의 그림 2). 각 p-값의 계산에는 표준적인 방법으로 꼬리 영역이 포함된다. 즉, 귀무 가설에서 벗어나는 모든 결과를 관측된 양만큼 또는 그 이상으로 고려한다. 그러나 10만 p-값을 생성하여 분석할 수 있는 두 가지 방법이 있다. p-값이 관측값과 같거나 그보다 작은 값을 제공하는 모든 시험을 볼 수 있다(예: 0.047). 또는 관찰된 바와 같이 p-값이 0.047에 가깝게 나오는 검정만 볼 수 있다.

— p-등분 해석은 p-값이 관측된 값(예: 0.047)에 근접하여 나오는 모든 테스트 중 잘못된 긍정의 분율을 계산한다.

— p-보다 낮은 해석은 p가 관측값과 같거나 작은 것으로 나오는 모든 테스트 중 잘못된 긍정의 분율을 계산한다.

우리의 질문에 대답하기 위해서, 우리는 실제 실험의 결과를 시뮬레이션된 10만 개의 가능한 결과에서 무작위로 추출한 사례로 간주해야 한다. 우리의 실제 실험은 p = 0.047로 나왔기 때문에 0.047에 가까운 p-값을 생성하는 모의 실험에 관심이 있다. 다시 말해서, p-equaries 사건은 우리가 우리의 질문에 대답하기 위해 필요한 것이다.
우리의 실제 실험의 경우, 고정된 실제 효과 크기가 있고 그 가치는 알 수 없지만 실제 효과가 있을 확률은 고정되어 있다. 사전 분포에서 시뮬레이션된 각 t-검정에 대한 실제 효과 크기의 다른 값을 무작위로 선택하는 것은 말이 안 된다(부록 A1 참조). 실험이 같은 실험의 많은 상상적 반복으로부터 무작위적인 인스턴스가 된다는 생각은 추론을 보는 표준적인 방법이다.

p-less-to case와 p-equs case의 구분이 시뮬레이션에 의해 가장 쉽게 이해되지만, 본 논문의 한 목적은 부록 A2에서 설명한 대로 p-equs case를 정확하게 계산하는 코드를 제공하는 것이다.

실험의 결과가, 우리의 예에서, p = 0.047(또는 관측된 값이 무엇이든)이었기 때문에, p-등가 사례가 우리의 특정 실험의 해석에 적합한 것은 분명해 보인다. 우리가 평생의 잘못된 긍정 위험을 계산하려고 하는 것이 아니라 단지 우리의 단일 결과를 해석하려고 한다는 것을 기억하라. p-값이 0.047 미만인 시뮬레이션은 실제 실험에서 관찰되지 않았으므로 무관하다. 대부분의 논문(예: [9,10])은 계산하기 쉽지만 내 생각에는 틀린 질문에 답하는 p-less-the case만을 고려한다.

 

Simulation versus exact calculation

콜쿤[2]에서는 시뮬레이션으로 문제를 해결했다. 여기서 사용된 예제의 경우 관측치가 n개인 두 그룹의 평균 간의 차이를 계산했다. 두 평균 간의 차이를 효과 크기라고 할 수 있다. 만약 두 그룹이 똑같이 효과가 있는 치료를 받게 된다면, 효과 크기는 평균 0이 될 것이다. 귀무 가설이 참인 실험을 시뮬레이션하기 위해 동일한 정규 분포에서 n '관찰'의 랜덤 표본을 생성한다. 예를 들어, 두 표본 모두 평균이 0인 정규 분포에서 추출된다.

FPR을 계산하려면 귀무 가설의 대안을 가정해야 한다. 실제 효과 크기는 개별 반응의 표준 편차와 동일한 1과 동일하다고 하자. 표본 크기가 시험의 검정력을 변경하지 않고 유지하도록 조정되는 한, 다른 실제 효과 크기로 동일한 결과가 얻어지기 때문에 이것은 첫눈에 보이는 것처럼 임의적이지 않다[11].

귀무 가설이 참이 아닌 실험을 시뮬레이션하기 위해, 우리는 하나의 표본에 대해 평균이 0인 정규 분포로부터 n '관찰'의 랜덤 표본을 생성하고, 다른 표본에 대해서는 평균이 1인 정규 분포에서 n개의 관측치를 추출한다. 두 분포 모두 1과 동일한 실제 표준 편차를 갖는다.

예를 들어 실제 효과 크기가 1sd인 경우 표본 크기가 n = 16일 때 p = 0.05인 경우 검정력은 0.78이다.

각 표본 쌍에 대해 표준 학생의 t-테스트가 수행된다. t-검정의 가정이 정확히 준수되는 것으로 알려져 있기 때문에 이는 이상적인 경우라는 점에 유의하십시오. 실생활에서는 더 나빠질 수밖에 없다.

p-equals 사건이 우리에게 필요한 것이라는 것은 의심의 여지가 없는 것 같다. 우리의 실제 실험은 p = 0.047(또는 그 밖의 것)으로 나왔기 때문에, 우리가 해야 할 일은 p-값 0.047을 생성하는 실험에 대한 잘못된 양의 위험을 살펴보는 것이다. Colquhun[2]에서와 같이 시뮬레이션에 의해 수행되는 경우, 관측치에 가까운 시뮬레이션 p-값의 적절한 개수를 얻기 위해 0.045와 0.05 사이에 있는 p-값의 좁은 밴드를 관찰해야 한다. 이 논문에서는 실제 실험에서 발견한 특정 p-값에 해당하는 잘못된 양의 위험을 정확히 계산한다. 이 계산을 수행하기 위해 R 스크립트가 제공된다(calc-FPR + LR).R; 전자 보조 자료 참조) 및 웹 계산기 [12] 계산은 부록 A2에 요약되어 있다.

스크립트 및 웹 계산기는 또한 p-less-tan 사례에 대해 잘못된 양의 위험을 주지만, 이는 트리 다이어그램 접근법에서 찾을 수 있거나 Colquhun[2]의 방정식 A4에서 간단히 계산할 수 있다.

두 접근법 사이의 차이는 그림 2에 설명되어 있다. 이것은 p-값에 대해 표시된 거짓 양의 위험을 보여준다. 그 줄거리는 강력한 실험을 위한 것이다. 곡선은 p = 0.05에 대해 0.78의 검정력과 지정된 효과 크기 및 표준 편차를 제공하기 때문에 각 표본에서 n = 16개의 관측치를 사용하여 계산된다. 표본 크기는 지정된 p-값(대개 0.05)에서 적절한 검정력을 제공하기 위해 미리 표본 크기를 추정하는 것이 좋은 관행이기 때문에 고정된다.

 

그림 2a,b에서, 계산은 실험이 실행되기 전에 우리의 실험이 실제 효과를 가질 확률은 0.1이라는 것을 기초로 했다: 이 이전의 확률은 실제 효과가 존재하는지에 대한 회의론을 보여준다. 예를 들어, 대부분의 약물 후보자들은 실패하기 때문에, 그것은 약물 실험을 할 때 적절할 수 있다.

그림 2c,d에서 계산은 우리의 실험이 실제로 실제 효과를 발휘했다는 (50 : 50의 확률) 이전의 확률 0.5가 있다는 전제였다. 이는 반대로 좋은 경험적 데이터가 없는 경우 합법적으로 가정할 수 있는 가장 큰 이전이다(그림 3).

 

각 그래프의 점선 빨간색 선은 FPR이 p-값과 동일할 경우 점들이 위치하는 위치를 보여준다(일반적이지만 잘못 생각됨). FPR이 전체 범위의 p-값보다 항상 더 크고, 종종 훨씬 더 크다는 것은 분명하다.

놀랄 것도 없이, FPR은 p-등분법으로 계산했을 때보다 항상 더 크다. 0.05에 가까운 p-값과 실제 효과의 이전 확률 = 0.5의 경우, FPR은 콜쿼운[2]의 시뮬레이션과 일치하여 p-등분 해석에 따라 26%이지만, p-less-tan 해석에 따르면 FPR은 6%에 불과하다. 실제 효과의 이전 확률이 0.1일 때 p-값 0.05에 대한 FPR은 p-등분 해석에 대해 76%이다([2]의 시뮬레이션에 의해 발견된 값에 동의함). 그러나 p-less 해석에 따르면 FPR은 36%이다([2]의 부록 A4의 계산 및 트리 다이어그램 접근방식과 일치한다).

FPR이 p-값과 유사한 유일한 경우는 실제 효과의 이전 확률을 0.5로 하고 부적절한 p-less 해석을 사용하는 경우라는 것이 그림 2에서 명백하다. 이 경우 그림 2c,d는 FPR(파란색 선)이 0.05에 가까운 p-값의 p-값 바로 위에 있을 뿐이지만, p = 0.001의 경우에는 이 경우에도 FPR이 p-값보다 5배 더 크다는 것을 보여준다. 그러나 위에서 논의한 바와 같이 질문에 대한 적절한 대답은 p-등분 해석에 의해 제시되며, 이것이 0.05에 가까운 관측된 p-값에 대해 26%의 잘못된 양의 위험을 시사한다는 사실은 콜쿤[2]에서 잘못된 양의 위험이 최소 26%라는 결론과 신뢰할 수 없는 가설(이전의 낮은 가설)을 이끌어냈다. 확률)이 훨씬 높을 것이다.

 

Likelihood ratios

종종 p-값보다 우도비를 인용하는 것이 더 낫다고 제안되어 왔다(예: [13–15]).

여기서 우도라는 단어는 특정한 통계적 의미로 사용되고 있다. 가설이 나올 가능성은 가설이 주어진 데이터를 관측할 확률에 정비례하는 숫자로 정의된다. 이것은 데이터가 주어지는 가설의 다소 이해하기 어려운 확률과 같은 것이 아니라는 점에 유의하십시오. 그것은 찾기 어렵다. 우도의 계산은 전적으로 연역적이므로(우리의 가정 하에 부록 A1 참조), 유도[6]를 포함하지 않는다. 우리가 모수의 최대 우도 추정치에 대해 말할 때 그것은 우리가 다른 어떤 것보다 우리의 관측치를 확률적으로 만드는 값을 선택한다는 것을 의미한다.

가설의 가능성은 그 자체로는 해석할 수 없다: 우리는 단지 두 가설의 상대적 가능성만을 해석할 수 있다. 이것을 우도비라고 한다. 여기서 사용된 예(및 [2]에서)에서 두 가설은 귀무 가설(평균 간의 실제 차이는 0)과 대립 가설(평균 간의 실제 차이는 1)이다.

우도비는 실험 자체에서 제공한 증거를 설명하는 베이즈의 정리(2.1)의 부분이다. 그리고 p-등분법(p-equals method)과 p-less-to-less method(p-less-method, §3 참조)의 두 가지 방법으로 계산할 수 있는 것이 베이스의 정리 부분이다.

우도비를 사용하면 사전 확률을 결정하는 문제를 피할 수 있다는 점에 유의하십시오. 적어도 우리가 정확한 가설을 시험할 때는 그렇다(부록 A1 참조).

예를 들어 t-검정이 p = 0.05를 제공하는 데이터가 있다고 가정합시다. 귀무 가설에서 p = 0.05를 정확히 관측할 확률은 그림 1에서 sudinate y0에 비례하며, 대립 가설에서 정확히 p = 0.05를 관측할 확률은 그림 1에서 sodinate y1에 비례한다.

 

likelihood ratio(alternative/null)=y1/2y0

 

2라는 인자는 우리가 양면검사에 대해 이야기하고 있기 때문에 발생한다. 이것은 부록 A2에 자세히 설명되어 있다.
우도 비율 값은 R 스크립트인 계산-FPR + LR로 출력된다.R(전자 보조 자료 참조) 및 웹 계산기가 제공한다[12]. 스크립트에서 출력 파일의 일부가 표 1과 표 2에 나타나 있다.

 

그림 1에서와 같이 p = 0.05에서 검정력 = 0.78을 관측할 경우 대안 대 null의 우도비는 2.76이다(자세한 내용은 표 1과 부록 A2 참조). 따라서 대립 가설은 귀무 가설의 2.76배에 불과하다(관측된 p-값 0.05에서 추정할 수 있는 20배는 되지 않는다). 이것은 p-값(대개 잘못 해석된 대로)이 귀무 가설에 대한 증거의 강도를 과장한다고 생각하는 이유 중 하나이다 [13,14].

우도비를 계산하는 방법은 두 가지가 있다. 방금 설명한 방법은 p-등분 해석이다(§3 및 그림 2 참조). 이것이 우리의 질문에 대답하는 적절한 방법이다. 우리는 또한 p-less 해석에 적합한 방법으로 우도비를 계산할 수 있다. 이 경우 우도비는 그림 1의 곡선 아래 상대 영역, 즉 검정력/p-값과 동일하다. 그림 1의 예제에서 이것은 0.78/0.05 = 15.6, 즉 대립 가설은 귀무 가설의 15.6배 확률이다. 이 계산은 콜쿤[2]의 부록에서 이루어졌지만, 우리의 질문에 대답하는 것은 적절하지 않다.

우리가 이전의 확률에 대한 유효한 값을 거의 가지고 있지 않다는 것은 잘못된 양의 위험을 계산하는 것이 불가능하다는 것을 의미한다. 따라서 엄격한 유도는 불가능하다[6]. 하지만 우리는 FPR에 대해 최소한의 가치를 부여할 수 있다.

 

Observed likelihood ratios

방금 논의한 우도비는 실제 효과 크기(s.d.)에 대해 계산되었다. 이것은 실생활에서 알려져 있지 않다. 그래서 우리는 우리가 실험 데이터로부터 우도비를 계산하면 어떻게 될까? 이것은 시뮬레이션으로 쉽게 대답할 수 있다. 지정된 상수 효과 크기(1 s.d.)와 지정된 표준 편차에 대한 우도비를 계산하기보다는 각 시뮬레이션 실험에 대해 '관측' 효과 크기, 표본 표준 편차 및 p-값에 대한 우도비를 별도로 계산한다. 이 작업은 R 스크립트 2_샘플-시뮬레이션- +를 사용하여 수행된다. LR + 이전.R(전자 보충 자료 참조).

우도비는 물론 시뮬레이션 실험마다 다르지만, p-값이 0.05에 가까운 실험만 보면 0.0475 < p < 0.0525>라고 하는데, 이 실험에 대한 우도비(실제 효과가 있는 것에 대한 찬성)는 모두 3.64에 가깝다. 이는 이론적 값인 2.76보다 약간 더 크며, 관측된 효과 크기를 사용하여 각 시뮬레이션 실험에 대해 계산되며, 이 경우 실제 효과 크기의 최대 우도 추정치가 되기 때문에 예상해야 한다. 그러나 실제 효과가 있을 확률은 p-값 0.05에서 잘못 추정할 수 있는 19:1 확률보다 훨씬 작다.

0.01에 가까운 p-값(p.0095 < p < 0.0105와 함께 나오는 시뮬레이션 실험만을 보면)에 대해 이러한 시뮬레이션을 반복하면 실제 효과가 있는 것에 대한 우도비는 15.4(그리고 이 경우 이론적 값은 거의 동일함)라는 것을 알게 된다. 그래서 p = 0.01을 관찰하면 대립 가설(실제 효과)이 귀무 가설(실제 효과 없음)보다 15.4배 더 가능성이 높다. 이는 p-값 0.01을 잘못 관측함으로써 99 대 1의 승산이 추론될 가능성이 훨씬 낮아지게 한다. 사실 그것은 19대 1이라는 일반적인 기준에도 미치지 못한다.

우도비는 실험에서 나온 증거에 대해 말해주는 베이즈의 정리의 비트다. p = 0.05를 관측하는 것이 대립 가설을 지지하는 대략 3의 우도 비율에 해당한다는 사실은 0.05에 가까운 p-값을 관측할 때 실제 효과가 있다고 주장하는 것에 대해 회의적이어야 할 충분한 이유가 된다. 또한 p-값은 실험이 제공한 증거의 강도에 대한 매우 불완전한 척도임을 보여준다.

그러나, 우도비를 계산하는 것은 우리가 정말 알고 싶은 것, 즉 거짓 긍정 위험을 말해주지는 않는다. 잘못된 긍정에 대한 합리적인 보호를 제공하기 위해 p-값이 얼마나 작아야 하는지를 쉽게 알 수 없듯이, (실제 효과가 있는 것에 찬성) 우도 비율이 얼마나 커야 거짓 긍정에 대한 합리적인 보호를 제공해야 하는지도 쉽게 알 수 없다. 우리가 정말로 알고 싶은 것은 거짓 긍정적인 위험이며, 그것을 위해서는 베이지안적인 접근이 필요하다.

베이스의 정리(2.1)에 따르면 선행 승산이 1(즉, 실제 효과가 있을 때의 이전 확률은 0.5)일 때 후행 승산은 우도 비율과 동일하다. 따라서 우도비는 (대개 0.5 이전보다 더 높은 것으로 가정하는 것이 허용되지 않는다는 점을 고려할 때) 최소한의 잘못된 양의 위험에 대한 직접적인 측정치를 제공한다. 이 경우 실험에서 p = 0.05를 관측할 때 이론적 우도비는 2.76이다. 따라서 실제 효과가 있는 것에 찬성하는 후두의 승산은 이 경우 역시 2.76이다. 실제 효과가 있을 확률은 방정식(2.2)부터 2.76/(2.76 + 1) = 0.734이다. 따라서 귀무 가설이 참일 확률인 거짓 양성 위험은 1 - 0.734 = 0.266이다. 따라서 위의 계산과 Colquhun [2]의 시뮬레이션에서 발견된 바와 같이 최소 거짓 양성 위험은 26%이다. 실험 결과에서 발견되는 우도비(실제로 계산할 수 있는 값)는 3.64로 약간 더 컸으므로, 이는 1 - (3.64/(1 + 3.64) = 21.6%: 약간 낫지만, 많지는 않았다.

만약 우리가 실험에서 p = 0.01을 관찰한다면, 거짓 양성 위험은 더 낮아질 것이다. 이 경우 실제 효과가 있는 것에 대한 우도비는 15.4이다. 가장 낙관적인 경우(실제 효과 0.5의 선행 확률) 이것은 실제 효과가 있을 때의 후환이 될 것이다. 따라서 귀무 가설의 후방 확률은 위와 같이 1 - (15.4/(15.4 + 1)이다. = 0.061로 관측된 p-값 0.01보다 훨씬 크다. 그것은 심지어 통상적인 5% 가치에도 미치지 못한다.

이 값들은 모두 최소한의 거짓 긍정 위험이다. 실제 효과의 이전 확률이 0.5보다 작을 경우, 그림 3과 같이 거짓 양성 위험은 이러한 값보다 더 클 것이다.

 

False positive risk as function of sample size

R 프로그램(전자 보조 자료 참조) 또는 웹 계산기 [12]를 사용하면 샘플 크기가 다른 특정 p-값에 대한 FPR을 쉽게 계산할 수 있다. 계산은 부록 A2에 요약되어 있다. 그림 4는 Colquhun[2]에서 사용된, n = 4, 8, 16의 표본 크기에 대한 그러한 그래프를 보여준다. 이러한 표본 크기는 p = 0.05 포인트에서 t-검정의 검정력을 0.78(n = 16), 0.46(n = 8), 0.22(n = 4)로 부여한다. 이 값들은 출판된 작품에서 공통적으로 나타나는 힘의 범위를 다룬다[5].

 

FPR은 R 스크립트 Plot-FPR-versus-Pval을 사용하여 p-등분법(§3 및 그림 2 참조)에 의해 계산된다.R(전자 보충 자료 참조) 이 프로그램은 또한 p-less 해석으로 계산된 그래프를 생산하지만, 우리의 질문에 대답하기 위해 필요한 것은 이것이 아니다.

그림 2와 같이, 점선 적색 선은 FPR이 p-값과 같을 경우 점이 위치하는 위치를 보여준다. 오른쪽 열은 그래프의 로그-로그 그림을 왼쪽 열에 표시한다. 모든 경우에 있어서 잘못된 긍정 리스크가 p-값보다 훨씬 크다는 것은 명백하다.

그림 4의 그래프 맨 위 행은 0.1의 실제 효과가 있다는 사전 확률로 계산된다. 즉, 실제 효과의 존재는 다소 신뢰할 수 없다. 0.05에 가까운 p-값의 경우, FPR은 콜쿼운[2]의 시뮬레이션과 계산(표 1)에 의해 발견되는 바와 같이 잘 작동하는 표본 크기(n = 16, 검정력 = 0.78)에 대해 76%이다.

그림 4의 그래프 하행은 실제 효과의 이전 확률을 0.5로 가정하여 계산한다. 즉, 실험을 수행하기 전에 실제 효과가 있을 확률은 50:50으로 가정하므로 선행 승산은 1이다. 이는 일반적으로 합리적으로 가정할 수 있는 가장 큰 이전 확률이다(토론 및 그림 3 참조). 잘 작동하는 실험(n = 16, 검정력 = 0.78)의 경우, p-값 0.05가 관측될 때 FPR은 26%이다(표 1) 다시 이것은 Colquhun[2].

그림 4의 그래프는 또한 다른 표본 크기에 대한 곡선이 p = 0.05에 가깝다는 것을 보여준다. 이는 v [2]에서 p = 0.05에 대한 FPR이 실험의 힘에 무감각하다는 것이 발견된 이유를 설명한다. FPR이 실제로 큰 표본보다 작은 표본으로 약간 낮을 수 있다는 사실은 잘 이해된 현상이다(예: [16]의 13장, [17]).

더 작은 관측 p-값의 경우 그림 4는 모든 경우에 거짓 양성 위험이 관측된 p-값보다 훨씬 크다는 것을 보여준다.

예를 들어 p-값이 0.001이면 R 스크립트 calc-FPR + LR을 실행하면 무엇을 기대할 수 있는지 알 수 있다.R, 관측된 p-값이 0.001(표 2)로 설정된 경우 그림 5와 같이 웹 계산기[12]로도 계산할 수 있다. 이 값들은 실제 효과가 있다는 것에 찬성하여 100 대 1의 우도비를 제공한다. 실제 효과의 이전 확률을 0.5라고 가정할 경우 이는 최소 거짓 긍정 위험 1.0%에 해당한다. 그것은 p-값의 10배이지만 여전히 귀무 가설에 대한 좋은 증거를 제공한다.

 

그러나 그림 5와 같이 실제 효과(신뢰할 수 없는 가설)에 대한 이전 확률 0.1로, p = 0.001을 관찰했음에도 불구하고 거짓 양성 위험은 여전히 8%이다. 매우 낮은 p-값과 큰 우도비에도 불구하고 이 경우 귀무 가설을 기각하는 것은 안전하지 않을 것이다.

문제를 바라보는 대안적인 방법은 허용 가능한 것으로 판단되는 잘못된 양의 위험을 명시하고 이를 달성하기 위해 필요한 p-값을 계산하는 것이다. 이것은 R 스크립트 calc_p-val로 할 수 있다.R(전자 보조 자료 참조) 또는 웹 계산기 사용 [12] 만약 우리가 20번 중에 1번 바보로 만들 의향이 있다면, 우리는 5%의 거짓 긍정 위험을 명시할 것이다. 충분한 힘을 가진 실험(n = 16), 0.05의 잘못된 양의 위험을 달성하기 위해서는 실제 효과의 이전 확률이 0.5(가장 낙관적인 경우)라면 p-값 p = 0.0079가 필요할 것이다. 그러나 실제 효과의 이전 확률이 0.1에 불과했다면 p = 0.00045를 관찰할 필요가 있을 것이다.

이러한 예들은 비록 우리가 그것의 가치를 알지 못하지만, 이전의 확률을 무시하는 것은 어리석다는 것을 보여주는 역할을 한다.

그림 3은 실제 효과가 있을 이전의 확률에 따라 거짓 양성 위험이 어떻게 변화하는지 보여준다. 0.05 바로 아래에 p-값을 제공하는 잘 작동되는 실험(0.78)에 대해 계산된다(자세한 내용은 범례 참조).

앞에서 설명한 바와 같이, 이전의 0.5에 대해서는 거짓 양성 위험이 26%이지만, 덜 타당한 가설의 경우 0.1의 이전 확률로 거짓 양성 위험은 76%이다. 만약 두 집단에게 동일한 치료가 주어졌다면(또는 동등하게 한 집단에 더미 알약이 주어졌고 다른 집단에 동종 요법 알약이 주어졌다) 이전 확률은 0이다: 이 경우 귀무 가설이 참이므로 5%의 시험이 양성으로 나오지만 중요한 것은 거짓 양성 위험성이 100%라는 것이다. 다른 극단에서는 실험을 수행하기 전에 실제 효과가 있다고 완전히 확신한다면(우선 확률 = 1) 모든 양성 테스트는 참 양성이고 거짓 양성 위험은 0이 될 것이다.

이전의 확률을 무시하는 어리석음은 법정에서의 의사결정에 근거한 예를 통해서도 극명하게 설명될 수 있다 [18]: '섬 문제'에서 용의자가 유죄라는 점을 감안할 때 증거를 관찰할 확률은 0.996이었다(자세한 것은 [18] 참조). 그러나 그것만으로도 우리가 알아야 할 것, 즉 피의자가 유죄일 확률은 전혀 알 수 없다, 증거만 놓고 보면. 전자를 후자로 착각하는 것은 전치 조건 [6]의 오류, 또는 이런 맥락에서 검사의 잘못이다. 그렇다면 증거의 강도의 표시로 우도비를 계산하는 것이 더 도움이 될까? 증거에 비추어 피의자가 무죄라기 보다는 유죄라고 250:1의 확률로 평가하는 프로브(증거: 무죄)/프로브(증거: 무죄)이다. 그것은 타당한 의심의 여지가 없다. 그러나 그 (어느 정도 인위적인) 예에서 죄의 사전 확률은 1000분의 1로 알려져 있었기 때문에 베이의 정리(2.1)에서 보면 죄의 후방 확률은 250:1이 아니라 오히려 0.25:1이다. 다시 말해서 죄의식에 대해 4대 1의 확률이 있다. 우도비만을 사용했을 경우, 아마도 무고한 사람에 대한 잘못된 확신(그리고 일부 국가에서는 처형)이 초래되었을 것이다[18].

실제 효과가 있을 때의 이전 확률(또는 이 예에서 유죄의 이전 확률)은 알 수 없지만, 확실히 무시할 수는 없다. 다행히도 이 딜레마에 대한 해결책이 있다. 그것은 다음 절에서 논의될 것이다.

 

The reverse Bayesian argument

지금까지 주어진 모든 예에서, FPR을 계산하기 위해서는 사전 확률을 명시할 필요가 있었다. 그러나 우리는 이 이전의 것에 대해 유효한 가치를 거의 가지고 있지 않다. Matthews [19]는 0이 아닌 효과가 있다는 이전의 확률에 대해 본질적으로 유효한 가치를 가지고 있지 않다는 불편한 사실에 의해 제기되는 문제를 다루는 기발한 방법을 제안했다. 그는 우리가 그 주장을 번복할 것을 제안한다. 우리는 우리가 수용할 수 있는 잘못된 양의 위험을 명시하고, 그 비율을 달성하는 데 필요한 이전의 확률을 계산한다. 그러면 우리는 그 이전의 확률이 타당한지 아닌지를 판단할 수 있다. 계산은 부록 A3에 요약되어 있다. 계산은 R 스크립트에 의해 이루어진다.R(전자 보조 자료 참조) 또는 웹 계산기 사용 [12]

유사한 제안이 다른 사람들, 특히 [20]에 의해 이루어졌다.

예를 들어 0.05에 가까운 p-값을 관측하고 5%의 잘못된 양의 위험(많은 사람들이 p-값이 주는 것으로 잘못 생각함)을 원하는 경우, 0이 아닌 효과의 이전 확률은 87%(표본 크기 n = 16)라고 가정해야 한다. 즉, 5%의 잘못된 양의 위험을 얻으려면 실험을 하기 전에 0이 아닌 효과가 있다는 것을 거의 확신해야 한다(사전 = 0.87). 이 경우의 웹 계산기는 그림 6과 같다.

 

그리고 1%의 거짓 양성위험을 얻으려면 0.98의 이전 확률을 가정해야 할 것이다. 이러한 선입견들은 명백히 터무니없이 높다. 0.05에 가까운 p-값이 제공하는 증거의 약점을 살펴보는 또 다른 방법이다.

0.01에 가까운 p-값을 관측할 경우 5%의 잘못된 양의 위험을 달성하려면 0.55의 실제 효과가 있다는 사전 확률을 가정해야 한다. 즉, 실험을 수행하기 전에 실제 효과가 있다는 확률은 실제 효과가 있다는 확률은 (약간) 그렇지 않은 확률보다 더 높았다. 그리고 1%라는 잘못된 양의 위험을 달성하기 위해서는 이전이 허용치 않을 정도로 높은 0.87이 되어야 할 것이다.

p-값이 0.001인 경우 5%라는 잘못된 양의 위험을 달성하려면 이전 값이 0.16이라고 가정해야 한다. 0.5 이하인 한 그것은 불가능하지 않지만, 만약 그 가설이 믿을 수 없다면(예: 우리는 동종요법 약을 시험하고 있었다) 여전히 믿을 수 없을 정도로 높게 생각될 수도 있다. 0.01(p-값보다 10배 큰)의 잘못된 양의 위험은 0.50 이전이 필요할 것이다. 그런 다음 데이터를 얻기 전에 실제 효과가 있을 확률이 50:50이라고 가정하는 것이 타당한지 여부를 결정해야 한다.

이러한 선행은 실제 평균 차이와 실제 표준 편차를 사용하여 계산되며, 실생활에서는 이러한 사실을 알 수 없다. 우도비의 경우처럼 실험 데이터로부터 사전 확률을 계산하면 어떻게 되는가 하는 질문을 던질 수도 있다. 다시 이것은 시뮬레이션에 의해 쉽게 대답된다. 지정된 상수 효과 크기(1 s.d.)와 특정 표준 편차에 대한 사전 확률을 계산하기보다는 '관찰' 효과 크기, 표본 표준 편차 및 p-값을 사용하여 각 시뮬레이션 실험에 대해 사전 확률을 별도로 계산한다. 이 작업은 R 스크립트 2_샘플-시뮬레이션- +를 사용하여 수행된다. LR + 이전.R(전자 보충 자료 참조). 이것은 정확한 계산과 매우 유사한 결과를 준다. 예를 들어 5%의 잘못된 양의 위험을 달성하기 위해 추정해야 하는 이전의 확률은 표본 크기 n = 16의 p-값이 0.05(p = 0.0475와 0.0525 사이)에 가까운 '실험자'의 경우 0.84에 가깝다. 이는 실제 효과 크기와 표준 편차로 발견되는 0.087 이전과 거의 유사하다. p-값이 작을 경우 차이는 더욱 작다. 따라서 관측된 효과 크기 및 표준 편차(예: 계산 우선자 사용)에서 사전 확률을 계산하기에 충분할 것이다.R(전자 보조 자료 참조) 또는 웹 계산기 [12]).

물론 계산된 사전 확률을 수용할 수 있는지 없는지 여부에 대한 판단은 주관적이다. 엄격한 귀납 추론이 불가능하기 때문에 [6], 일부 주관적인 요소가 불가피하다. 지정된 거짓 양의 위험을 달성하는 데 필요한 이전 확률의 계산은 p < 0.05가 발견을 주장하는 충분한 근거라는 동일한 주관적 판단보다 훨씬 더 유익하다.

 

Discussion

우리가 이전의 확률에 대한 유효한 값을 거의 가지고 있지 않다는 것은 잘못된 양의 위험을 계산하는 것이 불가능하다는 것을 의미한다. 따라서 엄격한 유도는 불가능하다[6].

흔히 p-값이 귀무 가설에 반하는 증거를 과장한다고들 하지만, 이것은 엄밀히 말하면 사실이 아니다. 사실인 것은 p-값은 흔히 경우보다 귀무 가설에 대해 더 많은 증거를 제공하는 것으로 잘못 해석된다는 것이다. p-값이 작을수록 귀무 가설의 타당성이 떨어진다는 사실에도 불구하고, 실제로 귀무 가설이 사실일 때 효과가 실제라고 주장함으로써 자신을 바보로 만들 위험으로부터 보호하기 위해서는 p-값이 얼마나 작아야 하는지를 알기 위한 간단한 방법은 없다. 따라서 당신이 보고 있는 것은 무작위 표본 추출 오류뿐이다.

p-값은 우연히 결과가 나왔을 확률, 즉 귀무 가설이 사실일 확률이라는 잘못된 인식이 많은 실험자들의 마음속에 확고히 박혀 있다. 그러나 그것은 잘못되었고 심각하게 오해의 소지가 있다.

표 3은 결과의 일부를 요약한 것이다. 특히 이전 확률의 강한 영향을 주목하십시오. 실제 효과가 (사전 확률 0.5)가 아닐 가능성이 있다고 가정할 수 있다면, p = 0.005의 관측치는 3.4%의 합리적인 거짓 양성 위험을 의미할 것이다. 그러나 이전 확률이 0.1일 경우 p = 0.005는 24%의 비참한 FPR을 제공할 것이다. 이 경우 p = 0.001이라도 FPR은 8%가 된다. FPR을 5%로 낮추려면 p = 0.00045가 필요하다.

 

통계학자들이 추론의 원리에 대해 서로 합의할 수 없다는 점에서 재현성의 문제는 도움이 되지 않았다. 이는 미국통계협회(ASA)가 작성한 p-값에 대한 진술의 다소 창백한 성격에 의해 매우 분명하게 나타난다[21]. 그것은 하지 말아야 할 것을 말하면서도 무엇을 해야 할지를 말하지 못했다. 20개의 동봉된 성명서를 읽는 것은 교전 중인 진영들의 견해들 사이에 수렴될 기미가 거의 보이지 않는다. 스티븐 센은 트윗에 이렇게 적었다.

 

동의할 수 없다는 것은 또한 왕립 통계학회에서 ASA 진술[22]에 대한 논의와 그것에 대한 매튜스의 평가에 의해 1년 후 [23]에 의해 명백해진다.

Henegan과 Goldacre와 같은 증거 기반 의학의 거러스조차도 임상시험의 비신뢰성에 대한 p-값의 신화에 의해 이루어진 기여에 대해서는 언급하지 않는다[24].

더욱 놀랍게도, 전문 통계학자들의 유의성 검정에 대한 일부 설명조차도 항상 p-값의 약점을 증거로 지적하지는 않는다. 생물학자들에 대한 그들의 가르침은 널리 퍼진 오해에 대한 일부의 비난을 감수해야 한다.

여전히 베이지안 접근법을 둘러싼 논란에도 불구하고, 우리 모두가 마음속으로 베이지안인 것은 분명하다. 이것은 '특정 주장에는 특별한 증거가 필요하다'는 진부한 표현과 '너무 좋게 들려서 사실일 경우 그것은 아마도 사실이 아닐 것이다'라는 표현에서 잘 드러난다. 그 문제는 우리가 불확실성에 숫자를 붙이기를 원할 때 발생한다. 그리고 가장 큰 문제는 귀무 가설이 틀렸다는 이전의 확률에 숫자를 붙이는 것이 불가능하다는 것이다(부록 A1 참조).

실제 베이지안 사람은 사전 분포를 명시할 것이며, 이는 현재의 전문가 의견에 근거하여 실험이 이루어지기 전의 지식 상태를 나타낸다고 주장할 것이다. 이것은 권위에 대한 호소[25]에 지나지 않는 것으로 보인다. 본질적으로 이전의 분포를 명시할 만큼 충분한 전문가의 의견이 존재하지 않으며, 그렇게 하려고 하는 것은 현재의 편견을 강화할 위험을 수반한다. 어떤 전문가에게 물어보느냐에 따라 결과가 달라질 것이다. 전문가들만큼이나 다양한 해답이 나올 것이다. 그것은 도움이 되지 않는다: 사실 그것은 판타지 과학이다. 그래서 우리는 무엇을 할 수 있을까?

콜쿤[2]이 제안한 문제를 해결하는 방법은 0.5보다 큰 이전의 확률은 허용되지 않는다고 말하는 것이었다. 왜냐하면 실험이 끝나기 전에 답을 알고 있다고 말하는 것과 같기 때문이다. 따라서 0.5의 이전 확률에 대한 잘못된 양의 위험을 계산하여 최소의 잘못된 양의 위험으로 설명할 수 있다. 가설을 신뢰할 수 없는 경우 이전 확률은 0.5보다 훨씬 낮을 수 있으며, 이에 따라 거짓 양성 위험은 최소값보다 훨씬 높을 수 있다. 그러나 잘못된 긍정 리스크에 하한을 설정하는 것이 문제를 무시하는 것보다 훨씬 낫다.

p-값 대신 우도비 사용이 주창되었다(예: [13,14]). 그들은 (우리의 가정 하에서 부록 A1 참조) 사전 확률을 명시하지 않고 계산할 수 있는 장점이 있으며, 실험에서 제공한 증거(p-값이 하지 않는 것)를 정량화하는 베이즈 정리(등식 2.1)의 일부라는 장점이 있다.

우도비 계산은 확실히 p-값(§5) [26]: p = 0.05를 관측할 경우 실제 효과가 있는 우도비는 약 3(§5)이며, 이것은 상당히 약한 증거다. p = 0.01을 관측하더라도 실제 효과가 있을 가능성은 귀무 가설의 가능성보다 15배 정도밖에 더 크다. 따라서 실제 효과의 존재는 관찰된 p-값 0.01에서 잘못 추정할 수 있는 99 대 1의 확률보다 훨씬 덜 가능성이 있다. 실제로 19대 1이라는 공통 기준에도 미치지 못한다.

우도비는 유용할 수 있지만, 두 가지 이유로 인해 잘못된 긍정의 문제에 대한 해결책은 아니다(§5 참조). 첫째로, 우도 비율이 얼마나 커야 자신을 바보로 만드는 것을 막을 수 있는지 알 수 있는 간단한 방법이 없다. 그리고 둘째, 우도비는 이전의 확률이 작을 때 실제 효과가 있는 증거의 강도를 심각하게 과대평가할 수 있다. 그들의 사용은 무고한 사람에 대한 유죄판결을 초래할 수 있다. 실제 효과가 있는 것에 찬성하여 우도비 100을 제공하는 p = 0.001을 관측하더라도 실제 효과의 이전 확률이 0.1(표 2)에 불과할 경우 잘못된 양의 위험은 여전히 8%가 될 것이다.

나는 알 수 없는 이전의 딜레마를 피하는 가장 좋은 방법은 주장을 뒤집고 관찰된 p-값을 사용하여 지정된 거짓 양의 위험을 달성하기 위해 필요한 이전 확률을 계산하는 것이라고 제안한다[19,20]. 이는 기본 옵션인 웹 계산기 [12]를 사용하여 쉽게 계산할 수 있다(그림 6). 이 절차는 계산된 이전이 타당한지 아닌지에 대한 주관적 판단을 남긴다(이전자가 0.5보다 크게 나온다면 이전 분포에 대한 확실한 증거가 없는 경우, 결코 타당한 것이 아니다).

0.05에 가까운 p-값을 관측할 경우 5%의 잘못된 양의 위험을 달성하기 위해서는 실제 효과가 있을 확률은 0.87까지 높다고 가정할 필요가 있을 것이다. 그것은 매우 불합리할 것이다.

알려지지 않은 이전의 문제를 해결할 다른 방법들이 제안되었다. 전체 베이지안 분석에는 효과 크기에 대한 사전 분포를 선택하는 것이 포함된다.

 

Conclusion and what should be done?

당신이 하지 말아야 할 한 가지는 많은 저널이 주는 충고를 따르는 것이다: 다음과 같은 몇몇 진술은 너무 흔하다[28]

통계적 유의성의 임계값을 구성하는 것으로 간주되는 확률의 수준(p)은 방법에서 정의되어야 하며, 나중에 결과(다중 유의 수준을 표시함으로써)에서 변경되지 않아야 한다. 따라서 일반적으로 p < 0.05는 그룹 간의 통계적으로 유의한 차이를 나타내기 위해 논문 전체에 사용
굿맨 [13]이 말했듯이:
대부분의 연구 기사에서 'p-값이 0.05 미만이 통계적으로 유의하다고 간주되었다'는 의무적인 진술은 의미론에서 공허한 행사다.
p < 0.05는 귀무 가설을 기각한 매우 약한 증거일 뿐만 아니라, 이와 같은 진술은 결과의 구분을 영구히 '유의적'과 '비의적'으로 한다.
또 다른 극단에서는, 완전한 베이지안 분석을 하기 위해 환상의 선행분포를 사용해서는 안 된다. 발렌 존슨은 당연히 그렇게 말했다.

주관적인 베이지안 시험 절차는 과학계에서 일반적으로 받아들여지지 않았으며 결코 받아들여지지 않을 것 같다[29].
그래서 여기 내가 해야 할 일이 있다.
(1) p-값과 신뢰 구간을 계속 부여한다. 이 숫자들은 익숙하고 계산하기 쉽기 때문에 주어져야 하는데, 이 숫자들이 당신이 바보짓을 하는 것을 막는 데 큰 도움이 되기 때문이 아니다. 그들은 귀무 가설에 대한 좋은 증거를 제공하지 않는다. 신뢰 구간을 부여하면 효과 크기에 주의를 집중하는 장점이 있다. 그러나 진정한 가치가 당신이 찾은 신뢰 한계 내에 있을 확률은 95%가 아니라는 것을 분명히 해야 한다. 신뢰 한계는 귀무 가설에 대해 p-값과 같은 종류의 증거를 제시한다. 즉, 많지는 않다.

(2) 단일 p-값이 제공하는 증거의 강도를 표시하는 최선의 방법은 역 베이시안 방법(§7)을 사용하는 것을 제안한다. 즉, 지정된 잘못된 양의 위험을 달성하는 데 필요한 이전 확률을 계산한다(예: 계산 우선자 사용).R(전자 보조 자료 참조) 또는 웹 계산기 [12]). 이 이전이 0.5보다 크면 실제 효과를 발견했다고 주장하면 안전하지 않다. 계산된 이전이 0.5 미만인 경우 계산된 이전이 그럴듯하다고 주장하는 것은 여러분에게 달려 있으며, 여러분의 주장에 의해 그들이 확신하는지 아닌지를 판단하는 것은 독자에게 달려 있다. 예를 들어, p = 0.005는 5%의 잘못된 양의 위험을 달성하기 위해 0.4의 이전이 필요할 것이다(표 3). 따라서 p = 0.005를 관찰하고 5%의 거짓 양성 위험으로 만족한다면 0.4의 이전이 타당한지 아닌지를 판단하는 것은 여러분과 독자의 몫이다. 이 판단은 대체로 주관적이며, 사람들은 그것에 대해 동의하지 않을 것이다. 그러나 추론은 어딘가 주관성을 수반해야 한다. 내가 보기에 FPR을 계산하기 위해 임의의 이전 항목을 지정하는 것보다 이전의 계산이 더 나은 방법인 것 같다. 결국 복제만이 인수를 해결할 것이다.

(3) 가장 중요한 것은 '중요하다'와 '비중요하다'라는 단어를 사용하여 결과를 기술하는 것이다. 이 완전히 자의적인 이분법은 과학의 진실성에 헤아릴 수 없는 해악을 끼쳤다.

(4) 절충 아이디어는 관찰된 p-값을 설명하는 데 사용되는 단어를 변경하는 것이다. 통계적 유의성에 대한 기준을 0.05에서 0.005로 변경할 것을 제안하였다[15,27]. 확실히, 현재의 비상식적 서술은 절대 사용해서는 안 된다: p > 0.05 유의하지 않다; p < 0.05 유의하다; p < 0.01 매우 유의하다. 그리고 그것을 나타내기 위해 별표를 사용해서는 안 된다.

'통계적 유의성'에 대한 임계값을 p = 0.005로 줄이면 거짓 긍정자의 수가 확실히 줄어들겠지만, 임계값과 같은 것은 없다. 그리고 물론 p = 0.005의 임계값은 많은 실제 효과를 놓치게 될 것이다. 실제로 의사결정은 실제 효과가 없을 때 실제 효과를 잘못 주장하여 발생하는 상대적 비용(돈과 명성)에 따라 결정되어야 하며, 실제 효과가 있을 때 이를 감지하지 못함으로써 발생하는 상대적 비용(돈과 명성)에 따라 결정되어야 한다. 한계 p-값은 추가 조사를 위한 신호로서 괜찮다. 결국 유일한 해결책은 복제뿐입니다.

(5) 단일 p-값에서 제공하는 근거의 강도를 조사하는 또 다른 방법은 p-값, 우도비 또는 그에 상응하는 최소 거짓 양의 위험(예: 계산-FPR + LR 사용)을 명시하는 것이다.R(전자 보조 자료 참조) 또는 웹 계산기 [12]).

이것들은 단순히 p-값을 명시하는 것보다 실험이 제공하는 증거를 평가하는 훨씬 더 좋은 방법이다.

(6) 엄격한 귀납적 논증에 대한 방법이 존재하지 않는다는 것을 항상 주의한다[6]. 실무에서는 판단력, 특히 복제가 항상 필요하다. 당신을 위해 자동적으로 판단을 내릴 수 있는 컴퓨터 프로그램은 없다.

 

여기 실제 삶의 예가 있다. 사이언스에 발표된 전자파 자극에 대한 연구는 '연관 기억 성능 향상'이라는 결론을 내렸다. p = 0.043 [30]. 만약 실험이 적절한 검정력(예: 8의 표본 크기는 낙관적일 수 있음을 시사한다)을 가지고 있다고 가정한다면, p = 0.043을 관찰할 때 5%의 잘못된 양의 위험을 달성하기 위해서는 메모리에 대한 효과가 진짜일 확률을 0.85로 가정해야 할 것이다(계산 우선에서 발견됨).R(전자 보조 자료 참조) 또는 웹 계산기 [12]). 대부분의 사람들은 실험을 하기 직전에 거의 확실하다는 가정(확률 0.85)에 근거한 분석을 내놓는 것이 설득력이 부족하다고 생각할 것이다.

p = 0.043에 의해 제공된 증거의 강도를 표현하는 또 다른 방법은 실제 효과의 존재를 무효과(calc-FPR + LR에 의해 발견된 우도비)의 3.3배만 확률로 만든다는 점에 주목하는 것이다.R(전자 보조 자료 참조) 또는 웹 계산기 [12]). 이는 뇌의 특정하지 않은 전기적 자핑이 기억력을 향상시키지 않을 가능성이 있다고 가정할 의향이 있다면 최소 23%의 거짓 양성 위험에 해당할 것이다(실제 효과의 이전 확률은 1)

최근 '통계적 유의성'에 대한 규범을 p = 0.05에서 p = 0.005로 바꿀 것을 제안하는 논문(저자 72명 포함)이 [15]에 등장했다. 벤자민 외 연구진 [15] 여기에서 그리고 콜쿤에서 [2]와 같은 점을 많이 만든다. 그러나 몇 가지 의견 불일치가 있다.

(1) Benjamin 등에서는 '통계적 유의성'에 대한 임계값을 변경할 것을 제안하는 반면, '통계적으로 유의성'이라는 용어를 모두 삭제하는 것을 제안한다. 단지 p-값과 5%(또는 그 밖의 것)의 지정된 거짓 양성 위험을 부여하는 데 필요한 이전 값을 부여한다. 또는 p-값과 최소 거짓 양의 위험(사전 승산 1로 가정)을 부여한다. 고정된 임계값을 사용하는 것은 많은 해를 끼쳤다.

(2) 벤자민 외 연구진의 eqn (2)에서 거짓 양성 위험의 정의. [15]는 p-less 해석에 근거한다. 콜쿤[2]과 본 논문에서는 p-등분 해석이 단일 시험의 해석에 더 적합하다고 주장한다. 만약 이것이 받아들여진다면, p-값의 문제는 벤자민 등이 언급한 것보다 훨씬 더 크다(예: 그림 2).

(3) 벤자민 등이 제안한 p = 0.005의 값. [15] 5%의 잘못된 양의 위험을 달성하기 위해서는 약 0.4의 이전 실제 효과 확률을 요구한다.R 또는 웹 계산기, 검정력 = 0.78, 즉 n = 16). 그러므로 그것은 그럴듯한 가설에만 안전하다. 이전 확률이 0.1일 경우 p = 0.005인 잘못된 양의 위험은 24%가 된다(계산-FPR + LR).R 또는 웹 계산기, n = 16). p = 0.005인 경우에도 여전히 받아들일 수 없을 정도로 높을 것이다. 이 결론은 벤자민 외 연구진과의 결론과 다르다는 점에 유의하십시오. [15] p = 0.005 임계값, 이전 = 0.1이면 거짓 양성 위험을 5%(24%보다 낮음)로 줄일 수 있다고 말하는 사람. 내 생각에 그들은 문제를 보는 올바른 방법이 아닌 p-less 해석을 사용하기 때문이다.

 

보고된 많은 p-값이 0.01과 0.05 사이에 한계 범위에 해당된다[31,32]. 그것들은 귀무 가설에 대한 약한 증거만을 제공한다. 이는 잘못된 긍정성의 문제가 보고된 재현성 부족의 상당 부분을 책임질 가능성이 있음을 시사한다. 여기에 약술된 문제들은 통계학자들에게 적어도 70년 동안 알려져 왔지만, 여전히 실험자들에게는 대체로 알려져 있지 않다.

실험자들이 p < 0.05의 신화에 대해 알고 싶어하지 않는다는 결론을 피하기 어렵다. 통계학자들이 이 접근법의 부적절함을 지적해 온 수십 년 동안에도 불구하고, 관행은 거의 변하지 않았다. 실제로 전문 통계학자를 공동저자로 둔 논문에서도 여전히 널리 사용되고 있다. 실험자들은 p < 0.05라는 신화를 버리는 것은 학문적 쥐 경주에서 자신의 위치를 해칠 수 있다고 생각한다.

저널도 일부 비난을 감수해야 한다. 그들의 통계적 조언은 대부분 다소 부정확하다. 그러나 내가 그러한 나쁜 조언에 의해 초래될 해를 지적했을 때[28] 저널 편집자들의 반응은 만약 그들이 위에서 주어진 종류의 권고를 채택한다면 '저널의 영향인자를 손상시킬 것'이라고 말하는 것이었다. 저널 간 경쟁의 효과는 개인 간 경쟁의 효과만큼이나 타락한다.

이 논문은 매우 제한적인 문제를 다루고 있다: 유의성에 대한 편향되지 않은 단일 시험의 결과를 어떻게 해석하는가? 그것은 과학적으로 잘못된 긍정 비율을 추정하려는 시도를 하지 않는다. 재현성 문제에 대한 인식이 높아지면서 문제의 규모를 평가하려는 시도가 많아졌다. 이러한 논문의 대부분은 잘못된 양의 위험을 계산하기 위해 p-less 접근방식을 사용하기 때문에, 문제는 그들이 제안하는 것보다 훨씬 더 심각할 수 있다(예: [10,33–37].

이 슬픈 국정에 대해 궁극적인 책임을 져야 할 국민은 대학 총장들과 연구 자금 조달 책임자들이다. 출판물을 세고 인용문을 세고 논문을 출판된 저널에 의해 판단하는 '생산성'을 계속 평가하는 한편, 부패는 계속될 것이다. 이와 같은 측정기준이 품질을 측정하지 않고 나쁜 관행을 조장한다는 충분한 증거에도 불구하고, 그러한 측정기준은 계속 널리 퍼져 있다[33,34,36–38]. 대학 순위에서 한 두 자리를 메우려는 대학 관리자들의 노력은 개인에게 매우 잔인할 수 있으며, 심지어 사망에 이르게 할 수도 있다[34], 그리고 이렇게 하는 사람들은 그들이 집착하는 순위는 통계적으로 문맹이라는 사실에 대해 전혀 이해하지 못하는 것 같다[35,38,39].

거짓 긍정론의 발진에서 정말 참담한 면 중 하나는 과학을 불신하는 사람들에게 탄약을 준다는 것이다. 최근까지, 이것들은 대부분 동종 요법과 다른 증거 없는 의학의 옹호자였다. 이제 백신 접종의 효과를 부정하고 기후변화의 실체를 의심하는 미국의 대통령이 있는 상황에서 신뢰할 수 있는 과학의 필요성은 그 어느 때보다 크다.

대학과 정치인, 저널이 이 일을 하는 사람들에게 비뚤어진 인센티브를 부과함으로써 재현성을 향상시키려는 노력을 중단해야 하는 것은 시급한 문제가 되었다. 이러한 압박으로 인해 때때로 젊은 과학자들이 선배들에 의해 윤리적으로 행동하게 되었다. 그들은 [40]에 맞서 싸우고 있고 그것은 미래에 대한 좋은 징조다.

댓글