본문 바로가기
Statistics

P-value

by wycho 2020. 11. 30.

P-value

: the probability that observing something more “extreme” than the data under the null hypothesis.

: the probability that 1) random chance generated the data, or 2) something else that is equal or 3) rarer.

 

Significance test

: To test whether the hypothesis is tenable or not.

 

Descriptive statistics

: Information from the data

 

Inferential statistics

: Information of population infered by the observed data

 

Distribution vs. P-value
: 샘플을 비교할 때,
  1) 같은 분포에서 나왔다면 p-value는 높은 값(e.g. 0.8, 0.9, ..)을 가지며, p-value의 histogram을 그려보면 uniform하게 나타난다.
  2) 다른 분포에서 나왔다면 p-value는 낮은 값(e.g. 0.03, 0.01, ..)을 가지며, p-value는 낮은 값으로 skew된 histogram을 그린다.

  샘플들은 같은 집단과 다른 집단에서 나온 것들이 섞여있는 형태를 가질 것이다.
 

  이런 분포에서 중요하다고 생각되는 것들(significant or positive)에는 false positive가 많이 포함되어있을 확률이 크다.
 

  이러한 false positive를 줄이기 위한 방법으로 Bonferoni correction, Benjamini-Hochberg Procedure, 등등이 있으며, 이 방법들을 적용한 p-value를 'adjusted p-value'라고 부른다.

 

  Adjusted p-value는 false positive의 p-value값을 높여서 걸러 내는데 이용한다.

2020.10.26 - [Statistics] - FDR : False Discovery Rate

2021.06.10 - [Statistics] - Multiple test correction

 

Reference

- False Discovery Rates, FDR, clearly explained, https://youtu.be/K8LQSvtjcEo

- “Mean ± SEM” or “Mean (SD)”?, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2959222/

- https://blog.minitab.com/blog/adventures-in-statistics-2/understanding-hypothesis-tests-significance-levels-alpha-and-p-values-in-statistics

 

 

 

 

'Statistics' 카테고리의 다른 글

Fisher's exact test  (0) 2021.06.01
SKAT-O  (0) 2021.01.06
FDR : False Discovery Rate  (0) 2020.10.26
Confusion matrix  (0) 2020.10.25
Geometric mean  (0) 2020.10.19

댓글