본문 바로가기
Statistics

Geometric mean

by wycho 2020. 10. 19.

Geometric mean : 기하평균

[ Geometric mean ]

기하평균은 곱셈으로 계산하는 값들의 평균을 구할 때 사용한다. 예를 들어 해가 지남에 따라 어떠한 비율로 증가하거나 감소하는 값들이, 그 기간동아 얼만큼 증가 또는 감소하였는지 평균값을 구할 때 사용한다. 기하평균은 한쪽으로 치우쳐 있는 데이터의 extreme value에 대해서 영향을 덜 받는다.

 

Relationship을 계산하는 프로그램인 KING 에서 relatedness coefficient를 계산하기 위해 mean 값(within family)과 minimum 값(btw family relatedness)을 사용하였고, 같은 알고리즘을 사용하지만 PEDDY 라는 프로그램에서는 mis-specified family 정보에 대해서 geometric mean을 사용하였다. PEDDY 논문인 Who’s Who? Detecting and Resolving Sample Anomalies in Human DNA Sequencing Studies with Peddy 에 의하면, geometric mean을 사용했을 때 bias와 95% CI range가 작았고, minimum값을 사용했을 때는 반대의 결과를 주었다고 한다.

 

$ peddy -p 4 --plot --prefix 2010_ data.vcf.gz data.fam

$ peddy -h
Usage: peddy [OPTIONS] VCF PED

  pleasingly pythonic pedigree manipulation

Options:
  --plot
  -p, --procs INTEGER             number of processors to use
  --prefix TEXT                   prefix for output files (default is basename
                                  of vcf)

  --each INTEGER                  sample every nth value from the selected
                                  sites instead of every value to speed
                                  processing.

  --sites TEXT                    The path to a file with alternative sites to
                                  use for calculating relatedness in format
                                  1:234234 1:45345345... with
                                  chrom:pos[:ref:alt] on each line. The
                                  special-case of 'hg38' for this will use
                                  hg38 sites shipped with peddy.

  --loglevel [DEBUG|INFO|WARNING|ERROR|CRITICAL]
                                  Set the level of log output.  [default:
                                  INFO]

  --version                       Show the version and exit.
  -h, --help                      Show this message and exit.

 

Reference

- Geometric mean, https://onlinelibrary.wiley.com/doi/abs/10.1002/0470013192.bsa376

- Geometric mean, https://en.wikipedia.org/wiki/Geometric_mean

- [KING] Robust relationship inference in genome-wide association studies, https://academic.oup.com/bioinformatics/article/26/22/2867/228512

- [KING] http://people.virginia.edu/~wc9c/KING/manual.html

- [PEDDY] Who’s Who? Detecting and Resolving Sample Anomalies in Human DNA Sequencing Studies with Peddy, https://www.cell.com/action/showFullTextImages?pii=S0002-9297(17)30017-4

- [PEDDY] https://github.com/brentp/peddy

 

 

 

 

'Statistics' 카테고리의 다른 글

FDR : False Discovery Rate  (0) 2020.10.26
Confusion matrix  (0) 2020.10.25
Bayesian inference  (0) 2020.08.03
Discrete probability distribution  (0) 2020.07.07
Sampling  (0) 2020.06.30

댓글