Geometric mean : 기하평균
기하평균은 곱셈으로 계산하는 값들의 평균을 구할 때 사용한다. 예를 들어 해가 지남에 따라 어떠한 비율로 증가하거나 감소하는 값들이, 그 기간동아 얼만큼 증가 또는 감소하였는지 평균값을 구할 때 사용한다. 기하평균은 한쪽으로 치우쳐 있는 데이터의 extreme value에 대해서 영향을 덜 받는다.
Relationship을 계산하는 프로그램인 KING 에서 relatedness coefficient를 계산하기 위해 mean 값(within family)과 minimum 값(btw family relatedness)을 사용하였고, 같은 알고리즘을 사용하지만 PEDDY 라는 프로그램에서는 mis-specified family 정보에 대해서 geometric mean을 사용하였다. PEDDY 논문인 Who’s Who? Detecting and Resolving Sample Anomalies in Human DNA Sequencing Studies with Peddy 에 의하면, geometric mean을 사용했을 때 bias와 95% CI range가 작았고, minimum값을 사용했을 때는 반대의 결과를 주었다고 한다.
$ peddy -p 4 --plot --prefix 2010_ data.vcf.gz data.fam
$ peddy -h
Usage: peddy [OPTIONS] VCF PED
pleasingly pythonic pedigree manipulation
Options:
--plot
-p, --procs INTEGER number of processors to use
--prefix TEXT prefix for output files (default is basename
of vcf)
--each INTEGER sample every nth value from the selected
sites instead of every value to speed
processing.
--sites TEXT The path to a file with alternative sites to
use for calculating relatedness in format
1:234234 1:45345345... with
chrom:pos[:ref:alt] on each line. The
special-case of 'hg38' for this will use
hg38 sites shipped with peddy.
--loglevel [DEBUG|INFO|WARNING|ERROR|CRITICAL]
Set the level of log output. [default:
INFO]
--version Show the version and exit.
-h, --help Show this message and exit.
Reference
- Geometric mean, https://onlinelibrary.wiley.com/doi/abs/10.1002/0470013192.bsa376
- Geometric mean, https://en.wikipedia.org/wiki/Geometric_mean
- [KING] Robust relationship inference in genome-wide association studies, https://academic.oup.com/bioinformatics/article/26/22/2867/228512
- [KING] http://people.virginia.edu/~wc9c/KING/manual.html
- [PEDDY] Who’s Who? Detecting and Resolving Sample Anomalies in Human DNA Sequencing Studies with Peddy, https://www.cell.com/action/showFullTextImages?pii=S0002-9297(17)30017-4
- [PEDDY] https://github.com/brentp/peddy
'Statistics' 카테고리의 다른 글
FDR : False Discovery Rate (0) | 2020.10.26 |
---|---|
Confusion matrix (0) | 2020.10.25 |
Bayesian inference (0) | 2020.08.03 |
Discrete probability distribution (0) | 2020.07.07 |
Sampling (0) | 2020.06.30 |
댓글