본문 바로가기
Study

Phasing

by wycho 2020. 6. 17.

Phasing이란 diplotype을 parental haplotype과 maternal haplotype로 분리하는 작업을 말한다.

diplotype에서 0과 2는 00과 11로 쉽게 분리가 가능하며 homozygous position이라 부른다. 1은 01 또는 10이 되기 때문에 쉽게 분리할 수 없으며 heterozygous position이라 부른다.

Heteryzygous position의 allelle은 conditional probability로 결정되며, 대부분의 phasing이나 imputation tool에서는 HMM (Hidden Markov Model)을 통해 modeling을 한다. HMM은 transition part와 emission part로 구성되어 있으며, transition은 recombination event에 해당하고 emission은 observed allele에 해당한다. 

prior은 population distribution of diplotype, 즉 reference panel이며, posterior은 input diplotype인 observed allele이다. 이를 바탕으로 maximum likelihood를 구할 수 있다.

 

Phasing 과정을 살펴보자. HMM을 적용하기 위해 reference haplotype panel이 있어야 한다. 이것은 phased haplotype을 모아 놓은 것으로, UKBiobank, 1000Genome, Hapmap 등등이 있다.

Panel에서의 각 position은 HMM에서 state가 되며, transition은 privious state (0 or 1)에만 영향을 받는다. 주어진 diplotype의 가능한 haplotype과 확률적으로 가장 유사한(높은 확률) state가 sample의 haplotype이 되는 것이다.

 

[ Li-Stephens HMM in SHAPEIT4, https://doi.org/10.1038/s41467-019-13225-y ]

위 그림은 Phasing tool인 SHAPEIT4 논문에 나오는 HMM을 나타내는 그림이다. 일반적인 HMM의 그림으로 표현해 보면 다음과 같고, deep learning에서 fully-connected layer와 같은 그림이다. 이 과정을 빠르게 진행할 수 있도록 한 preprocessing이 이전글에 소개한 PBWT이다.

 

[ HMM : Forward algorithm, Wikipedia ]

이렇게 chunk단위로 match가 되는 이유는 세대를 거듭하면서 recombination이 일어났기 때문이다. Reference panel을 바탕으로 phasing을 통해 얻은 haplotype은 sample의 haplotype과 정확히 일치하지는 않은 경우가 있는데, 그 이유는 point mutation이 일어났거나 genotyping error 때문이다.

 

* MCMC (Markov Chain Monte Carlo) : Previous state에만 영향을 받는 조건에서(Markov Chain), random하게 haplotype을 선택하여 확률이 높은 state를 택한다(Monte Carlo).

 

 

Reference

- https://www.broadinstitute.org/talks/primer-hidden-markov-models-phasing-and-imputation

- ko.wikipedia.org/wiki/은닉_마르코프_모형

- https://www.broadinstitute.org/files/shared/mia/2016-03-09_Broad_MIA_Eagle_talk.pdf

 

'Study' 카테고리의 다른 글

Coalescent theory  (0) 2020.06.26
Population genetics  (0) 2020.06.25
Random Walk  (0) 2020.06.17
Monte Carlo simulation  (0) 2020.06.17
PBWT (Positional Burrows-Wheeler Transform)  (0) 2020.06.09

댓글