본문 바로가기
Study

Coalescent theory

by wycho 2020. 6. 26.

Population genetics 글에 이어 Coalescent theory에 대해서 자세히 알아보자.

 

Wikipedia에 따르면, Coalescent theory 모집단에서 표본으로 추출한 유전자 변형이 어떻게 공통의 조상으로부터 비롯되었을 수 있는지를 보여주는 model이다. 가장 간단한 경우, coalescent theory는 no recombination, no natural selection, no gene flow, no population structure를 가정하며, 이는 각 변종이 한 세대에서 다음 세대로 똑같이 전해졌을 가능성이 크다는 것을 의미한다. 알아야 할 점은, coalescent theory는 tree reconstruction method가 아니라 sampling method이다. (how to build the coalescent = how to model the relationships of individuals within a sample.)

 

Coalescent 확률은 현재 세대에서 이전 세대로 거슬러 올라갈 때 coalescence가 일어날 확률이다.

한 세대에 N명이 있을 때, 총 2N의 유전자(allele)를 가지게 된다. 2명이 같은 부모중 한명으로부터 유전자를 받을 확률은 이전 세대의 2N개의 유전자가 있고, 그 중에 하나가 선택되는 것이기 때문에 P=1/(2N)이 된다. 그리고 같은 부모로부터 유전자를 받지 못 할 확률은 Q=1-P=1-1/(2N)이 된다. 즉, coalescence-event가 일어나지 않을 확률이 Q라는 이야기이다.

 

[ 2-Coalescent and 5-Coalescent, MRCA: the Most Recent Common Ancestor ]

2-Coalescent, 즉 2-lineage일 경우의 확률은 coalescence가 일어난 시간이 t였다면, 처음 coalescence가 일어난 확률과 t-1세대까지 coalescence가 일어나지 않는 확률의 곱으로 나타난다.

 

[ 2-Coalescent probability ]

이러한 확률을 가질 때, coalescence가 일어나는 평균 세대(the expectation for the time of the MRCA)는 coalescence가 일어나는 확률의 역수로 구할 수 있다. 예를 들어 한 세대에 10명이 있다면, 평균 20세대를 올라가야 MRCA를 찾을 수 있다는 말이다.

더보기
[ Expectition value of geometric distribution ]
[ Variance of geometric distribution ]

where

[ Average time to coalescence ]

그렇다면 k명의 sample이 있을 때, coalescence가 일어날 확률은 어떻게 될까? Coalescence가 일어날 확률을 구하는 것보다 일어나지 않을 확률을 먼저 구하는 것이 더 쉽다.

 

coalescence가 일어나지 않을 확률을 구해보자. 다시 말해, 같은 부모를 가지지 않을 확률을 구해 보자. 3-lineage가 있을 때, 첫 번째 sample의 부모 유전자가 유전될(matchinge될) 확률은 1이다. 두 번째 sample은 2N개의 유전자에서 첫 번째 선택된 부모의 유전자를 제외하면 2N-1이 되어 확률은 (2N-1)/2N이 되고, 세 번째 sample은 또 다른 부모의 유전자를 받는다고 하면 앞서의 2유전자를 제외하고 (2N-2)/2N이 된다. 동시에 일어나기 때문에 곱해주면 같은 부모를 가지지 않을 확률, 즉 coalescent가 일어나지 않을 확률이 된다.

 

[ No coalescence in 3-lineage ]

이것을 확장하여 k-lineage가 있을 경우, coalescence가 일어나지 않을 확률은 다음과 같고, N이 충분히 크면 근사할 수 있다.

 

[ No coalescence in k-lineage ]

t세대까지 coalescence가 일어나지 않으면 t번의 곱으로 나타낼 수 있고, exponential로 근사된다.

 

[ No coalescence in t generation ]

Coalescence가 일어날 확률은 p(coalescence)=1-p(no coalescence) 로 구할 수 있다.

 

[ Probability of a coalescent event ]

Average coalescent time in units of 2N generations, 즉 2N 세대에서의 coalescence 기대값은 다음과 같다.

 

[ Average coalescent time in units of 2N generation ]

k-lineage의 coalescence가 끝나기까지의 시간은 각 coalescent time의 합으로 구한다.

 

[ Total evolutionary time ]

Mutation이 일어나는 Segregating site, S,에 대한 전체 기대값은 다음과 같으며, mutation rate를 식의 계수로 정의한다. µ는 한 세대에 한 사이트에서 mutation이 일어날 확률이다.

 

[ Expected number of mutations ]

θ로 정의한 mutation rate는 recombination rate로도 정의된다.

 

[ Population genetics parameters ]

 

 

Effective_population_size : Best appoximates the real population (or the model)

 

더보기

Markov Chain Monte Carlo

[ MCMC ]

 

 

Reference

- http://www.incodom.kr/Population_genetics

- http://genetics.wustl.edu/bio5488/files/2016/03/Bio5488_PopGen_2016_Lecture1.pdf

- http://genetics.wustl.edu/bio5488/files/2016/03/Bio5488_PopGen_2016_Lecture2.pdf

- http://www.sfu.ca/biology/courses/bisc869/869_lectures/MHP_Coalescent.pdf

- http://ib.berkeley.edu/courses/ib200/2016/labs/11/coalescent_lecture.pdf

- https://cme.h-its.org/exelixis/web/teaching/seminarSlides/example2.pdf

- https://en.wikipedia.org/wiki/Coalescent_theory

- https://genome.sph.umich.edu/w/images/4/4f/666.04_-_The_Coalescent.pdf

- https://cme.h-its.org/exelixis/web/teaching/lectures/lecture14.pdf

 

'Study' 카테고리의 다른 글

Genetic map  (1) 2020.07.31
Markov chain  (0) 2020.07.24
Population genetics  (0) 2020.06.25
Phasing  (0) 2020.06.17
Random Walk  (0) 2020.06.17

댓글