Richard R. Hudson
Received March 1, 2001
Accepted August 31, 2001
Published online December 1, 2001.
GENETICS December 1, 2001 vol. 159 no. 4 1805-1817
https://www.genetics.org/content/159/4/1805
ABSTRACT
중립 모델에서 2-로쿠스 표본 확률을 추정하는 방법은 여러 가지 방법으로 확장된다. 표본 확률의 추정은 각 알레일의 조상 또는 파생된 상태를 명시할 때 설명된다. 또한 2-로쿠스 디플로이드 표본에 대한 확률도 제공된다. 이러한 2-로쿠스 확률을 사용하여 관찰된 연결 불균형 수준이 비정상적으로 큰지 작은지 여부를 검정하는 방법이 설명된다. 또한 독립적으로 연결된 사이트 쌍에 기초한 재결합 매개변수의 최대 우도 추정기의 특성을 얻는다. 두 개 이상의 연결된 사이트에 대한 복합 우도 추정기도 검사하여 다른 임시 추정기보다 효과가 있거나 더 좋은 것으로 확인된다. 인간 Xq28과 Xq25 지역의 연관성이 불안정하다는 것은 유럽인(CEPH)의 표본으로 분석된다. 추정 재결합 매개변수는 평형 중립 모델에서 예상하는 것보다 약 5배 작다.
INTRODUCTION
링크 불안정성은 자연 인구의 변동의 중요한 측면으로 널리 인식된다(Lewontin 1964, 1974; Langleyet al. 1974; Langley 1977). 이러한 인식에도 불구하고 염색체 표본에서 두 개 이상의 다형 부위가 관찰되었을 때 연결부 불안정성을 분석하는 방법이나 관찰된 연결부 불안정성의 수준을 요약하는 방법에는 공감대가 없는 것으로 보인다. 한 가지 접근방식은 모든 다형성 부위의 쌍에 대해 D2 또는 r2를 계산하고 이러한 값을 각 사이트 쌍 사이의 거리의 함수로 표시하는 것이었다. (예를 들어, Langley 1977; Chakravartiet al. 1984; Langleyet al. 참조) 2000; 틸론-밀레렛 알. 2000.) 이러한 요약통계량의 순간은 최소한 표준 중립 모델(Ohta 및 Kimura 1969, 1971; Kim무라와 Ohta 1971; Hill 1975)에 따라 대략적으로 알려져 있기 때문에, 이는 유용했다. 그러나 이러한 요약통계에서는 많은 정보가 손실된다. 대안 분석은 모든 사이트 쌍(예: Macpersonet al. 1990; Langleyet al)에 대한 정확한 독립성 테스트의 P 값을 보고하는 것으로 구성된다. 2000; 비에이라 및 찰스워스 2000; 그러나 이 접근방식의 대안은 1995년 레원틴을 참조한다). 불행히도 이 접근방식은 밀접하게 연결된 사이트 쌍에 대해 관측된 연결 불균형 수준이 예상보다 높거나 낮은지 여부를 거의 이해하지 못한다.
최근 단순한 중립 모델에서 가능성을 추정하는 방법이 도입되었다(Griffiths and Marjoram 1996; Kuhneret al). 2000; 닐슨 2000). 원칙적으로 이러한 방법은 복수의 연결된 다형성 부위가 있는 표본에 대해 가장 강력한 분석을 수행할 수 있어야 한다. 그러나, 현재 이러한 몬테카를로 방법은 극히 계산적으로 집약되어 있으며, 그 가능성에 대한 유효한 추정치가 언제 얻어지는지를 평가하는 것이 어려웠고, 이러한 방법에 근거한 어떠한 통계적 추론의 성질을 평가하는 것은 더욱 어려웠다.
요약하자면, 불균형 연결의 관찰된 패턴을 계량화하고 해석하는 것은 난제로 남아 있다. 이 과제를 해결하기 위해, 우리는 쌍으로 된 다형 부지를 고려하고 쌍으로 된 다형 부지를 분석하는 데 적합한 가능성 방법을 사용할 것을 이 기사에서 제안한다. 즉, D2 또는 r2와 같은 통계량의 데이터를 요약하지 않고 단순한 중립 모델에서 2-사이트 샘플링 분포를 고려하여 관찰된 2-사이트 샘플 구성을 해석하는 것이 유용할 수 있다고 제안한다. 데이터 집합에 세 개 이상의 연결된 다형체가 나타날 때, 이 접근방식은 약간의 정보 손실을 수반하지만, 전체 다중 사이트 우도 접근방식과 비교하여 추적성 측면에서 많은 것을 얻는다. 이 기사에서는 2-사이트 샘플링 분포를 계산하는 방법(또는 추정)과 자연 모집단의 샘플 분석을 위한 이러한 분포의 일부 적용에 대해 설명한다.
비록 2-로쿠스 표본 확률을 계산하거나 추정하는 방법이 이전에 설명되었지만(골딩 1984; 허드슨 1985; Ethier 및 Griffiths 1990), 부분적으로는 이러한 확률을 얻기 위해 필요한 계산 노력 때문에 이러한 분포에 거의 사용되지 않았다. 그러나, 적어도 작은 표본 크기에 대해서는, 저렴한 데스크탑 컴퓨터조차도 이제 이러한 확률을 계산하기에 충분히 빠르다. 또한 필요한 샘플링 배포는 인터넷을 통해 이용할 수 있다.
기존의 방법론을 기술하는 것 외에도, 우리는 여러 가지 방법으로 방법을 확장한다. 여기에는 알레르기의 조상/유래된 상태를 고려한 표본을 고려하는 것이 포함된다. 또한 2-로쿠스 디플로이드 표본 확률도 계산된다. 또한 이러한 분포가 현장 간 연결 불안정성의 관측된 수준을 평가하는 데 어떻게 사용될 수 있는지 그리고 중립 모델의 재조합 비율 모수를 추정하는 데 어떻게 사용될 수 있는지 설명한다.
THE MODEL AND NOTATION
우리는 다음 세대를 생산하기 위해 선택적으로 중립적인 2-로커스 모델과 라이트 피셔 샘플링의 게이머 무작위 결합을 고려한다(Karlin and McGregor 1968; Ewens 1979; Griffiths 1981). 상수로 가정된 모집단 크기는 N으로 표시된다. 우리는 비록 이 가정을 완화하는 것은 사소한 것이지만, 각각의 중심점이 동일한 중성 돌연변이 비율을 가지고 있다고 가정한다. 우리는 주로 돌연변이 비율이 작은 경우에 초점을 맞추고 있지만, 이 경우 그 모형이 무한대 돌연변이 모델과 본질적으로 동일해지는 경우에 초점을 맞추고 있다. 각 로쿠스의 중성 돌연변이 비율은 u로 표시되며, 두 로키 사이의 재결합률은 r로 표시된다. 대규모 모집단의 경우 샘플링 특성은 복합 매개변수인 4Nu(≡ θ)와 4Nr(≡ ρ)의 함수다(Ohta and Kimura 1969, 1971; Hill 1975).
우리는 각 위치에 정확히 2개의 알약이 있는 표본에 주의를 집중한다. 첫 번째 위치에 있는 두 개의 알레르기는 A0과 A1로 지정되고, 다른 위치에 있는 두 개의 알레르기는 B0과 B1로 지정된다. (이 시점에서 라벨링은 임의로 지정되지만, 나중에 조상과 돌연변이 알레르기가 지정되면 라벨링은 의미가 있을 것이다. 중성 모델 아래의 역소성 모집단에서 무작위로 n개의 게이메트의 표본을 추출한다. 정렬되지 않은 샘플 구성은 n = (n00, n01, n10, n11)로 표시되며, 여기서 nj는 A 로커에서 alle Ai를 운반하고 B 로커스에서 alle Bj를 운반하는 샘플링된 게이메트의 수입니다. 따라서 n00 + n01 + n10 + n11 = n. 표본 내 A1 알레르기와 B1 알레르기의 주파수는 각각 p1 = (n10 + n11)/n과 q1 = (n01 + n11)/n이며, A1B1 가메테의 표본 내 주파수는 p11 = n11/n이다. 이 표기법에서 D = p11 - p1q1 및 r2 = D 2/(1 - p1)q1(1 - q1)은 일반적으로 사용되는 연결불균형 표본 측정법이다.
특정 샘플 구성의 확률 n = (i, j, k, l)은 qu(i, j, k, l), θ, ρ)로 표시되거나 모호함이 qu(n; θ, ρ)로 나타나지 않을 때 표시된다. 이 표본 확률은 Ethier와 Griffiths가 제공한 확률(1990, 방정식 2.14)과 Golding의 수량 quantityM(1984)에 해당한다. qu(i, j, k, l); θ, ρ) = qu(i, k, j, l); θ, ρ)에 주목한다. 두 loci에서 돌연변이 비율이 같다고 가정하기 때문이다. 이 글의 주안점은 qu(n; θ, ρ)이며 밀접하게 관련된 확률이다. 단일 뉴클레오티드 현장의 다형성(polymorphism)에 관심이 있기 때문에 매우 작은 θ의 경우는 일차적인 관심사이며, 대부분의 결과는 θ → 0으로 제한적인 경우를 위한 것이 될 것이다.
OBTAINING SAMPLE PROBABILITIES
Recursion equations method: qu(n; θ, ρ)의 수치는 원래 골딩(1984)에 기인하고 Ethier와 Griffiths(1990)에 의해 추가로 분석된 재귀 현상을 풀어서 작은 표본에 대해 얻을 수 있다. 독자는 자세한 내용은 이 글들을 참고해야 한다. 표본 크기 > 40의 경우 해결해야 할 방정식의 선형 시스템이 상당히 커진다. 예를 들어, 크기 40의 표본으로, 반드시 풀어야 할 마지막 방정식의 집합은 20,000 이상의 방정식을 가지고 있다. 그러나 계수는 희박하여 각 방정식에서 비제로 계수가 9개 이하에 불과하다. 골딩의 재귀 문제를 수치적으로 해결하기 위한 프로그램은 저자에 의해 작성되었으며 home.uchicago.edu_~rudson1에서 이용할 수 있다. 프로그램은 프레스 외 연구진(1992)에서 설명한 희소성 행렬의 결합 그라데이션 방법과 인덱스 저장장치를 활용하여 선형 시스템을 해결한다.
Random-genealogies Monte Carlo method: 골딩의 재귀 문제를 해결하는 대안은 허드슨(1985년)의 방법으로 2로쿠스 표본 확률을 추정하는 것이다. 이 방법은 크기가 최대 100개까지, 어쩌면 다소 큰 표본에 실용적이다. 간단히 말해서, 추정치는 표준 결합 기계(Hudson 1983)를 사용하여 다수의 독립적인 2-로쿠스 족보(적정치를 갖는 중성 모델 이하)를 생성함으로써 얻는다. 각 계보마다 관심 표본 구성의 확률을 계산한다. 이러한 확률의 평균은 qu(n; θ, ρ)의 추정치다. 나중에 쓰이기 때문에 그 방법을 좀 더 상세히 기술한다. 이 설명을 진행하기 전에 우리는 닐슨(2000년)과 같은 몬테카를로 마르코프 체인 방법이 아래에 기술된 방법보다 훨씬 더 빠를 가능성이 있다는 점에 주목한다. Nielsen의 방법은 기본적으로 우리가 여기서 고려하는 것과 동일한 확률을 추정하지만 세 개 이상의 링크된 사이트의 훨씬 더 어려운 문제에 사용될 수 있다. 그러나 한 쌍의 사이트와 주어진 표본 크기에 대해 가능한 모든 구성의 확률을 추정하기 위해, Hudson(1985)의 방법은 몬테카를로 마르코프 체인 방법과 경쟁적일 수 있다. (작은 표본 크기의 경우, 표본 확률은 이미 계산되고 표로 작성되었으므로, 이 점은 moot가 될 수 있다.술래와 응용 더 큰 표본 크기의 경우, 이 문제는 여전히 중요하다.) 우리는 이제 허드슨(1985년)의 방법을 설명한다.
2로쿠스 계보는 허드슨(1983)이 설명한 대로 현재로부터 시간적으로 역행하여 무작위적인 일련의 사건들을 발생시킴으로써 생산된다. 두 행이 하나의 공통 조상으로 합쳐지는 결합과 하나의 조상 염색체가 두 부모 염색체로 갈라지는 재결합 사건이다. 우리는 Ei의 ith 이벤트를 나타낸다. 완전한 순서형 사건 순서는 ϵ으로 표시되며 E-시퀀스라고 한다. 각 사건과 연관되어 있는 것은 어떤 계통이나 계통이 관련되는가 하는 명세서다. E-시퀀스는 A locus와 B locus 유전자 트리의 위상을 완전히 결정한다. 2-로쿠스 계보를 완전하게 명기하려면 사건 사이의 시간 간격도 명시해야 한다. 그러나 우리는 일정한 모집단 크기 모델에서 사건 사이의 시간 간격과 관계없이 E-시퀀스를 생성할 수 있다는 점에 주목한다. Ei 이전의 시간 간격은 Ti로 표시된다. 이러한 시간 간격의 순서 순서를 T-시퀀스라고 한다. 상수 모집단 크기 모형과 E-시퀀스를 조건으로 하여 시간 간격은 독립적으로 분포된 랜덤 변수들이다. Ti의 평균은 그 간격 동안의 조상 선들의 구성에 따라 달라지며, 이는 다시 E순서에 따라 달라진다. E-시퀀스를 조건부로 하는 Ti 평균의 계산은 허드슨(1983)에도 기술되어 있다.
2-로쿠스 계보는 팁 라벨이 붙은 유전자 나무 2그루로 요약할 수 있는데, 하나는 A 로쿠스, 하나는 B 로쿠스 로커스로 요약할 수 있다. 우리는 임의로 A locus tree의 분기에 1부터 2n - 2까지 번호를 매기고 ih 분기의 길이를 ai로 지정하여 4N 세대 단위로 시간을 측정한다. eth라고 하는 특정 가지에 대해 ai는 하나 이상의 연속된 T-시퀀스 원소의 합계라는 점에 유의한다. 마찬가지로 B 로쿠스 나무의 가지에는 번호가 매겨지고, 그 길이는 bj에 의해 표시된다. A locus 트리와 마찬가지로, B locus 트리의 길이는 하나 이상의 연속된 T-시퀀스 원소의 합이다. A locus 트리의 가지 i의 변이 수는 길이를 조건으로 하여 평균 (θ/2)ai와 함께 분포된 포아송이라고 가정한다. ai의 합은 τA로 표기하고, b 로쿠스 가지의 길이를 합한 것을 τB로 표기한다. 주어진 2로쿠스 계보의 경우, A로쿠스 유전자 트리와 B로쿠스 유전자 트리에서 각각 한 쌍씩, A로쿠스 가지의 돌연변이와 B로쿠스 가지의 돌연변이가 지정된 샘플 구성으로 이어지는지 여부를 확인하는 것은 간단한 일이다. n 2로쿠스 계보의 이 성질은 ϵ에만 의존하고 T순서에 의존하지 않는다. Let I(ϵ, n, j, k)는 A 로커스 트리의 분기 j와 B 로커스 트리의 분기 k가 그러한 한 쌍의 분지일 경우 하나이고 그렇지 않을 경우 0인 지시 변수를 나타낸다. I((, n, j, k)가 1과 같으면, A 로커스 트리의 가지 j에서 하나 이상의 돌연변이가 발생하고, B 로커스 트리의 가지 k에서 하나 이상의 돌연변이가 발생하며, 나무의 다른 곳에서는 돌연변이가 발생하지 않는 경우 샘플 구성인 n이 발생한다. 따라서 ϵ과 T시퀀스가 주어지면, A 로커스 트리의 가지 j와 B 로커스 트리의 가지 k에 대한 돌연변이에 의해 구성 n이 생성될 확률은 다음과 같다.
따라서 표본 확률인 qu(n; θ, ρ)를 얻기 위해 우리는 모든 가지 j와 k를 합하고 and과 T-시퀀스의 공동 분포에 대한 기대를 취한다.
여기서 E( )는 무작위 족보에 대한 기대를 나타내며, j는 A 로커스 트리의 가지를 색인화하고, k는 B 로커스 트리의 가지를 색인화한다. 근사치는 작은 θ에 대한 것이며, 테일러가 지수 범위를 확장하고 θ에서 고차 항을 떨어뜨려 얻는다. 우리는 작은 in에 관심이 있으므로, 다음과 같은 기능을 고려한다.
이 함수는 아마도 "크기, 소-대-우도함수"로 가장 잘 설명되며 "크기우도"로 언급된다. ρ의 특정값에서 hu(n, ρ)의 값은 ρ의 지정값을 이용하여 2개의 locus 족보 중 m을 대량으로 생성하여 합계를 계산함으로써 추정할 수 있다.
여기서 ϵi는 임의로 생성된 2로쿠스 계보의 E-sequence이며, aj(i)와 bk(i)는 동일한 2로쿠스 계보의 가지 길이이다. 실제로, 이 방법은 단순히 지점 쌍의 길이에 대한 예상 산출물을 추정할 뿐이며, 지점 쌍에 돌연변이가 발생할 경우 지정된 샘플 구성이 생성될 것이다. qu(n; θ, ρ)의 견적을 얻기 위해 θ2hun(n,n)을 사용한다. 이것이 허드슨(1985)의 방법이다.
일정한 모집단 크기 모델의 경우 무작위로 생성된 ajbk 값을 E-시퀀스를 조건으로 하여 대체함으로써 허드슨(1985)의 방법을 보다 효율적으로 만들 수 있다. 즉, 우리는 hu(n, ρ)를 에 의해 추정한다.
이는 aj와 bk가 기하급수적으로 분포하는 하나 이상의 연속된 T-시퀀스 원소의 합이기 때문에 실현 가능하다. aj와 bk가 T-시퀀스 요소를 공통으로 공유하지 않는다면, 제품에 대한 기대는 기대의 산물이다. 만약 그들이 공통적인 요소를 가지고 있다면, 제품에 대한 기대는 기대의 산물 + 두 가지 모두에 공통적인 요소들의 기대의 합이다. 예를 들어, aj가 T2 + T3의 합과 같고 bk가 T3 + T4인 경우, 상수 모집단 크기 모형에서 ajbk에 대한 기대치는 다음과 같다.
여기서 λi = E(Ti|properties). 이것은 지수 분포의 특성에서 나타난다. 따라서 (4)가 아닌 (5)로 hu(n; ρ)를 추정할 경우, T-시퀀스를 생성할 필요가 없으며 hu(n; ρ)의 낮은 분산 추정치를 얻는다.
Ancestral and derived alleles: 앞 단락에서는 어떤 알레르기가 조상이며 어떤 것이 돌연변이(또는 파생된)인지 명시하지 않았다. 이제 밀접하게 연관된 종으로부터 순서를 얻어 어떤 것이 조상인지 추론하는 것이 일반적이다. 특정 조상/유래 상태를 가진 표본 구성의 확률은 지정되지 않은 구성보다 계산하기가 더 어렵지 않다. 각 알레르기의 조상/조상 상태가 명시된 표본을 "a-d-지정" 표본이라고 하며, 그렇지 않으면 표본이 "a-d-지정되지 않음"이다. 우리가 방금 설명한 알고리즘은 단순히 사용된 지시계 함수를 변경함으로써 a-d 지정 표본의 확률을 추정하도록 수정할 수 있다. 골딩의 재귀도 a-d 지정 표본 확률을 계산하도록 수정할 수 있다. 우리는 A0과 B0이 조상의 알레르기를 나타내고, A1과 B1이 돌연변이 알레르기를 나타내는 ad 지정 표본을 위해 이 규약을 사용한다. a-d 지정 표본의 경우, qu(n; θ, ρ)와 hu(n; ρ, ))에 해당하는 수량을 q(n; θ, ))와 h(n; ρ)로 나타낸다.
a-d 지정되지 않은 확률은 동일한 지정되지 않은 표본 구성을 야기하는 4개(또는 그 이하)의 구별되는 a-d 지정 표본 확률을 합하여 a-d 지정 확률에서 얻을 수 있다. 즉, 다음에 대해 지정되지 않은 확률을 얻을 수 있다.
결과 및 애플리케이션에서 지정되지 않은 하나의 a-d-지정 표본에 대한 크기 조정 우도 곡선과 해당 a-d-지정 구성을 비교한다. 그 절에서 우리는 또한 어떤 알레르기가 조상인지에 대한 지식이 ρ의 추정치를 향상시킬 수 있는지에 대한 문제도 다룬다.
허드슨(1985)의 방법은 2로쿠스 계보를 효율적으로 생성할 수 있는 어떤 중립적인 모델에도 확장할 수 있다. 특히 지리적 구조의 단순한 섬 모델과 인구 규모가 변화하는 모델을 쉽게 수용할 수 있다. 이러한 모델 하에서 (4)를 사용하여 h(n; rho)를 추정하는 프로그램은 home.uchicago.edu_~rudson1에서 이용할 수 있다.
Sequenced samples with two polymorphic sites: 두 개의 다형 부위가 있는 검체 시퀀싱: 이전 절에서 검토된 샘플은 두 현장에서만 검사된다. 간섭 및 측면의 뉴클레오티드 부위는 다형성일 수도 있고 아닐 수도 있다. 닐슨(2000년)이 고려한 상황 그대로다. 이와는 대조적으로, 우리는 이제 일련의 연속적인 사이트들이 각 개인에 배열되어 있고 따라서 모든 사이트들이 조사되고, 배열된 부분의 모든 다형성들이 감지되는 경우를 고려한다. 따라서 세그먼트의 모든 사이트에 대해 완전한 happlotype 정보를 얻는다. 그리피스·마르조람(1996)과 쿠흐너 등이 고려한 상황이다. (2000). 닐슨(2000년), 그리피스·마르조람(1996년), 쿠네르 외 연구진. (2000) 모두 임의의 수의 연계 사이트로 표본의 확률을 추정하는 매우 어려운 문제를 분석한다. 이와는 대조적으로, 우리는 이제 표본에서 단 두 개의 부위가 다형성(그리고 나머지는 단형성)인 것으로 밝혀진 특별한 경우에 한정한다. 이 경우, 허드슨(1985)의 무작위 유전학 방법은 쉽게 확장되어 시퀀싱된 세그먼트에 대한 이러한 표본 확률을 계산할 수 있기 때문이다. 이것은 다음과 같이 할 수 있다.
시퀀싱된 세그먼트가 L 뉴클레오티드가 길면 L-로커스 모델을 사용하며, 각 로쿠스는 뉴클레오티드 부위와 일치한다. 우리는 뉴클레오티드 위치의 번호를 1(가장 왼쪽)에서 L(가장 오른쪽)까지 매긴다. 2-로쿠스 유전자 계보 대신에 우리는 L-로쿠스 유전자 계보를 고려해야 한다. 각각의 사이트는 유전자 계보나 유전자 나무와 연관되어 있다. ith 부위의 유전자 나무 가지 길이의 합은 τi로 표시된다. 우리는 liLi=1ii/Lbyseseq를 나타낸다. 우리는 두 다형체의 위치를 x와 y로 지정한다. 사이트 x의 트리와 트리 y의 가지들은 1부터 2n - 2까지 임의로 번호가 매겨지고, 사이트 x의 가지 j의 길이는 labeledx,j, 비슷하게 yy,k는 사이트 y의 k번째 가지 길이를 나타낸다. 사이트 x와 y의 2-로쿠스 샘플 구성은 이전과 같이 n으로 표시된다. 허드슨(1983)은 L-로커스 유전자 계보를 생성하는 방법을 설명한다. 이제 E 시리즈는 각 교차 이벤트가 세그먼트를 따라 발생하는 위치에 대한 정보를 포함해야 한다. 우리는 작은 돌연변이 비율의 경우에 초점을 맞추고 있으며, 따라서 무한 알렐 모델은 여전히 각 사이트에 적합하다. L 사이트 세트에 대한 총 돌연변이 비율과 사이트당 돌연변이 비율을 표시하도록 한다. 우리는 4Nut를 θt로 나타낸다. 이 표기법에서 θt/L이 작을 경우 예상되는 다형 부위의 수는 ~θtE(τseq)이며, 표본에 다형 부위가 없을 확률은 ~E(e-θtτseq)이다. 이전과 같이 ρ = 4Nr를 정의하지만, 이 경우 r은 시퀀싱된 세그먼트의 가장 왼쪽 사이트와 가장 오른쪽 사이트 사이의 세대당 재결합률이다. 2개의 다형성 부위가 있는 완전히 시퀀싱된 a-d 지정 표본의 확률은 qseq(n, x, y; θt, ρ)로 표시되며, 다음이 제시한다.
여기서 근사치는 선택된 지수 항을 확장하고 질서의 조건(tt/L)3 이상에 의해 얻으며, 여기서 ix,y는 이전과 같이 지표 함수지만, 이 경우 사이트 x와 사이트 y의 유전자 계보에 따라 달라진다. ix,y는 사이트 x 트리의 j번째 분기와 사이트 y 트리의 k번째 분기가 주어진 a-d 지정 샘플 구성 n으로 이어질 경우 하나이다. 시퀀싱된 표본의 확률에 대한 이 식은 마지막 항인 e-valttseq를 제외하고 기본적으로 2-로쿠스 구성(2)에 대한 식과 동일하다. hseq(n, x, y; ρt)를 나타내는 시퀀스 데이터의 h(n; ρ)의 아날로그는
여기서 θt는 상수로 가정된다(그리고 L에 의존하지 않는다). 이것은 다음과 같이 추정할 수 있다.
여기서 ϵi는 무작위로 생성된 L 로커스 계보의 E-sequence이며, xj(i)와 yk(i)는 각각 부위 x와 부위 y의 나무의 가지 길이이다. 그리고 τseq(i)는 같은 L 로커스 족보에 대한 τseq이다.
결과와 응용에서 우리는 h(n; ρ)와 hseq(n, x, y; ρ, ρt)를 비교하여 초점 쌍 사이에 또는 근방에 다른 다형성이 없다는 지식이 ρ에 대한 추론에 얼마나 영향을 미치는지 확인한다. 여기서 설명한 hseq(n, x, y; ;, θt)의 추정치는 시퀀싱된 샘플 구성 확률을 추정하기 위한 다른 알고리즘을 확인하는 데 유용할 수 있다.
Diploid sample: 지금까지, 우리는 happlotype으로 구성된 샘플들을 고려했다. 디플로이드 표본의 경우 q(n; θ, ρ)와 유사한 표본 확률을 갖는 것이 유용할 것이다. 우리는 여기에 디플로이드 표본의 확률을 어떻게 하플로이드 표본 확률로 표현할 수 있는지를 보여준다.
각 로커에서 두 개의 알레르기가 분리되는 디플로이드의 경우 10개의 뚜렷한 디플로이드 유전자형이 있다. 종종 이중 이형체들의 단계가 직접 결정되지 않는데, 이 경우 구별 가능한 디플로이드 유전자형은 9개밖에 없다. 그러나 우리는 이중 이질화를 구성하는 happlotype이 실험적으로 결정되는 경우를 고려하는 것으로 시작한다. 이 경우 데이터는 10 벡터, nd = (n0, n1, …, n9)로 나타낼 수 있다. 우리는 n0을 연결 위상 이중 이질화(A0B0/A1B1)의 수를 나타내기 위해 사용하고 n1은 반발 위상 이중 이질화(A0B1/A1B0)의 수를 나타내기 위해 사용한다. 다른 디플로이드 유전자형의 숫자는 각각 ni = 2, … 9로 지정된다. 벡터로부터 우리는 가능한 4개의 염색체 각각의 수를 셀 수 있다. 즉, 벡터 및 맵은 우리가 n(nd)으로 나타내는 기본 하플로이드 데이터 구성에 모호하지 않게 표시된다. 무작위 짝짓기에서 nd의 확률은 q(n)(nd), ,, ))이며 임의로 쌍을 이룬 경우 구성 n(nd)의 2n haploids가 nd를 생성하는 확률의 곱이다. 기호로는
는 반수 구성 n(알몬드)에서 알몬드의 임의의 짝 짓기에 어디 b(알몬드, n(는)cm는 개연성이 높아졌다. 가능한 조 편성고까지, 그 알게 된다.
여기서 nhet는 1 또는 2 loci에서 이질성인 diploid 개인의 수이며, nd와 nj의 ih 요소인 경우, i, j = 0, 1은 n의 요소다.
이제 이중 이형체 단계가 실험자에 의해 결정되지 않는 경우를 생각해 보자. 이 경우, n0이나 n1은 관측할 수 없지만, 그 합계는 관측한다. 우리는 그 금액을 ndh로 표시한다. 이 경우 diploid 데이터 세트를 nd-9 = (ndh, n2, …, n9)로 나타낸다. ndh를 고려할 때, 실제 연결 단계 이중 이형체 수 n0은 0에서 ndh까지의 값이 될 수 있다. 이러한 가능한 각 값은 다른 nd 구성에 해당한다. 우리는 이러한 가능한 nd 구성을 nd(i, nd-9)로 나타낸다. 여기서 i = 0, …, ndh. 즉, nd-9 = (ndh, n2, … , n9)이면 nd(i, nd-9) = (i, ndh - i, n2, …, n9). 그런 다음 이러한 상호 배타적 가능한 nd 구성 각각에 대한 확률을 다음과 같이 합산하여 dploid 구성 nd-9의 확률을 구한다.
따라서 haploid 표본 확률을 손에 쥔 상태에서 (10), (11), (12)를 사용하여 diploid 표본 확률을 계산하는 것은 간단한 일이다.
Conditional probability: 이러한 2-로쿠스 표본 분포의 대부분의 적용은 두 부위가 표본에서 다형성인 현장의 쌍에만 초점을 맞출 것이다. 즉, q(n; θ, ρ)보다는 각 로커에서 표본의 두 개 분류를 조건으로 하는 특정 표본 구성의 확률을 고려하는 것이 유용할 것이다. 즉, 조건부 확률을 고려하는 것이 유용하다.
여기서 합계는 모든 구성, m에 걸쳐 있으며 각 위치에 2개의 알레르기가 있다. 한계에서 zero은 0이 되는 경향이 있다.
θ을 명시하지 않고 추정할 수 있다. 이 작은 for에 대한 조건부 확률은 qc(n; ρ)로 표시된다.
그것은 또한 다른 사건들의 조건에도 흥미로울 수 있다. 예를 들어 희귀한 알레르기가 0.05보다 낮은 주파수를 갖는 다형성(polymorism)으로 고려를 제한하거나 관찰된 주변 알레르 주파수를 정확하게 조건화하고자 할 수 있다. 이러한 것들은 (14)의 오른쪽 분모에서 합계를 변경하여 쉽게 계산된다. 다양한 조건부 확률을 다음 절에서 활용한다.
댓글