Standard population 빅데이터를 분석할 경우, 나이를 고려하여 표준화 작업을 해주어야 하는 경우가 있다. 특히 다른 cohort나 연도 데이터들을 비교할 때, 나이에 따른 weight 를 곱하여 비교하여야 좀 더 정확한 결과를 얻을 수 있다. 이때 사용되는 weight를 정해 놓은 것이 standard population이고, 각 나이 구간의 crude rate에 곱하여 cohort의 motablity 를 구한다. The standard population data files contain the following data: - U.S. Standards (1940, 1950, 1960, 1970, 1980, 1990, 2000) - Canadian Standards (1991, 1996, 2011) - European (S.. 2022. 12. 27.
Signature matrix RNA-expression signature matrix reference CD4 - GSE107011 (2019) : RNA-Seq profiling of 29 immune cell types and peripheral blood mononuclear cells - GSE113891 (2018) : Transcriptomic profile of circulating CD4+ T cells from TCM and TEM memory compartments from donors vaccinated at birth either with whole or acellular Pertussis vaccine - GSE114407 (2018) : Cell type specific gene expression patt.. 2021. 12. 29.
RNA velocity 보통 우리가 다루는 RNA 데이터는 한 시점에 채취한 혈액이나 tissue에서 얻은 것이다. 즉, 시간에 따라 cell이 어떻게 변화하는지 알 수 없는 정적인 데이터이다. 이러한 정적인 데이터로부터, unspliced mRNA 와 spliced mRNA 의 비율을 통해 cell fate, cell lineage, dynamic pathway 또는 cellular differentiation 를 추정하는 방법이 있다. (RNA velocity of single cells, 2018) 좀 더 robust한 방법으로 likelihood-based dynamic model이 있다. (Generalizing RNA velocity to transient cell states through dynamical mod.. 2021. 11. 2.
scRNA-seq analysis 기존 bulk방식의 RNA-seq 데이터의 수집 및 분석 방식과 single cell RNA-seq 방식의 차이는 다음과 같다. Process for barcoding single-cell data 더보기 Remove Doublet 더보기 Gene cell-type annotation 더보기 DB - CellMarker : http://biocc.hrbmu.edu.cn/CellMarker/ - CanserSEA : http://biocc.hrbmu.edu.cn/CancerSEA/home.jsp Software - SCSA (python) : https://github.com/bioinfo-ibms-pumc/SCSA - scMatch (python) : https://github.com/asrhou/scM.. 2021. 8. 19.
ICGC database https://dcc.icgc.org/releases/current 2021. 6. 24.
Nanopore 나노폴은 유전체를 읽는 NGS 다음 기술이다. 나노폴을 통과한 ACGT 염기서열에 따라 전류 세기 변화를 감지하여 판독한다. 즉, 염기서열이 저항이 되는 것이다. Library 를 준비하는데 10분정도 걸리고, 샘플이 준비되면 sequencing은 실시간으로 이루어지며 약15분 후면 분석까지 마치게 된다. 장치는 MinION 이라고 부르며, 100g 미만의 소형 장치이다. 컴퓨터와 연결되어 전용 프로그램과 연동된다. 스마트폰에 연결한 분석도 가능한 것으로 보인다. MinION device specification: - 1 flowcell - 2048 pores - 512 sequence channels at a time - 10-25 Gb data - 1,000 dollars - Long-lead seq.. 2021. 6. 22.
Strand-ambiguous SNPs https://support.illumina.com.cn/bulletins/2016/06/simple-guidelines-for-identifying-topbottom-topbot-strand-and-ab-allele.html Simple guidelines for identifying top/bottom (TOP/BOT) strand and A/B allele 02/19/20 It can be challenging to determine the DNA strand and allele designations for a single nucleotide polymorphism (SNP) because strand designations and orientation can differ depending on .. 2021. 5. 10.
Mendelian inheritance 우열의 원리 : 순종을 교배시켰을 때, 1세대에서 우성의 형질만 발현한다. 분리의 법칙 : 1세대를 자가수분하여 얻은 2세대는 3:1의 비율로 우성과 열성이 분리된다. 독립의 법칙 : 두 쌍 이상의 대립형질이 유전되는 경우, 각각의 형질은 독립적으로 발현한다. Reference - 멘델의 유전법칙, https://ko.wikipedia.org/wiki/멘델의_유전법칙 - [사이언스N사피엔스] 멘델의 유전법칙과 재발견, http://dongascience.donga.com/news.php?idx=41870 2021. 3. 29.
Energy H20 -> H2 + (1/2)O2 => Gibbs energy = internal energy for chemical reaction + work for gas space - heat energy by environment => ∆G (237 kJ) = ∆U (282 kJ) + P∆V (4kJ) - T∆S (49 kJ) 2021. 3. 2.
VCF Header Number=.(알 수 없는 번호) 1보다 큰 모든 Number Number=G(유전자형당 값 하나) 및 Number=R(각 대체 및 기준에 대해 값 하나) Number=A(각 대체에 대해 값 하나), --split_alternate_allele_info_fields가 False로 설정된 상태로 도구를 실행할 경우만 해당 -a, --annotate LIST Comma-separated list of FORMAT and INFO tags to output. (case-insensitive, the "FORMAT/" prefix is optional, and use "?" to list available annotations on the command line) [null]: *FORMAT/AD.. 2021. 1. 21.
eQTL eQTL 기초 https://www.ibric.org/myboard/print.php?Board=report&id=2499 eQTL Catalog - Paper : eQTL Catalogue: a compendium of uniformly processed human gene expression and splicing QTLs - Homepage : https://www.ebi.ac.uk/eqtl/ - Search Browser : https://elixir.ut.ee/eqtl/ 2021. 1. 21.
1000 Genome NYGC Announcement for 1000 Genome project https://www.internationalgenome.org/announcements/ Friday August 14, 2020 The New York Genome Center (NYGC) released high-coverage (30x) data for an additional 698 samples from the 1000 Genomes Project sample collections (aligned to the GRCh38). Info : 3202-samples-at-high-coverage-from-NYGC/ Phased : 20201028_3202_phased/ Raw : 20201028_3202_raw_GT_with_anno.. 2021. 1. 21.
UKBioBank https://biobank.ndph.ox.ac.uk/ukb/refer.cgi?id=3803 더보기 Resource 3803 Name: Target region used by the WES capture experiment (BED file) The UK Biobank whole-exome sequencing has been performed with the IDT xGen Exome Research Panel v1.0 including supplemental probes. The basic design targets 39 Mbp of the human genome. The GRCh38 coordinates of the targeted regions are provided within this BED f.. 2021. 1. 6.
SPA, Saddlepoint approximation 더보기 Characteristic function : 확률밀도 함수를 fourier transformation 한 함수. Generating function : Power series 가능한 함수. Moment : 일반화 시킨 개념. E[X^n] == nth moment Reference - Moment, https://freshrimpsushi.tistory.com/246 - Generating function, https://freshrimpsushi.tistory.com/232 - Moment generating function, https://freshrimpsushi.tistory.com/248 - Characteristic function, https://freshrimpsushi.tistor.. 2020. 12. 30.
F-statistics Wikipedia에 따르면 F-statistics, Fst,는 다음과 같다. "In population genetics, F-statistics (also known as fixation indices) describe the statistically expected level of heterozygosity in a population; more specifically the expected degree of (usually) a reduction in heterozygosity when compared to Hardy–Weinberg expectation." "F-statistics can also be thought of as a measure of the correlation between gen.. 2020. 10. 27.
SNP 관련 인간 다양성 근원 ‘스닙’의 정체를 밝혀라. http://legacy.www.hani.co.kr/section-005100031/2003/06/005100031200306031829311.html 더보기 맞춤의학 열쇠 ‘스닙(단일염기다형성)’을 캐라 많이 먹지도 않는데 살이 찌는 사람은 왜 그럴까. 다른 집안 사람들은 노년에도 까만 머리를 자랑하는데, 우리 집안은 왜 30대만 돼도 머리털이 흴까. 어떤 사람은 간염에 걸리고도 쉽게 치유가 되는 데 반해, 어떤 사람은 간경화와 간암 같은 치명적 질병으로 발전할까. 한약이든 양약이든 사람마다 효과가 다른 것 같은데 왜 그럴까. 인류는 이렇게 사람마다 특정 질환에 대한 취약성과 약물 반응의 정도에 차이를 보이는 것뿐만 아니라 얼굴 생김새, 신체 크기, 음성 등.. 2020. 10. 5.
1000 Genome https://www.internationalgenome.org/faq/which-populations-are-part-your-study Which populations are part of your study? | 1000 Genomes There are 26 different populations which are part of our study from many different locations around the globe. The following table lists these populations and indicates what data we currently have available for them. Population Code Population Description www.int.. 2020. 8. 20.
Genetic map Genome mapping에는 Physical map과 Genetic map으로 두 가지가 있다. Physical map은 DNA sequence의 base pair 단위의 실제 거리를 바탕으로 측정한 것이고, genetic map은 genetic linkage information에 따라 mapping한 거리이다. Phenotype에 따라 유전자의 특성을 반영하여 관련있는 유전자를 묶으면 genetic map이 된다. Genetic map - Shapeit4를 실행시 필요한 genetic map은 github respository에서 제공하고 있다. Impute5를 실행할때도 같은 genetic map을 사용하면 된다. Mandatory in v4.0. In v4.1, constant rate of 1.. 2020. 7. 31.
Markov chain Markov chain은 일정한 확률론적 규칙에 따라 한 상태에서 다른 상태로의 전이(transition)하는 수학적 시스템인 stochastic process이다. 이때 미래의 상태는 현재에 상태만 관련이 있고, 과거의 상태에 영향을 받지 않는 Markov property를 가지고 있다. Random walk도 markov property를 가지고 있다. Stochastic and Markov process 더보기 Stochastic process는 indexed random variable의 collection을 말한다. Index는 time이 되는 경우가 많다. Stochastic process이지만 Markov process가 아닌 경우의 예를 보자. 3가지 색깔을 가진 공이 여러 개 담긴 가방에.. 2020. 7. 24.
Coalescent theory Population genetics 글에 이어 Coalescent theory에 대해서 자세히 알아보자. Wikipedia에 따르면, Coalescent theory란 모집단에서 표본으로 추출한 유전자 변형이 어떻게 공통의 조상으로부터 비롯되었을 수 있는지를 보여주는 model이다. 가장 간단한 경우, coalescent theory는 no recombination, no natural selection, no gene flow, no population structure를 가정하며, 이는 각 변종이 한 세대에서 다음 세대로 똑같이 전해졌을 가능성이 크다는 것을 의미한다. 알아야 할 점은, coalescent theory는 tree reconstruction method가 아니라 sampling meth.. 2020. 6. 26.
Population genetics 집단유전학의 이론은 다음과 같이 나눌 수 있다. 1. Hardy-Weinberg principle 2. Wright-Fisher model (forward in time) 3. Coalescent model (backward in time) 1. Hardy-Weinberg principle : Infinite population size에서 모집단의 대립유전자와 유전자형 빈도수는 다른 진화적 영향(evolutionary influences)이 없는 경우 세대에 따라 일정하게 유지될 것이다 (Mendelian inheritance). 여기서 가정이라고 할 수 있는 진화적 영향으로는 genetic drift, mate choice, assortative mating, natural selection, sex.. 2020. 6. 25.
Phasing Phasing이란 diplotype을 parental haplotype과 maternal haplotype로 분리하는 작업을 말한다. diplotype에서 0과 2는 00과 11로 쉽게 분리가 가능하며 homozygous position이라 부른다. 1은 01 또는 10이 되기 때문에 쉽게 분리할 수 없으며 heterozygous position이라 부른다. Heteryzygous position의 allelle은 conditional probability로 결정되며, 대부분의 phasing이나 imputation tool에서는 HMM (Hidden Markov Model)을 통해 modeling을 한다. HMM은 transition part와 emission part로 구성되어 있으며, transiti.. 2020. 6. 17.
Random Walk Random walk는 방향에 대한 random sampling을 하는 것이다. 아래 코드 random_walk 함수를 보면 right, left, up, down의 4 방향 중 무작위로 선택하여 이동한다. 여기에 조건을 넣어 값을 취하게 되면 Monte Carlo simulation이 되는 것이다. 여기서는 random walk를 통해 집(원점)으로부터 떨어진 거리가 4 이하이면 교통수단 없이 집에 돌아올 수 있는데, 이것의 횟수가 평균(50%)이 되는 가장 긴 걸음 수를 구하는 문제이다. 답은 22걸음이다. Question : What is the longest random walk you can take so that on average you will end up 4 blocks or fewer .. 2020. 6. 17.
Monte Carlo simulation Wikipedia에서 말하는 Monte Carlo method는 '숫자 결과를 얻기 위해 반복적인 무작위 샘플링에 의존하는 광범위한 연산 알고리즘' (Monte Carlo methods are a broad class of computational algorithms that rely on repeated random sampling to obtain numerical results.) 이라고 하며, analytically solution을 얻을 수 없을 때 사용한다. 대표적이면서 간단한 예제를 보면 감을 얻을 수 있다. 목적은 원의 넓이를 구하여 π값을 계산하는 것이다. 1) Random sampling을 통해 (x, y) 좌표를 얻는다. 2) (x, y) 좌료를 통해 point를 찍는다. 3) 원 방.. 2020. 6. 17.
PBWT (Positional Burrows-Wheeler Transform) Phasing을 위해서 Li and Stephens model (LSM)을 사용한다. LSM의 계산속도를 높이기 위해서, 주어진 genotype에 대해서 가능한 haplotype을 만들어 Positional Burrows-Wheeler Transform (PBWT) 과정을 진행한다. PBWT에 대해 잘 정리된 글이 있어서 이해한 내용을 정리해 본다. # Haplotypes X = [[0, 1, 0, 1, 0, 1], # 0 [1, 1, 0, 0, 0, 1], # 1 [1, 1, 1, 1, 1, 1], # 2 [0, 1, 1, 1, 1, 0], # 3 [0, 0, 0, 0, 0, 0], # 4 [1, 0, 0, 0, 1, 0], # 5 [1, 1, 0, 0, 0, 1], # 6 [0, 1, 0, 1, 1,.. 2020. 6. 9.
Hilbert curve Hilbert curve 는 좌표계를 mapping하는 방법이다. 참고한 코드는 https://people.sc.fsu.edu/~jburkardt/py_src/hilbert_curve/hilbert_curve.html 이곳이며, [WIKIPEDIA]에도 같은 C코드가 있다. 위 사이트의 python코드에서 xy2d 함수의 xcopy와 ycopy 앞에 abs 는 typo이며 삭제해야 한다. Hilbert curve를 generate하여 visualization해 주는 사이트는 http://bit-player.org/extras/hilbert/hilbert-construction.html 이다. Hilbert curve coordinate mapping은 총 3개의 함수로 구성되어 있다. 1) 1차원에서 2.. 2020. 6. 1.
CNN terminology CNN(Convolutional Neural Network)을 공부하다보면 무엇보다 용어에 대한 정리부터 필요하다. 같은 것을 가리키는데 여러개로 불리는 용어도 있다. CNN은 고양이가 사물을 인식할 때 뇌의 일부만이 활성화되는 것을 발견한 것이 출발점이 되었다고 한다. CNN은 이미지의 일부의 특징을 찾아 분류하는 알고리즘이다. CNN의 layer는 크게 4 가지가 있으며, (height, width, channel)로 표현한다. - Convolution layer - Downsampling layer - Flatten layer - Fully connected layer Convolution layer : filter 또는 kernel이라고도 부른다. 이것의 역할은 input 이미지의 특징을 추출하기.. 2020. 5. 27.