본문 바로가기

분류 전체보기225

유전체 회사 우시 넥스트코드 http://www.biotimes.co.kr/news/articleView.html?idxno=3200 http://www.biospectator.com/view/news_view.php?varAtcId=4356 2021. 2. 8.
2014 Rare-Variant Association Analysis:Study Designs and Statistical Tests Seunggeung Lee, Gonçalo R. Abecasis, Michael Boehnke, Xihong Lin AJHG VOLUME 95, ISSUE 1, P5-23, JULY 03, 2014 Published: https://doi.org/10.1016/j.ajhg.2014.06.009 Highlight Many Mendelian disorders and rare forms of common diseases are caused by highly penetrant rare variants. Evolutionary theory predicts that deleterious alleles are likely to be rare as a result of purifying selection, and in.. 2021. 1. 22.
VCF Header Number=.(알 수 없는 번호) 1보다 큰 모든 Number Number=G(유전자형당 값 하나) 및 Number=R(각 대체 및 기준에 대해 값 하나) Number=A(각 대체에 대해 값 하나), --split_alternate_allele_info_fields가 False로 설정된 상태로 도구를 실행할 경우만 해당 -a, --annotate LIST Comma-separated list of FORMAT and INFO tags to output. (case-insensitive, the "FORMAT/" prefix is optional, and use "?" to list available annotations on the command line) [null]: *FORMAT/AD.. 2021. 1. 21.
eQTL eQTL 기초 https://www.ibric.org/myboard/print.php?Board=report&id=2499 eQTL Catalog - Paper : eQTL Catalogue: a compendium of uniformly processed human gene expression and splicing QTLs - Homepage : https://www.ebi.ac.uk/eqtl/ - Search Browser : https://elixir.ut.ee/eqtl/ 2021. 1. 21.
1000 Genome NYGC Announcement for 1000 Genome project https://www.internationalgenome.org/announcements/ Friday August 14, 2020 The New York Genome Center (NYGC) released high-coverage (30x) data for an additional 698 samples from the 1000 Genomes Project sample collections (aligned to the GRCh38). Info : 3202-samples-at-high-coverage-from-NYGC/ Phased : 20201028_3202_phased/ Raw : 20201028_3202_raw_GT_with_anno.. 2021. 1. 21.
DeepVariant DeepVariant : Deep learning을 이용해서 variant calling 하는 프로그램이다. Blog : https://google.github.io/deepvariant Github : https://github.com/google/deepvariant Reference - Can We Learn the Language of Proteins, https://bair.berkeley.edu/blog/2019/11/04/proteins/, https://www.biorxiv.org/content/10.1101/676825v1, https://github.com/songlab-cal/tape 2021. 1. 18.
docker Docker install & configuration $ sudo yum -y install docker docker-registry $ sudo systemctl enable docker.service $ sudo systemctl start docker.service $ sudo systemctl status docker.service $ sudo docker search shapeit4 $ sudo docker pull lifebitai/shapeit4 $ sudo docker images $ sudo docker run -i -t docker.io/lifebitai/shapeit4 /bin/bash $ sudo docker ps -a $ sudo docker start container-ID $.. 2021. 1. 18.
2012 Optimal Unified Approach for Rare-Variant Association Testing with Application to Small-Sample Case-Control Whole-Exome Sequencing Studies SKAT, SKAT-O 가 어떤 수식으로 계산되는지와 weight를 어떻게 주어야 하는지, small-sample 에서는 어떻게 adjust해서 type I error 를 줄였는지 자세히 적혀있다. Seunggeun Lee, Mary J Emond, Michael J Bamshad, Kathleen C Barnes, Mark J Rieder, Deborah A Nickerson, NHLBI GO Exome Sequencing Project—ESP Lung Project Team; David C Christiani, Mark M Wurfel, Xihong Lin AJHG VOLUME 91, ISSUE 2, P224-237, AUGUST 10, 2012 Published:August 02, 2012 http.. 2021. 1. 14.
2013 Sequence kernel association tests for the combined effect of rare and common variants Iuliana Ionita-Laza, Seunggeun Lee, Vlad Makarov, Joseph D. Buxbaum, Xihong Lin Published:May 16, 2013 AJHG VOLUME 92, ISSUE 6, P841-853, JUNE 06, 2013 https://doi.org/10.1016/j.ajhg.2013.04.015 Highlight They focus mostly on testing the effect of rare variants by upweighting rare-variant effects and downweighting common-variant effects and can therefore lose substantial power when both rare and.. 2021. 1. 14.
UKBioBank https://biobank.ndph.ox.ac.uk/ukb/refer.cgi?id=3803 더보기 Resource 3803 Name: Target region used by the WES capture experiment (BED file) The UK Biobank whole-exome sequencing has been performed with the IDT xGen Exome Research Panel v1.0 including supplemental probes. The basic design targets 39 Mbp of the human genome. The GRCh38 coordinates of the targeted regions are provided within this BED f.. 2021. 1. 6.
SKAT-O SKAT-O (Optimized SKAT) : optimize the statistical result between Burden test and SKAT. : the optimization parameter is ρ. (ρ=1: burden test, ρ=0: SKAT) : Optimized SKAT (SKAT-O) is a procedure which optimizes Generalized SKAT over a grid of N values of ρ between zero and 1, inclusive, in such a way as to count as only one test for multiple testing purposes instead of as N tests. (In Golden Heli.. 2021. 1. 6.
SPA, Saddlepoint approximation 더보기 Characteristic function : 확률밀도 함수를 fourier transformation 한 함수. Generating function : Power series 가능한 함수. Moment : 일반화 시킨 개념. E[X^n] == nth moment Reference - Moment, https://freshrimpsushi.tistory.com/246 - Generating function, https://freshrimpsushi.tistory.com/232 - Moment generating function, https://freshrimpsushi.tistory.com/248 - Characteristic function, https://freshrimpsushi.tistor.. 2020. 12. 30.
[R] Clustering Data의 clustered region이 얼마나 되는지, 얼만큼 나눌 수 있는지 measure가 필요한 경우가 있다. install.packages(c("factoextra", "fpc", "NbClust")) library(c(factoextra,fpc,NbClust,ggplot2)) df 2020. 12. 30.
P-value P-value : the probability that observing something more “extreme” than the data under the null hypothesis. : the probability that 1) random chance generated the data, or 2) something else that is equal or 3) rarer. Significance test : To test whether the hypothesis is tenable or not. Descriptive statistics : Information from the data Inferential statistics : Information of population infered by .. 2020. 11. 30.
VisiData VisiData Lightning Demo at PyCascades 2018 https://youtu.be/N1CBDTgGtOU $ pip3 install visidata openpyxl $ vd data.csv python >= 3.6 Data 파일을 column으로 나누어 보기 쉽게 해주는 툴이다. 불러들인 데이터에서 plot도 가능하다. 엑셀파일(xlsx)도 읽기가 가능하다. 그러기 위해서는 openpyxl을 설치해야 한다. Usage: - Data type: # (int), % (float), $ (currency), or @ (date) - Select column: ! - Sort: [ ] (ascending/descending by current column) - Graph: . - Hide.. 2020. 11. 20.
Scikit-allel - Homepage : https://scikit-allel.readthedocs.io/en/stable/ - Installation : pip3 install scikit-allel - Github : https://github.com/cggh/scikit-allel Prerequisite: pip3 install h5py import allel df=allel.read_vcf('data.vcf.gz') print(df.keys()) # dict_keys(['samples', 'calldata/GT', 'variants/ALT', 'variants/CHROM', 'variants/FILTER_PASS', 'variants/ID', 'variants/POS', 'variants/QUAL', 'varian.. 2020. 11. 6.
CMD on LINUX function p2v() { name=$1; plink2 --vcf $name --out ${name//.vcf.gz/} ${@:2};} # ${@:2:4} alias prl="bash -c '(for i in {1..22};do eval echo \$@ ;done) |parallel \"{}\" ' _" Command line argument: 더보기 $# Stores the number of command-line arguments that were passed to the shell program. $? Stores the exit value of the last command that was executed. $0 Stores the first word of the entered command .. 2020. 11. 6.
sklearn - Standardization [ Web ] https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html Data의 정규화 또는 표준화이다. 즉, 표준정규분포 (standard normal distribution)을 갖는 data로 만들어주는 기능을 한다. 이렇게 만든 데이터는 평균이 0이고, 표준편차(1-sigma)가 1로 mapping되며, X축을 z-score 또는 standardized score라고 부른다. Usage: from sklearn.preprocessing import StandardScaler import numpy as np scaler = StandardScaler() data = np.arange(11)... 2020. 11. 5.
Scikit-learn, sklearn Machine learning에서 가장 많이 쓰이는 library이다. Homepage : https://scikit-learn.org/stable/user_guide.html Manual : https://scikit-learn.org/stable/_downloads/scikit-learn-docs.pdf 사용할 기능 Classification - SVM : https://scikit-learn.org/stable/modules/svm.html - Ensemble (Random forest) : https://scikit-learn.org/stable/modules/ensemble.html SVM: import numpy as np from sklearn.pipeline import make_pipel.. 2020. 11. 4.
Find connection Pedigree 또는 multi-position network가 있을 때, 연관성을 tree로 보기 위한 프로그램이다. 이 프로그램은 연관성있는 2개에 대한 것으로 만들었다. Python anytree library를 사용했다. anytree의 단점은 multi-parent가 되지 않고, 처음 설정된 parent를 따르게 된다. [ Anytree ] - Homepage : https://anytree.readthedocs.io/en/latest/ - Manual, PDF : https://readthedocs.org/projects/anytree/downloads/pdf/latest/ [ Graphviz ] - Homepage : https://graphviz.org/ - Manual : https://.. 2020. 11. 4.
F-statistics Wikipedia에 따르면 F-statistics, Fst,는 다음과 같다. "In population genetics, F-statistics (also known as fixation indices) describe the statistically expected level of heterozygosity in a population; more specifically the expected degree of (usually) a reduction in heterozygosity when compared to Hardy–Weinberg expectation." "F-statistics can also be thought of as a measure of the correlation between gen.. 2020. 10. 27.
FDR : False Discovery Rate False discovery rate, FDR,이란 통계적 평가에서 type I error, 즉 Posive 중에 false positive가 얼만큼 나왔는가에 대한 지표이다. 다시 말해 유의한 결과를 찾은 것들 중에서 실제로 유의하지 않은 것들의 비율이다. FDR은 conditional probability인 Bayesian inference이며, 수식은 다음과 같다. FDR = P( not ill | test pos ) = P( test pos | not ill ) P( not ill ) / P( test pos ) where P( test pos ) = P( test pos | not ill) P( not ill ) + P( test pos | ill ) P( ill ). Positive로 판명된 .. 2020. 10. 26.
Confusion matrix 모델에 대한 평가를 하다보면, 평가지표인 accuracy, precision, recall(=sensitivity), specificity 라는 용어를 보게된다. 보통은 2x2 confusion matrix에서 계산하지만 그 이상의 사이즈를 가진 matrix에 대해서도 계산하는 방법을 소개하겠다. 위 2x2 confusion matrix에서는 case를 기준으로 한다. True or False ? True는 실제와 예상되는 결과나 실험 결과가 일치할 경우를 이야기한다. False는 일치하지 않는 경우이다. Positive or Negative ? Positive는 예상되는 결과가 positive인 경우, 즉 case라고 예상됨을 이야기한다. Negative는 예상되는 결과가 case가 아닌, 다시말해 예.. 2020. 10. 25.
Jobs for you tmux-cssh 와 같이 여러 서버에 명령을 내릴 때, 서버에 접속하지 않고 명령을 보내서 실행이 되도록 Fabric 라이브러리를 사용하여 만들었다. 프로그램을 설치하거나, 공통 스토리지의 마운트, 작업을 실행할 때 유용하게 사용할 수 있다. Connection에서 host="root@192.168.0.xx" 로 넣어주면 root로도 명령을 내릴 수 있다. 사용방법은 간단하다. 실행 파일 뒤쪽에 명령어를 넣어주면 하나의 명령어로 인식하기 때문에 띄어쓰기도 가능다. Pipeline ( | )으로 이어지는 명령어는 " " 안에 넣어준다. $ j4u.py your command $ j4u.py "cat read.txt | wc -l" $ cat j4y.py #! /usr/bin/env python3 from.. 2020. 10. 22.
tmux-cssh Tmux 에서 여러 서버를 한번에 켜고 확인해야 할 경우가 있다. Tmux-cssh는 여러 창을 한번에 켤 수 있는 프로그램이 있다. 직접 진행상황을 확인하면서 작업을 진행할 때 유용하다. $ wget https://raw.githubusercontent.com/peikk0/tmux-cssh/master/tmux-cssh $ sudo ln -s PATH/tmux-cssh PATH/tss $ tmux-cssh -h Usage: /usr/local/bin/tss [options] host [host ...] Spawns multiple synchronized SSH sessions inside a tmux session. Options: -h Show help -c Use the current tmux se.. 2020. 10. 22.
Geometric mean Geometric mean : 기하평균 기하평균은 곱셈으로 계산하는 값들의 평균을 구할 때 사용한다. 예를 들어 해가 지남에 따라 어떠한 비율로 증가하거나 감소하는 값들이, 그 기간동아 얼만큼 증가 또는 감소하였는지 평균값을 구할 때 사용한다. 기하평균은 한쪽으로 치우쳐 있는 데이터의 extreme value에 대해서 영향을 덜 받는다. Relationship을 계산하는 프로그램인 KING 에서 relatedness coefficient를 계산하기 위해 mean 값(within family)과 minimum 값(btw family relatedness)을 사용하였고, 같은 알고리즘을 사용하지만 PEDDY 라는 프로그램에서는 mis-specified family 정보에 대해서 geometric mean을 .. 2020. 10. 19.
3billion's strategy https://3billion.io/product 쓰리빌리언에서 rare disease와 변이의 연관성을 확인하여 DTC(Direct to Customer) 서비스를 하기 위한 단계는 다음과 같을거라 예상한다. - Rare disease 와 관련있는 gene list 를 만든다. 약 20,000개. 홈페이지에서 제공. - 서비스를 원하는 사람의 sequencing을 하고, variant calling을 하여 exome region을 사용한다. - Rare disease related gene 영역의 sequencing 정보를 가져온다. - 선택된 영역과 phenotype, 즉 symptom과의 연관성을 찾아본다. - 이에 대한 해석은 ACMG guidelines(Richards S et al, 2015).. 2020. 10. 15.
TabView Table 형태의 파일을 less 로 읽다보면 column이 맞지 않아서 보기가 불편하다. 그 대안으로 column과 less pipeline 연결하여 함수로 사용하고 있다. function cv() { column -ts $'\t' $1 |less;} 이렇게 쓰게되면 용량이 작은 파일은 괜찮지만, 큰 파일은 열리는데 시간이 걸린다. 위 기능보다 시간은 좀 더 걸리지만, 편의기능이 추가된 프로그램이 있다. Tabview (https://github.com/TabViewer/tabview)이며 header가 고정되는 역할도 가지고 있다. Python 3.4+ 에서 작동하며, $ pip3 install tabview 를 통해 인스톨한다. 실행은 $ tabview filename 으로 shell 에서 바로 사.. 2020. 10. 8.
SNP 관련 인간 다양성 근원 ‘스닙’의 정체를 밝혀라. http://legacy.www.hani.co.kr/section-005100031/2003/06/005100031200306031829311.html 더보기 맞춤의학 열쇠 ‘스닙(단일염기다형성)’을 캐라 많이 먹지도 않는데 살이 찌는 사람은 왜 그럴까. 다른 집안 사람들은 노년에도 까만 머리를 자랑하는데, 우리 집안은 왜 30대만 돼도 머리털이 흴까. 어떤 사람은 간염에 걸리고도 쉽게 치유가 되는 데 반해, 어떤 사람은 간경화와 간암 같은 치명적 질병으로 발전할까. 한약이든 양약이든 사람마다 효과가 다른 것 같은데 왜 그럴까. 인류는 이렇게 사람마다 특정 질환에 대한 취약성과 약물 반응의 정도에 차이를 보이는 것뿐만 아니라 얼굴 생김새, 신체 크기, 음성 등.. 2020. 10. 5.
Monitoring jobs 일정한 시간 간격을 두고, 작업이 끝났는지 확인이 필요했다. 그래야 이전 작업의 결과를 이용한 다음 작업을 자동으로 진행시킬 수 있기 때문이다. Python에서 threading이 있지만 처음에 한번이 무조건 실행이 되기 때문에, 목적에 맞지 않고 불편했다. 이것은 제쳐두고, 기본적인 기능들만 가지고 원하는 대로 코드를 만들 수 있었다. #! /usr/bin/env python3 import subprocess import sys import time import datetime def watcher(sleep,task=''): time.sleep(sleep) cmd='squeue|wc -l && squeue --state="RUNNING"|wc -l' lines=subprocess.check_outpu.. 2020. 9. 23.