전체 글225 [github] Polypharmacy https://github.com/SunjooBang/Polypharmacy-side-effect-prediction https://doi.org/10.1093/bioinformatics/btab174 https://github.com/diitaz93/polypharm_predict https://github.com/NYXFLOWER/TIP 2021. 6. 24. ICGC database https://dcc.icgc.org/releases/current 2021. 6. 24. sklearn - Scaler - StandardScaler : 정규분포를 갖도록 데이터의 스케일을 조정. N(0,1) : 평균을 0에 오도록 하며, outlier를 제거하는데 사용. : Sparse 데이터에 사용하게되면 sparseness 구조가 파괴됨. - MinMaxScaler, MaxAbsScaler : 표준편차가 매우 작고 sparse 데이터에 적합. $$ x^\prime=\frac{x-x_{min}}{x_{max}-x_{min}} $$ - Normalizer : 각 feature마다 정규화함. : Euclidean distance가 1이 되도록 조정. $$ ED = \sqrt{\sum_i x_i^2} = 1 $$ : feature마다 스케일이 다른 경우, training에서 큰 값을 가지는 쪽으로 큰 weight를 주게되는.. 2021. 6. 23. [책 읽어주는 나의 서재] 개소리에 대하여 김경일 교수의 설명을 통해 "개소리"를 구분할 수 있게 되었다. 개소리 = BULLSHIT = 입에서 나오는 더운 공기 + 싸지른 똥 = 생각없는 말 나르시시즘(영어: narcissism) 또는 자기애(自己愛, self-love) EP.01-10개소리를 피하려면 가장 먼저 해야 할 일은? 개소리하는 부장님이 승승장구하는 이유 알려드립니다 https://youtu.be/ovOt2E-_C0M EP.01-11 "나는 아니야" 생각하고 있다면 더더욱 조심해야 하는 이유. "개소리는 허세 부리기에 가깝다" https://youtu.be/_IN6ksCCXCY EP.01-02 ※공감 주의※ "다 너 잘 되라고 하는 거야" 일상은 개소리의 향연이다?! https://youtu.be/PG4Dc_m5MVA EP.01-05.. 2021. 6. 22. Lung ... 가지를 치라고 명령하는 ‘Fgf10’이라는 유전자와 이를 억제하는 ‘Sprouty2’라는 유전자가 공간에 따라 적절한 타이밍에 발현될 때 정상적인 허파 구조가 만들어진다. Reference - 허파 프랙탈 패턴 형성 비밀 찾았다, https://www.donga.com/news/It/article/all/20080621/8592795/1 2021. 6. 22. Nanopore 나노폴은 유전체를 읽는 NGS 다음 기술이다. 나노폴을 통과한 ACGT 염기서열에 따라 전류 세기 변화를 감지하여 판독한다. 즉, 염기서열이 저항이 되는 것이다. Library 를 준비하는데 10분정도 걸리고, 샘플이 준비되면 sequencing은 실시간으로 이루어지며 약15분 후면 분석까지 마치게 된다. 장치는 MinION 이라고 부르며, 100g 미만의 소형 장치이다. 컴퓨터와 연결되어 전용 프로그램과 연동된다. 스마트폰에 연결한 분석도 가능한 것으로 보인다. MinION device specification: - 1 flowcell - 2048 pores - 512 sequence channels at a time - 10-25 Gb data - 1,000 dollars - Long-lead seq.. 2021. 6. 22. Landmark gene 인간의 유전자는 약 22,000개이며 유전자 간의 상호작용이 있다. 유전자 간의 상호작용을 연구한 발현 데이터를 모아 CMAP(Connectivity Map) 데이터베이스를 만들었다. 이렇게 모여진 데이터에서 전체 유전자 발현 양상 정보의 약 80%를 가지고 있는 978개의 유전자를 landmark gene이라고 정의하고, 이 외에 연구하고자 하는 유전자를 target gene이라고 한다. Reference - https://clue.io/connectopedia/cmap_overview - http://www.incodom.kr/Connectivity_Map - https://www.ncbi.nlm.nih.gov/geo/ - https://clue.io/command 2021. 6. 21. Clustering - Fuzzy 2021. 6. 18. [paper] Semi-supervised Classification Based Mixed Sampling for Imbalanced Data Semi-supervised Classification Based Mixed Sampling for Imbalanced Data https://www.degruyter.com/document/doi/10.1515/phys-2019-0103/html ... The imbalanced data classification is such a problem where the class distribution of training data is not balanced and the number of one class is far less than the other one. ... the method for imbalanced data classification can be divided into two levels.. 2021. 6. 17. VCF reheader VCF header에 contig 정보가 빠져있으면 VCF 프로그램에서 처리되지 않는다. 따라서 항상 넣어주어야 한다. 아래 코드는 VCF의 contig를 생성해 주고, sample 정보를 제외한 header와 contig를 결합하고, 다시 sample 정보를 결합하여 이상이 없는 VCF를 만들어 준다. #!/bin/bash cat vfile.lst|while read line;do awk '!/^#/ { a[$1]++ } END {for (i in a) print i,a[i]}' ${line}|sort -V|awk '{print "##contig="}' > ${line}.contig.tmp;done cat vfile.lst|while read line;do bcftools view -h ${line} .. 2021. 6. 17. [paper] 3Cnet 3Cnet: Pathogenicity prediction of human variants using knowledge transfer with deep recurrent neural networks ... many rare diseases are caused by the missense mutations ... PP3 is one of the standards in the ACMG guideline which means in-silico assessment criterion. ... REVEL developed a random forest algorithm that incorporates various pathogenicity predictors to build an integrated predictor.. 2021. 6. 11. Multiple test correction 2020.11.30 - [Statistics] - P-value 2020.10.26 - [Statistics] - FDR : False Discovery Rate FWER, Family-wise error rate = Pr(FP ≥ 1) : false positive를 적어도 한개 이상 가지고 있을 확률. Significance level을 alpha 로 놓고 m번의 테스트가 있을 때, false positive 적어도 한 개 이상을 가지고 있을 확율은 다음과 같다. 이렇게 되면 테스트가 많을 수록 FWER이 높아지게 된다. 즉, 허용하는 false positive 많다는 얘기다. False positive를 줄이기 위해 Bonferronni limit을 적용하여 FWER을 고정하는 방법이 있다. 위 방.. 2021. 6. 10. Clustering 데이터 자체의 값들만으로 분류가 필요한 경우가 있다. 예를 들면, 한 사람이 아픈 증상이 있어서 병원을 찾았다. 의사는 진단해보고 이 사람이 환자라고 판단했다. 하지만 그 사람이 가진 유전체 분석을 해보니 이 사람은 정상인이었다. 이러한 경우 의사가 판단한 phenotype에 의존하지 않고 데이터만으로 분석을 진행해야 할 경우가 생긴다. Unsupervised learning이라고 하며, t-SNE, PCA, UMAP이 있다. 추가로 point 사이의 거리에 따라 cluster해주는 k-means clustering과 Spectral clustring도 진행해 보았다. 위 그래프에서 phenotype과 data driven clustering의 결과는 상당히 다르게 보인다. 이때는 QC를 통해 featu.. 2021. 6. 9. [paper] RNA-seq expression Differential Transcript Usage Analysis Incorporating Quantification Uncertainty via Compositional Measurement Error Regression Modeling ... Commonly used quantities for RNA-seq transcript isoform expression include Transcripts Per Million (TPM) (Wagner, Kin and Lynch, 2012), which provides a transcript-length and library size normalized estimate of expression for each transcript isoform within a.. 2021. 6. 9. Announcement 보호되어 있는 글 입니다. 2021. 6. 9. ANOVA ANOVA (ANalysis Of VAriance) : 둘 이상 샘플들(그룹들)을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. https://en.wikipedia.org/wiki/Analysis_of_variance ANOVA는 Machine learning의 classification문제와 동일하다. Statistics Machine Learning 입력값 Instance, X 입력변수, 1개 One-way ANOVA, 2개 Two-way ANOVA, 2개 이상 MANOVA Feature, X.columns 그룹 Y 두 샘플의 비교부터 알아보자. T-test 두 샘플을 비교.. 2021. 6. 8. XGBR Extreme Gradient Boosting Regression https://xgboost.readthedocs.io/en/latest/tutorials/model.html model = xgboost.XGBRegressor(tree_method='gpu_hist', gpu_id=0) model.fit(X_train, y_train) shap_values = shap.TreeExplainer(model).shap_values(X_test) shap_values = shap.Explainer(model, X_train)(X_test) or ----------------------------- n_trees = 200 dmat = xgboost.DMatrix(X_train, y_train) model =.. 2021. 6. 7. GRCh38 - format https://hgdownload.cse.ucsc.edu/goldenpath/hg38/bigZips/ Chromosomes: - made from scaffolds placed onto chromosome locations, 95% of the genome file - format: chr{chromosome number or name} - e.g. chr1 or chrX, chrM for the mitochondrial genome. Unlocalized scaffolds: - a sequence found in an assembly that is associated with a specific chromosome but cannot be ordered or oriented on that chromos.. 2021. 6. 7. SHAP - impact 보호되어 있는 글 입니다. 2021. 6. 6. Immune system 종양 면역 억제환경 극복 전략: Cold tumor에서 Hot tumor로의 전환 https://www.ibric.org/myboard/read.php?Board=report&id=3743&Page=1 ... Cold tumor로 알려진 교모세포종(glioblastoma)은 종양변이부담(tumor mutation burden, TMB)이 낮고 효과 면역세포의 침투가 드물며 다양한 면역관문억제제(immune checkpoint inhibitor, ICI)에 대한 내성을 나타낸다. ... 교모세포종 마우스 모델에 방사선 치료와 PD-1 억제제를 병용하면 시너지 효과를 내어 TME 내에 CD8 T 세포 침투는 증가하는 반면 Treg 세ㅗ는 감소되며 강력한 항암효과가 나타났다. 또한 interleukin (IL.. 2021. 6. 4. Fisher's exact test Fisher's exact test - for small samples - categorical data * Chi-squre test is for large samples. It means that it is an approximation of Fisher's exact test. 위와 같은 데이터가 있다고 하자. 구하고자 하는 것은 다음과 같다. "전체 샘플18명에서 7명을 선택했을 때, case 8명 중에서 positive인 3명과 control 10명 중에 positive 4명을 선택할 확률은 얼마나 될 것인가?" 이런 경우 Fisher's exact test를 적용하게 된다. Pr(K = 7) = ( 8c3 * 10c4 ) / 18c7 달리말해, Hypergeometric distribution.. 2021. 6. 1. Gene family - Homolog : homology between protein or DNA sequences is defined in terms of shared ancestry - Ortholog : Orthologs, or orthologous genes, are genes in different species that originated by vertical descent from a single gene of the last common ancestor. - Paralog : if a gene in an organism is duplicated to occupy two different positions in the same genome, then the two copies are paralogous. Ref.. 2021. 6. 1. [book] 확장된 표현형 p.299 .. 이른바 쓰레기 DNA가 자연 선택을 받는 대상이 아니라는 뜻은 아니다. 유기체가 얻는 적응적 이득이라는 의미에서 지금까지 다양한 '기능'이 제기되었다. 여분의 DNA가 발휘하는 '기능'은 "단지 유전자를 분리하는 것"일 수 있다(Cohen, 1977, p. 172). 어떤 NDA 구획은 전사되지 않아도 유전자 사이의 공간을 점유해 유전자 간의 고차 빈도를 높일 수 있으므로, 이는 일종의 표현형 발현이다. 따라서 스페이서 DNA는 교차 빈도에 영향을 준다는 이유로 어느 정도 자연 선택이 선호할 수 있다. 그러나 일정한 길이의 스페이서 DNA를 재조합률을 ㅇ'위한 유전자'와 같다고 보는 방법은 관습적인 용어 사용법에 맞지 않는다. 이런 이름을 얻으려면 유전자는 대립 유전자와 비교해 재조합률에.. 2021. 5. 30. [R] basic Command Description or result getwd() 현재 디렉토리 setwd('~/set_new_directory/') 현재 디렉토리 바꾸기 install.package("package_name") 패키지 설치 library(installed_package) 패키지 불러오기 numbers 2021. 5. 25. Excel to tsv 엑셀파일을 tab으로 분리된 형태의 파일을 사용할 일이 있어서 변환해주는 프로그램을 만들었다. Pandas의 엑셀 불러오는 기능을 이용한 간단한 형태이다. xlsx2tsv.py #!/usr/bin/env python3 import pandas as pd import sys try: fname=sys.argv[1] oname=sys.argv[2] except: print('$ xlsx2tsv.py [ xlsx file name ] [ new file name with an extension ]') exit() df = pd.DataFrame(pd.read_excel(fname, engine='openpyxl')) df.to_csv(oname,sep='\t',index=None) print(df) print.. 2021. 5. 19. DESeq2 - Library normalization $ conda install gxx_linux-64 DESeq2 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("tximport") BiocManager::install("DESeq2") https://bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html https://sites.tufts.edu/biotools/files/2019/04/bioinformatics_for_rnaseq_day2.pdf library(DESeq2) library(vsn) library(ggplot2).. 2021. 5. 18. Gene expression Terminology - RPKM (Reads Per Kilobase Million) is for single end RNA-seq. - FPKM (Fragments Per Kilobase Million) is for paired end RNA-seq. - TPM (Transcripts Per Million) - Gene-level quantification : count the number of reads that map (i.e. align) to each gene (read count) - library : In molecular biology, a library is a collection of DNA fragments that is stored and propagated in a populati.. 2021. 5. 18. Heritability 자신이 정한 기준의 형질을 가지고 있는 품목을 재배할 때, 유전자 외의 변수로 인해 다른 형질이 생성되면 상품으로써 문제가 된다. 이를 유전력(heritability)으로 정의하여 형질 변화의 척도로 활용한다. 유전력, h2, 는 다음과 같이 정의한다. Genotypic variation은 유전자에서 발현이 되는 것을 의미하며, phenotypic variation은 유전자 발현과 더불어 다양한 환경적 요인에 의해 결정되는 형태를 말한다. h2 = 0 이란 말은 유전자가 아닌 환경에 영향을 받는 다는 뜻이며, h2 =1 은 환경에 상관없이 유전자에 영향을 받는다는 뜻이다. 유전력이 높다는 것은 단지 그 형질에 대한 육종가와 표현형 사이의 강한 상관 관계가 있다는 것이다. Reference - https:.. 2021. 5. 17. 2021.05.15 토 당신은 어떤 나라에서 살고 싶으신가요? 플라톤이 그린 트라시마코스와 소크라테스의 '정의' 논쟁 [인생의발견 EP.02] | 김헌 교수 https://youtu.be/3salZSumUks 〈논어〉에 이런 내용이 있었다고? 공자와 그의 제자 자하가 말하는 표정 관리의 기본! [인생의발견 EP.03] | 김시천 교수 https://youtu.be/61B8JZ1xOTs : 이 세상에서 가장 슬픈 사람이 마음이 죽은 사람이다. - 장자 : 현현역색, 존경하는 사람을 대할때 얼굴 표정을 바꾸어라. 2021. 5. 15. PyHLA form 보호되어 있는 글 입니다. 2021. 5. 13. 이전 1 2 3 4 5 6 7 8 다음