본문 바로가기

분류 전체보기225

Mean vs. Variance Count data로 모델링을 할 때, 어떤 distribution을 가정할 것인가를 판단하기 위해 확인하는 값이다. Poisson distribution의 경우 평균과 분산이 같을 때 사용하기 적합하고, Negative Binomial distribution은 분산이 더 큰, over-dispersed data에 적합하다. 2021.10.17 - [R] - [R] Count data distribution data 2021. 10. 20.
[R] predict https://stat.ethz.ch/R-manual/R-devel/library/stats/html/predict.glm.html 데이터를 통해 GLM으로 모델링한 model이 있다고 해보자. 함수 predict 는 모델로부터 값을 예측해주는 기능을 한다. predict(model, newdata, type=c("link", "response", "terms"), se.fit=FALSE, dispersion=NULL, term=NULL, na.action=na.pass,..) - Parameter * model : glm fittef model from data. * newdata : 예측하고자 하는 값이 있는 데이터. * type : { link : log-odds, response : expecte.. 2021. 10. 19.
Read table data with Parquet https://parquet.apache.org/ Table 형식의 데이터를 읽고 쓰는데 많이 사용하는 형식은 CSV 이다. Linux shell에서나 Excel에서 읽고 쓰는데 편리하게 되어있다. CSV의 단점이라고 한다면 데이터가 커지면 읽고 저장하는데 시간이 걸린다는 것이다. 대안으로 parquet이 있다. Parquet은 column-based 읽기 쓰기 방식이다. (CSV는 row-based 이다.) Python에서 사용은 pandas에서 불러와서 사용하는 것과 같다. import pandas as pd df = pd.read_parquet('test.parquet') df.to_parquet('test2.parquet', compression='gzip') CSV vs. Parquet [345.. 2021. 10. 18.
Count data distribution Poisson vs. Negative Binomial distribution Poisson distribution, \( Pois(\lambda) \) : 일정한 간격 동안 이벤트가 발생할 확률로 정의한다. - Parameter : \( X = k \) (이벤트의 발생 횟수), \( \lambda \) ( \( = E(X) = Var(X) \) ) (이벤트 발생 확률) $$ f(k; \lambda) = Pr(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} . $$ \( \lambda = r t \) : r 은 단위 시간당 이벤트 수로도 계산이 가능하다. 더보기 library(tidyverse) x.values 2021. 10. 17.
Marp - Markdown to PPT Github에서 문서를 작성하기위해 Markdown 문법을 사용하고 있다. 이를 확장한 Markdown 문법으로 PPT를 작성할 수 있는 Marp라는 툴이 있다. - Markdown Presentation Ecosystem : https://marp.app/ 가장 편하게 사용하는 방법은 VS code에서 extension으로 설치하는 것이다. - VS Code : https://code.visualstudio.com/download - Marp for VS Code : https://marketplace.visualstudio.com/items?itemName=marp-team.marp-vscode 출력할 수 있는 형식은 { PDF, PPT, HTML, PNG, JPEG } 가 있다. 아래는 templa.. 2021. 10. 13.
[R] Enhanced Volcano plot sudo apt install libfribidi-dev libfreetype6-dev libpng-dev libtiff5-dev libjpeg-dev BiocManager::install('EnhancedVolcano') https://github.com/kevinblighe/EnhancedVolcano dds 2021. 10. 12.
pandas - Merge, join, concatenate and compare https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html result = pd.merge(left, right, how="left", on=["key1", "key2"]) 2021. 10. 8.
[R] boxplot options https://r-charts.com/distribution/boxplot-function/ pdf(paste0(fname, "_non_vs_normalized.pdf")) par(mar=c(1, 4, 2, 1)) par(mfrow = c(2, 1)) boxplot(log_ndds, notch=TRUE, main = "Non-normalized read counts", ylab="log2(read counts + 1)", names=NA, cex = .2, col = meta$color, border = 8, medcol = 3, outlwd = 0.5, boxlwd = 0.1, whisklwd =0.2) boxplot(log_dds, notch=TRUE, main = "Size-factor-normal.. 2021. 10. 6.
[R] install packages $ vi .Rprofile local({ r 2021. 10. 5.
GSEA GSEA ( Gene Set Enrichment Analysis ) : 오믹스 데이터 분석을 통해서 최종적인 gene set을 찾게 되었을 때, 이것들의 pathway는 어디에서 많이 보이는지 찾아주는 라이브러리이다. - Homepage : https://www.gsea-msigdb.org/gsea/index.jsp - Pape : https://doi.org/10.1073/pnas.0506580102 - Github : https://github.com/zqfang/GSEApy - Tutorial : https://gseapy.readthedocs.io/en/latest/introduction.html $ pip install gseapy - Gene set library : https://maayan.. 2021. 10. 1.
Molecular dynamics software Molecular dynamics software https://en.wikipedia.org/wiki/Category:Molecular_dynamics_software 2021. 9. 29.
신약 개발 과정 약의 탄생이 궁금하지 않니? - 이경 교수 https://www.ibric.org/vod/vod_detail.php?nNum=15461&LURI=L3ZvZC92b2RfbWFnei5waHA/bk51bT0yMzM2 https://www.ksmcb.or.kr/file/bio_2016/lectures/cv09.pdf 1. 타겟 선정 (Target identification) : 특정 질환 치료제를 개발하기 위해 타겟 단백질 등을 정하는 일. 선행 연구결과와 전략 부합성을 종합적으로 판단하여 진행여부를 결정. 2. 타겟 검증 (Target validation) : 선정된 타겟을 제어하는 것과 목표하는 질환 치료와의 상관관계 및 인과관계를 검증하는 단계. 다양한 유전체 정보, 형질전환 동물의 정보 및 연구용 물질을.. 2021. 9. 28.
SCSA - scRNA-seq Annotation SCSA: cell type annotation for single-cell RNA-seq data - Paper : https://www.frontiersin.org/articles/10.3389/fgene.2020.00490/full - Github : https://github.com/bioinfo-ibms-pumc/SCSA 더보기 DB format : two-column data table, [ 'cell-type', 'marker-gene'] from CellMarker Cell marker Cell type Tissue HUMAN 11464 456 158 MOUSE 7855 385 80 and CancerSEA, https://github.com/camlab-bioml/cancersea : 1.. 2021. 9. 1.
TCGA data https://portal.gdc.cancer.gov/repository TCGA 에서는 DNA와 RNA 데이터를 여러가지 형태로 제공한다. 다음의 순서로 원하는 데이터를 다운로드 받는다. 데이터 정보 ( aligned by GRCh38 ) : https://docs.gdc.cancer.gov/Encyclopedia/pages/RNA-Seq/ 1. 데이터 선택 : [ Files ] 탭에서 데이터 분류를 선택하고, [ Cases ] 탭에서 데이터 종류를 선택한다. 2. 그래프 위쪽 부분에 [ Manifest ] 버튼을 눌러 데이터 리스트를 다운로드 받는다. : gdc_manifest.2021-08-27.txt 3. 데이터 정보를 JSON 형태로 다운로드 받는다. : files.2021-08-27.json .. 2021. 8. 30.
scRNA-seq analysis 기존 bulk방식의 RNA-seq 데이터의 수집 및 분석 방식과 single cell RNA-seq 방식의 차이는 다음과 같다. Process for barcoding single-cell data 더보기 Remove Doublet 더보기 Gene cell-type annotation 더보기 DB - CellMarker : http://biocc.hrbmu.edu.cn/CellMarker/ - CanserSEA : http://biocc.hrbmu.edu.cn/CancerSEA/home.jsp Software - SCSA (python) : https://github.com/bioinfo-ibms-pumc/SCSA - scMatch (python) : https://github.com/asrhou/scM.. 2021. 8. 19.
Correlation coefficient 데이터셋의 비교는 기본적으로 두 확률변수의 linear관계를 확인하는 covariance 를 보는 것이다. 하지만 covariance 를 비교하면 데이터의 scale에 따라 다른 결과를 주게된다. 이를 분산으로 나누어 normailzed 값이 correlation coefficient이며, 데이터의 방향과 정도를 확인할 수 있다. Correlation coefficient를 구하는 3가지 방법에 대해 정리해 본다. - Pearson's correlation coefficient ( value ) - Spearman's correlation coefficient ( rank ) - Kendall rank correlation coefficient ( rank ) Pearson's correlation co.. 2021. 8. 19.
Single Cell analysis tools 1. Scanpy [ python ] - Github : https://github.com/theislab/scanpy - Paper : https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1382-0 - Tutorial : https://scanpy.readthedocs.io/en/stable/tutorials.html : https://training.galaxyproject.org/training-material/topics/transcriptomics/tutorials/scrna-scanpy-pbmc3k/tutorial.html # https://docs.conda.io/en/latest/miniconda.html cd DOWN.. 2021. 8. 13.
알기 쉬운 이야기 - 면역&바이러스 카이스트 신의철 교수의 알기 쉬운 이야기 면역 & 바이러스 https://www.youtube.com/watch?v=QPil0PrC0Uc&list=PLf5807GdKammQA-GAr2tlCi39fRSfJAdS 2021. 8. 5.
Structural Variants Types of Structural variants * Copy number variants (CNVs): - Deletions - Duplications * Copy neutral rearrangements: - Inversions - Translocations * Other structural variants: - Novel insertions - Mobile-element transpositions Reference - Genome structural variation discovery and genotyping, https://doi.org/10.1038/nrg2958 - Structural Variant Calling, https://youtu.be/7HbbAea7sKA 2021. 8. 3.
Data - ChEMBL database, http://ftp.ebi.ac.uk/pub/databases/chembl/target_predictions/MCP/ https://www.ebi.ac.uk/chembl/compound_report_card/CHEMBL27/ http://chembl.blogspot.com/2021/07/chembl-29-released.html - Korean Traditional Knowledge Portal, https://www.koreantk.com/ktkp2014/ - PharmDB ( disease - gene network ) : relation btw disease, drug and protein from multiple databases (comparative toxic.. 2021. 7. 30.
[책읽어드립니다] 이기적 유전자 https://www.youtube.com/watch?v=4SE2QH9nA8I&list=PLWFNKrYyaIP65yzAnme9NsMrh2WGpwujQ&index=56&ab_channel=%EC%82%AC%ED%94%BC%EC%97%94%EC%8A%A4%EC%8A%A4%ED%8A%9C%EB%94%94%EC%98%A4 ... 밈 : '모방'으로 전단되는 모든 것 2021. 7. 15.
What is protein? What is a Protein? - https://youtu.be/qBRFIMcxZNM - https://youtu.be/wvTv8TqWC48 - Amino Acids – the Building Blocks of Proteins,https://www.technologynetworks.com/applied-sciences/articles/essential-amino-acids-chart-abbreviations-and-structure-324357 - https://www.youtube.com/user/RCSBProteinDataBank/videos 2021. 7. 14.
이해 여부는 중요하지 않다. - 인간의 언어로는 설명하기 힘든 학문, '양자역학'(김상욱), https://youtu.be/PCKtFLAyn1M - 아인슈타인은 왜 죽을때까지 양자역학을 인정하지 않았을까?(김상욱), https://youtu.be/YVKzTmd9u8Q - 양자역학의 미래, 양자컴퓨터는 과연 실현 가능한가?(김상욱), https://youtu.be/6PZdoToSlqU - 양자역학에 대한 궁금증 Q&A, https://youtu.be/5k6pgU3I9IE 양자역학은 인간의 직관과 다르다. 그 핵심적인 개념은 하나의 전자가 동시에 여러 장소에 있을 수 있다는 것이다. '본다는 것은 무엇일까?' ... 원자를 이루는 구성과 힘을 이야기하는 학문이 양자역학이다. ... 양자역학 -> 전자공학의 시대, 현대문명의 시작 ..... 2021. 7. 14.
[book] 나만의 유전자 ... 항체를 코딩하는 유전자는 몇 개의 조각으로 구성되며, 이 조각들이 무수한 방법으로 재배열된다. 또한 유전자 배열은 항체를 생성하는 세포에서만 일어난다. ... 골수(Bone marrow)에서 발달한 형질세포를 B-세포라고 한다. ... 면역세포는 발달과정에서 Thymus 를 통과하며, 이때 자기 조직에 반응하는 세포가 thymus에 걸러지고, 자기 조직에 반응하지 않는 면역세포만 남게 된다. ... 혈역형 : 적혈구 표면에 존재하는 당분자. ... 혈청 : 세포나 응고 인자들을 포함하지 않는 액체 부분. ... Class I A (1243), B (1737), C (884) ... 장기이식 : Class I A, B and Class II DR ... 골수이식 : Class I A, B, C an.. 2021. 7. 5.
Regression error - Mean Absolute Error, np.mean(np.abs((y_true - y_pred))), is related to Least Absolute Deviations or L1-norm. - Mean Squared Error, np.mean(np.square((y_true - y_pred))). - Root Mean Squared Error, np.sqrt(MSE(y_true, y_pred)), is called as Euclidean norm or L2-norm. - Mean Absolute Percentage Error, np.mean(np.abs((y_true - y_pred) / y_true)) * 100. - Mean Percentage Error, np.mean((y_true - y.. 2021. 7. 4.
Proteomics Proteomics : With approximately 10 billion protein molecules, one single ceel has an interactive network that is as complex as that of all humans currently living on planet earth. These protein networks determine the health of a cell and thereby the health of the entire organism they are apart of. So it is to understand that the study of these proteins in their relationships is crucial. This stu.. 2021. 7. 4.
Thymus Thymus, 가슴생, 흉선 : 가슴뼈 뒤쪽에 위치한 면역계의 특별한 기관이자 척추동물의 내분비샘 가운데 하나이다. 면역계에서 중추 림프구를 담당하고 있는 기관이다. 흉선 내에서 T세포가 성숙한다. T세포는 신체가 외부 병원체에 후천 면역을 하는데 중요한 역할을 한다. 흉선은 사춘기에 가장 커졌다가 성인이 되면서부터 점차 퇴화한다. Reference - https://ko.wikipedia.org/wiki/가슴샘 - Overview of the Thymus Gland, https://www.thoughtco.com/thymus-anatomy-373250 2021. 7. 2.
Histocompatibility: HLA and other systems https://basicmedicalkey.com/histocompatibility-hla-and-other-systems/ Histocompatibility: HLA and other systems CHAPTER 39 Histocompatibility HLA and other systems PE. Posch, CK. Hurley Chapter contents INTRODUCTION 641 THE HUMAN MAJOR HISTOCOMPATIBILITY COMPLEX 642 History 642 Genomic organization 642 THE H… basicmedicalkey.com 2021. 7. 2.
sklearn - template import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.model_selection import KFold from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, log_loss from sklearn.metrics import accuracy_score, roc_curve, auc, r2_score from sklearn.metrics import classification_report, confusion_matrix from sklearn.preprocessin.. 2021. 7. 1.
Rare disease - Reference data : ClinVar https://www.ncbi.nlm.nih.gov/clinvar/ - Guideline : 2015 Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology, https://www.nature.com/articles/gim201530 : 2021 Exome and genome sequencing for pediatric patients with cong.. 2021. 6. 25.