본문 바로가기

Tools43

github 명령어 사용 - LINUX에서 github와 연동하여 작업을 진행할때 필요한 명령어 git config --global user.name "username" git config --global user.email user@gmail.com git init # git 저장하거나 수정하는 폴더 지정. git remote add origin URL # Repository 등록 git remote -v # 연동 확인 git clone URL git pull origin # 현재 코드에 저장소 최신 파일들 merge git fetch origin # 저장소 파일들 가져오기 git add . or git add -A # 변경내용 저장 git commit -m "name of commit" # 변경내용 묶기 git commit .. 2023. 11. 13.
Python 3.11 Python 3.11 is 1.25 times faster than Python 3.10. https://www.python.org/downloads/release/python-3110/ sudo add-apt-repository ppa:deadsnakes/ppa sudo apt update sudo apt install python3.11 sudo update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.10 110 sudo update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.11 100 sudo update-alternatives --config pyth.. 2022. 11. 11.
PDF dark mode Sumatrapdf dark mode - https://www.sumatrapdfreader.org/download-free-pdf-viewer - https://www.sumatrapdfreader.org/dl/rel/SumatraPDF-3.3.3-64-install.exe Setting - Advanced Options MainWindowBackground = #000000 EscToExit = false ReuseInstance = false UseSysColors = false RestoreSession = true FixedPageUI [ TextColor = #eeeeee 2022. 4. 11.
PBS - Workload manager 작업 보내기 $ qsub job_script ${PBS_O_WORKDIR}/${PBS_JOBNAME}.${PBS_JOBID} https://docs.oracle.com/cd/E19957-01/820-0699/i999036/index.html 더보기 HOME – Home directory on execution machine USER – User ID of job owner JOB_ID – Current job ID JOB_NAME – Current job name; see the -N option HOSTNAME – Name of the execution host TASK_ID – Array job task index number SYNOPSIS qsub [-a date_time] [-A account_.. 2022. 3. 13.
Methylcheck - https://life-epigenetics-methylcheck.readthedocs-hosted.com/en/latest/ - https://github.com/FoxoTech/methylcheck Before quality control 2022.01.19 - [Tools] - Methylprep 2022. 1. 20.
Methylprep Methylation 분석을 위한 data preprocessing에 유용한 툴이다. - https://life-epigenetics-methylprep.readthedocs-hosted.com/en/latest/ - https://life-epigenetics-methylprep.readthedocs-hosted.com/en/latest/_modules/index.html - https://github.com/FoxoTech/methylprep - https://github.com/FoxoTech/methylprep/blob/master/docs/general_walkthrough.md - https://github.com/FoxoTech/methylprep/blob/master/docs/special.. 2022. 1. 19.
ngrok - local PC에 접속하기 Local PC에서 작업한 내용을 외부에서 확인하거나 시연을 해야할 상황이 있을 경우, IP가 외부접속이 불가능할 경우 이것을 우회하여 접속하는 방법을 소개한다. - Homepage : https://ngrok.com/ - Download : https://ngrok.com/download - Tokenkey : https://dashboard.ngrok.com/get-started/your-authtoken - 세션상태확인 : http://127.0.0.1:4040 $ curl -s https://ngrok-agent.s3.amazonaws.com/ngrok.asc | sudo tee /etc/apt/trusted.gpg.d/ngrok.asc >/dev/null && echo "deb https://n.. 2021. 12. 27.
Combine files 여러개의 파일을 하나로 합치고 싶을 때 사용하는 방법이다. import pandas as pd import pickle as pk import gzip import glob flist = sorted(glob.glob('*.tsv')) with gzip.open('data.db','wb') as f: for fname in flist: df = pd.read_table(fname) pk.dump(df,f) with gzip.open('data.db','rb') as f: for _ in range(len(flist)): df = pk.load(f) print(df) 2021. 12. 3.
Heroku - App publication Streamlit 으로 만든 서비스를 web으로 publish 하기 위한 방법을 소개한다. 준비해야할 파일들 (4) $ cat requirements.txt lifelines==0.26.4 matplotlib==3.4.3 numpy==1.20.0 pandas==1.3.4 scikit_learn==1.0.1 seaborn==0.11.2 streamlit==1.2.0 $ cat setup.sh mkdir -p ~/.streamlit/ echo "\ [server]\n\ headless = true\n\ port = $PORT\n\ enableCORS = false\n\ \n\ " > ~/.streamlit/config.toml $ Procfile web: sh setup.sh && streamlit run .. 2021. 12. 2.
WEB-based analysis TIMER : A Web Server for Comprehensive Analysis of Tumor-Infiltrating Immune Cells > TIMER, https://doi.org/10.1158/0008-5472.CAN-17-0307 > TIMER2.0, https://doi.org/10.1093/nar/gkaa407 http://timer.cistrome.org/ http://timer.comp-genomics.org/ GEPIA : Gene Expression Profiling Interactive Analysis > GEPIA, https://doi.org/10.1093/nar/gkx247 > GEPIA2, https://doi.org/10.1093/nar/gkz430 > GEPIA20.. 2021. 11. 30.
Webpage with Streamlit Python에서 다루는 데이터의 정보를 web에서 볼 수 있게 해주는 Streamlit 이라는 편리한 툴이 있다. python과 연동하여 작업하므로 HTML을 몰라도 되고, 보여주고 싶은 결과에 대한 홈페이지를 만들기 쉽다. 단점은 여러개의 tab으로 이루어진 multi-page를 만드는게 어렵다는 것이다. $ pip install streamlit $ pip install streamlit-aggrid 더보기 import pandas as pd import numpy as np import streamlit as st import matplotlib.pyplot as plt import altair as alt # remove github icon st.markdown( """ """, unsafe_a.. 2021. 10. 28.
Marp - Markdown to PPT Github에서 문서를 작성하기위해 Markdown 문법을 사용하고 있다. 이를 확장한 Markdown 문법으로 PPT를 작성할 수 있는 Marp라는 툴이 있다. - Markdown Presentation Ecosystem : https://marp.app/ 가장 편하게 사용하는 방법은 VS code에서 extension으로 설치하는 것이다. - VS Code : https://code.visualstudio.com/download - Marp for VS Code : https://marketplace.visualstudio.com/items?itemName=marp-team.marp-vscode 출력할 수 있는 형식은 { PDF, PPT, HTML, PNG, JPEG } 가 있다. 아래는 templa.. 2021. 10. 13.
GSEA GSEA ( Gene Set Enrichment Analysis ) : 오믹스 데이터 분석을 통해서 최종적인 gene set을 찾게 되었을 때, 이것들의 pathway는 어디에서 많이 보이는지 찾아주는 라이브러리이다. - Homepage : https://www.gsea-msigdb.org/gsea/index.jsp - Pape : https://doi.org/10.1073/pnas.0506580102 - Github : https://github.com/zqfang/GSEApy - Tutorial : https://gseapy.readthedocs.io/en/latest/introduction.html $ pip install gseapy - Gene set library : https://maayan.. 2021. 10. 1.
SCSA - scRNA-seq Annotation SCSA: cell type annotation for single-cell RNA-seq data - Paper : https://www.frontiersin.org/articles/10.3389/fgene.2020.00490/full - Github : https://github.com/bioinfo-ibms-pumc/SCSA 더보기 DB format : two-column data table, [ 'cell-type', 'marker-gene'] from CellMarker Cell marker Cell type Tissue HUMAN 11464 456 158 MOUSE 7855 385 80 and CancerSEA, https://github.com/camlab-bioml/cancersea : 1.. 2021. 9. 1.
Single Cell analysis tools 1. Scanpy [ python ] - Github : https://github.com/theislab/scanpy - Paper : https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1382-0 - Tutorial : https://scanpy.readthedocs.io/en/stable/tutorials.html : https://training.galaxyproject.org/training-material/topics/transcriptomics/tutorials/scrna-scanpy-pbmc3k/tutorial.html # https://docs.conda.io/en/latest/miniconda.html cd DOWN.. 2021. 8. 13.
Clustering - Fuzzy 2021. 6. 18.
VCF reheader VCF header에 contig 정보가 빠져있으면 VCF 프로그램에서 처리되지 않는다. 따라서 항상 넣어주어야 한다. 아래 코드는 VCF의 contig를 생성해 주고, sample 정보를 제외한 header와 contig를 결합하고, 다시 sample 정보를 결합하여 이상이 없는 VCF를 만들어 준다. #!/bin/bash cat vfile.lst|while read line;do awk '!/^#/ { a[$1]++ } END {for (i in a) print i,a[i]}' ${line}|sort -V|awk '{print "##contig="}' > ${line}.contig.tmp;done cat vfile.lst|while read line;do bcftools view -h ${line} .. 2021. 6. 17.
Clustering 데이터 자체의 값들만으로 분류가 필요한 경우가 있다. 예를 들면, 한 사람이 아픈 증상이 있어서 병원을 찾았다. 의사는 진단해보고 이 사람이 환자라고 판단했다. 하지만 그 사람이 가진 유전체 분석을 해보니 이 사람은 정상인이었다. 이러한 경우 의사가 판단한 phenotype에 의존하지 않고 데이터만으로 분석을 진행해야 할 경우가 생긴다. Unsupervised learning이라고 하며, t-SNE, PCA, UMAP이 있다. 추가로 point 사이의 거리에 따라 cluster해주는 k-means clustering과 Spectral clustring도 진행해 보았다. 위 그래프에서 phenotype과 data driven clustering의 결과는 상당히 다르게 보인다. 이때는 QC를 통해 featu.. 2021. 6. 9.
XGBR Extreme Gradient Boosting Regression https://xgboost.readthedocs.io/en/latest/tutorials/model.html model = xgboost.XGBRegressor(tree_method='gpu_hist', gpu_id=0) model.fit(X_train, y_train) shap_values = shap.TreeExplainer(model).shap_values(X_test) shap_values = shap.Explainer(model, X_train)(X_test) or ----------------------------- n_trees = 200 dmat = xgboost.DMatrix(X_train, y_train) model =.. 2021. 6. 7.
SHAP - impact 보호되어 있는 글 입니다. 2021. 6. 6.
Excel to tsv 엑셀파일을 tab으로 분리된 형태의 파일을 사용할 일이 있어서 변환해주는 프로그램을 만들었다. Pandas의 엑셀 불러오는 기능을 이용한 간단한 형태이다. xlsx2tsv.py #!/usr/bin/env python3 import pandas as pd import sys try: fname=sys.argv[1] oname=sys.argv[2] except: print('$ xlsx2tsv.py [ xlsx file name ] [ new file name with an extension ]') exit() df = pd.DataFrame(pd.read_excel(fname, engine='openpyxl')) df.to_csv(oname,sep='\t',index=None) print(df) print.. 2021. 5. 19.
PyHLA form 보호되어 있는 글 입니다. 2021. 5. 13.
PyHLA Python for HLA analysis: summary, association analysis, zygosity test and interaction test. - Paper : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-017-1496-0 - Github : https://github.com/felixfan/PyHLA Installation $ pip install pandas numpy scipy statsmodels $ sudo apt-get install python-qt4 # for GUI $ git clone https://github.com/felixfan/PyHLA.git # PyHLA runs on pyth.. 2021. 5. 11.
PRSice-2 Polygenic Risk Scores analysis - Homepage : https://choishingwan.github.io/PRS-Tutorial/ - Basic : http://www.prsice.info/quick_start/ - Paper : https://academic.oup.com/gigascience/article/8/7/giz082/5532407 : https://doi.org/10.1038/s41596-020-0353-1 - Author : https://choishingwan.github.io/ - Github : https://github.com/choishingwan/PRSice Requirement - Base data (GWAS QCed summary statistic.. 2021. 5. 10.
Talos 보호되어 있는 글 입니다. 2021. 5. 7.
Nextflow for pipelines 보호되어 있는 글 입니다. 2021. 5. 5.
DRAGEN 보호되어 있는 글 입니다. 2021. 4. 22.
Mosdepth Bam file의 depth coverage 를 계산할 때 사용하는 프로그램이다. - Homepage : https://github.com/brentp/mosdepth - Execute file : https://github.com/brentp/mosdepth/releases $ wget https://github.com/brentp/mosdepth/releases/download/v0.3.1/mosdepth $ mosdepth -t 4 -b wes.bed output_name input_name output_name.mosdepth.global.dist.txt output_name.mosdepth.region.dist.txt output_name.mosdepth.summary.txt output_nam.. 2021. 3. 22.
CrossMap hg19 hg38 변환이 필요한 경우에 유용한 프로그램이다. - Homepage : http://crossmap.sourceforge.net/ - Github : https://github.com/liguowang/CrossMap $ pip3 install pyBigWig $ conda install pybigwig -c conda-forge -c bioconda # https://github.com/deeptools/pyBigWig $ pip3 install CrossMap 기본적인 사용방법 $ CrossMap.py bed $ CrossMap.py Program: CrossMap (v0.5.2) Description: CrossMap is a program to convert genome coordin.. 2021. 3. 20.
DeepVariant DeepVariant : Deep learning을 이용해서 variant calling 하는 프로그램이다. Blog : https://google.github.io/deepvariant Github : https://github.com/google/deepvariant Reference - Can We Learn the Language of Proteins, https://bair.berkeley.edu/blog/2019/11/04/proteins/, https://www.biorxiv.org/content/10.1101/676825v1, https://github.com/songlab-cal/tape 2021. 1. 18.