본문 바로가기

drug16

ZINC database ZINC database - ZINC20 : https://zinc20.docking.org/ - ZINC15 : https://zinc.docking.org/ - Papers : ZINC: A Free Tool to Discover Chemistry for Biology (2005), https://doi.org/10.1021/ci3001277 : ZINC 15 – Ligand Discovery for Everyone (2015), https://doi.org/10.1021/acs.jcim.5b00559 : ZINC20—A Free Ultralarge-Scale Chemical Database for Ligand Discovery (2020), https://doi.org/10.1021/acs.jcim.. 2022. 1. 10.
Molecule design using Deep generative models 강화학습 - 시나리오 1 : 분자생성 (agent) -> 물성개성 -> reward (environment) -> 동일한 상황에서 agent는 같은 분자를 만들어낼 확률이 높아짐. - 시나리오 2 : 분자생성 (agent) -> 물성 악화 -> penalty (environment) -> 동일한 상황에서 agent는 같은 분자를 만들어낼 확률이 낮아짐. - Deep reinforcement learning for de novo drug design, https://doi.org/10.1126/sciadv.aap7885 > Tanh activation 값을 통해서 해석 가능성을 보여줌. (chemically sensible groups, syntactic groups) 화학반응기반 분자 생성 모델 - 분자.. 2022. 1. 4.
Molecule design using Graph model 2 골격기반 분자 그래프 생성모델 (scaffold-based molecular generative model) - 여러 물성을 만족하는 분자를 만들기위해 기본 골격을 유지하면서 분자를 추가하고 분석하여 생성. 3D linker design model - DeLinker : 2개 fragment의 3차원 배양을 고려하여 최적의 liner를 디자인하는 모델 - Deep Generative Models for 3D Linker Design, https://doi.org/10.1021/acs.jcim.9b01120 - https://github.com/oxpig/DeLinker - 기존의 데이터베이스 기반 방법들보다 실제와 유사한 분자들을 생성함. - Docking 계산시 더 안정한 구조들이 만들어짐. - 실험으.. 2022. 1. 4.
Molecule design using Graph model 1 Graph vs. SMILES - SMILES : 유사한 분자가 매우 다른 smiles로 표현됨. (학습에 어려움이 가중됨) - Graph가 smiles보다 분자를 표현할 수 있어 보다 자연스러운 representation. 분자 그래프 - 원자 -> node, 공유결합 -> edge - 원자와 공유결합 정보를 node와 edge에 vector로 표현. - 모델 학습에 필요한 다양한 정보를 표현 가능. 순차적 분자그래프 생성모델 - Fixed order 또는 random order 로 분자생성. 경험적으로 차이없음. Fragment based molecule generation using Language Model - 사람의 관점에서 분자는 substructure의 집합. - 원자보다는 작용기 (frag.. 2022. 1. 4.
Molecule design using SMILES Language model using SMILES - Validity by using RDKit - Uniqueness - Novelty, not included in training set Pros - 구현이 쉬움. (library가 잘 구축되어 있음) - 학습이 쉬움. Cons - Latent space 분석이 불가능. (laternt vector modification이 안됨) (Conditional) Variational autoencoder Pros - 구현하기가 상대적으로 수월함. - 난이도 대비 상대적으로 우수한 결과를 보여줌. - Latent space analysis (or optimization)가 가능. Cons - Prior assumption이 큰 restriction으로 작용함... 2022. 1. 4.
[paper] Identification of SARS-CoV-2–induced pathways reveals drug repurposing strategies Identification of SARS-CoV-2–induced pathways reveals drug repurposing strategies (2021) - Science Advances, https://doi.org/10.1126/sciadv.abh3032 - bioRxiv, https://doi.org/10.1101/2020.08.24.265496 - Presentation : https://youtu.be/dqyzbC5ZSZA (Korean) - Presentation : https://youtu.be/SE3dGRKp5s0 (English) - Github : https://github.com/wchwang/Method_Pancorona Method SARS-CoV-2 와 직접적으로 관련있는 .. 2021. 12. 14.
[DRUG] Reference - From machine learning to deep learning: Advances in scoring functions for protein–ligand docking, 2019, https://doi.org/10.1002/wcms.1429 - Deep Learning for Drug Design: an Artificial Intelligence Paradigm for Drug Discovery in the Big Data Era, 2018, https://doi.org/10.1208/s12248-018-0210-0 - 2021. 12. 13.
Virtual screening 8 - Physics-informed GCN Data bias로 인해 generalization이 어렵고, 많은 양의 data set을 모으는게 불가능하다. 이런 상황에서 모델의 성능을 높이는 방법이 필요. Model capacity (# parameters) - Optimal capacity : Control hidden layers : Gives some constaints, e.g., use kernel - A choice of model specifies which family of functions the learning algorithm can choose -> representational capacity of the model. Inductive bias = weight sharing = regularization - Weight s.. 2021. 12. 13.
Virtual screening 7 - Generalization Generalization - Making the training error small $$ 1/m^{train} ||X^{train}ω - y^{train}||^2 $$ - Make the gap between training and test error small $$ 1/m^{test} ||X^{test}ω - y^{test}||^2 $$ - Underfitting occurs when the model is not able to obtain a sufficiently low error value on the training set. - Overfitting occurs when the gap between the training error and test error is too large. - Th.. 2021. 12. 12.
Virtual screening 6 - Hybrid Autoencoder - Dimensionality reduction : input data의 dimension을 줄이기 위해 사용. - 그 과정을 encoding 이라고 함. - Dimensional reduction을 통해 핵심 feature를 잘 학습했는지 확인하기 위한 방법은, 원래의 data를 reconstruction할 수 있어야 함. Classification with separate graphs GCN with autoencoder for virtual screening - Graph Convolutional Neural Networks for Predicting Drug-Target Interactions, https://doi.org/10.1021/acs.jcim.9b00628 - Li.. 2021. 12. 12.
Virtual screening 5 - GCN Graph Convolutional Networks - 비정형화된 구조에 사용가능. System - Structure : Representation, Computation. - Entity : element, size, mass, ... - Relation : property btw entities. - Rule : relational inductive biases, structure를 바탕으로 DL 설계. Graph representation $$ Graph = G(X,A) $$ X : Node, Vertex - Atoms in a molecule A : Adjacency matrix - Edges of a graph - Connectivity, relationship Molecular graphs X.. 2021. 12. 12.
Virtual screening 4 - 3D CNN Deep Neural Network (fully connected) - Large number of parameters -> easy to be overfitted when data is small. or large memory consumption (GPU) - Does not enforce any structure, e.g., local information (local feature를 찾아내는게 어렵다.) Convolution Neural Network (weight sharing and convolving) - Reduce the number of parameters (less overfitting) 3D CNN for virtual screening - Grid representation - B.. 2021. 12. 12.
Virtual screening 3 - Data sets Data formats - FASTA : sequence similarity calculation. - Structure Data File (SDF) includes 3D atomic coordinates, atom connectivity, molecular weight, logP, etc. - mol2 : comment, info, elements, coordinate, bond - Protein Data Bank (PDB) : element, amino acid, chain name, sequence number, coordinates - docking. Database DUD-E : http://dude.docking.org/, Virtual screening, Classification - Dir.. 2021. 12. 11.
Virtual screening 1 - Intro Protein-Ligand interaction 예측이 중요. - Assumptions : Rigid protein structure, no explicit solvation, no explicit pH dependence, etc. : 가정하고 있는 한계를 고려하여 계산한다. - Step1. Structure preparation (protein, ligand) : target 단백질에 대한 3D 구조를 준비. PDB, X-ray analysis, homology modeling, folding prediction. - Step2. Ligand preparation. : conformer search, charging state, protonation of aicds, etc - Step3. Bindi.. 2021. 12. 10.
신약 개발 과정 약의 탄생이 궁금하지 않니? - 이경 교수 https://www.ibric.org/vod/vod_detail.php?nNum=15461&LURI=L3ZvZC92b2RfbWFnei5waHA/bk51bT0yMzM2 https://www.ksmcb.or.kr/file/bio_2016/lectures/cv09.pdf 1. 타겟 선정 (Target identification) : 특정 질환 치료제를 개발하기 위해 타겟 단백질 등을 정하는 일. 선행 연구결과와 전략 부합성을 종합적으로 판단하여 진행여부를 결정. 2. 타겟 검증 (Target validation) : 선정된 타겟을 제어하는 것과 목표하는 질환 치료와의 상관관계 및 인과관계를 검증하는 단계. 다양한 유전체 정보, 형질전환 동물의 정보 및 연구용 물질을.. 2021. 9. 28.
What is protein? What is a Protein? - https://youtu.be/qBRFIMcxZNM - https://youtu.be/wvTv8TqWC48 - Amino Acids – the Building Blocks of Proteins,https://www.technologynetworks.com/applied-sciences/articles/essential-amino-acids-chart-abbreviations-and-structure-324357 - https://www.youtube.com/user/RCSBProteinDataBank/videos 2021. 7. 14.