본문 바로가기

Drug18

ZINC database ZINC database - ZINC20 : https://zinc20.docking.org/ - ZINC15 : https://zinc.docking.org/ - Papers : ZINC: A Free Tool to Discover Chemistry for Biology (2005), https://doi.org/10.1021/ci3001277 : ZINC 15 – Ligand Discovery for Everyone (2015), https://doi.org/10.1021/acs.jcim.5b00559 : ZINC20—A Free Ultralarge-Scale Chemical Database for Ligand Discovery (2020), https://doi.org/10.1021/acs.jcim.. 2022. 1. 10.
Molecule design using Deep generative models 강화학습 - 시나리오 1 : 분자생성 (agent) -> 물성개성 -> reward (environment) -> 동일한 상황에서 agent는 같은 분자를 만들어낼 확률이 높아짐. - 시나리오 2 : 분자생성 (agent) -> 물성 악화 -> penalty (environment) -> 동일한 상황에서 agent는 같은 분자를 만들어낼 확률이 낮아짐. - Deep reinforcement learning for de novo drug design, https://doi.org/10.1126/sciadv.aap7885 > Tanh activation 값을 통해서 해석 가능성을 보여줌. (chemically sensible groups, syntactic groups) 화학반응기반 분자 생성 모델 - 분자.. 2022. 1. 4.
Molecule design using Graph model 2 골격기반 분자 그래프 생성모델 (scaffold-based molecular generative model) - 여러 물성을 만족하는 분자를 만들기위해 기본 골격을 유지하면서 분자를 추가하고 분석하여 생성. 3D linker design model - DeLinker : 2개 fragment의 3차원 배양을 고려하여 최적의 liner를 디자인하는 모델 - Deep Generative Models for 3D Linker Design, https://doi.org/10.1021/acs.jcim.9b01120 - https://github.com/oxpig/DeLinker - 기존의 데이터베이스 기반 방법들보다 실제와 유사한 분자들을 생성함. - Docking 계산시 더 안정한 구조들이 만들어짐. - 실험으.. 2022. 1. 4.
Molecule design using Graph model 1 Graph vs. SMILES - SMILES : 유사한 분자가 매우 다른 smiles로 표현됨. (학습에 어려움이 가중됨) - Graph가 smiles보다 분자를 표현할 수 있어 보다 자연스러운 representation. 분자 그래프 - 원자 -> node, 공유결합 -> edge - 원자와 공유결합 정보를 node와 edge에 vector로 표현. - 모델 학습에 필요한 다양한 정보를 표현 가능. 순차적 분자그래프 생성모델 - Fixed order 또는 random order 로 분자생성. 경험적으로 차이없음. Fragment based molecule generation using Language Model - 사람의 관점에서 분자는 substructure의 집합. - 원자보다는 작용기 (frag.. 2022. 1. 4.
Molecule design using SMILES Language model using SMILES - Validity by using RDKit - Uniqueness - Novelty, not included in training set Pros - 구현이 쉬움. (library가 잘 구축되어 있음) - 학습이 쉬움. Cons - Latent space 분석이 불가능. (laternt vector modification이 안됨) (Conditional) Variational autoencoder Pros - 구현하기가 상대적으로 수월함. - 난이도 대비 상대적으로 우수한 결과를 보여줌. - Latent space analysis (or optimization)가 가능. Cons - Prior assumption이 큰 restriction으로 작용함... 2022. 1. 4.
[Company] Standigm Standigm : https://www.standigm.com/main 2021 대한민국 바이오 투자 콘퍼런스 - 스탠다임, https://youtu.be/VmF7a7ROBOE Standigm pipeline ASK process - 질병과 타겟의 알려진 지식정도 : NLP 기술로 논문 수집. - 관심 유전자 포함여부. - 생물학적 경로 분석 : Biological pathway - gene 의 관계를 weight 로 부여 - 환자 특이적 발현도 - 조직 특이적 발현도 - 경쟁 상황 : 임상단계 집입된 타겟 제외. BEST process - DB - Hit ID : 결합력 예측 - Hit to lead : novel scaffold - Lead optimization : Moiety 기반 부분 구조변경.. 2021. 12. 30.
[DRUG] Reference - From machine learning to deep learning: Advances in scoring functions for protein–ligand docking, 2019, https://doi.org/10.1002/wcms.1429 - Deep Learning for Drug Design: an Artificial Intelligence Paradigm for Drug Discovery in the Big Data Era, 2018, https://doi.org/10.1208/s12248-018-0210-0 - 2021. 12. 13.
Open target platform The Open Targets Platform The Open Targets Platform integrates over 20 different public data sources, and uses this data to systematically build and score associations between drug targets and diseases. Users investigating particular associations can rapidly sift through all the available evidence from genetic associations, somatic mutations, pathways and systems biology, RNA expression, animal .. 2021. 12. 13.
Virtual screening 8 - Physics-informed GCN Data bias로 인해 generalization이 어렵고, 많은 양의 data set을 모으는게 불가능하다. 이런 상황에서 모델의 성능을 높이는 방법이 필요. Model capacity (# parameters) - Optimal capacity : Control hidden layers : Gives some constaints, e.g., use kernel - A choice of model specifies which family of functions the learning algorithm can choose -> representational capacity of the model. Inductive bias = weight sharing = regularization - Weight s.. 2021. 12. 13.
Virtual screening 7 - Generalization Generalization - Making the training error small $$ 1/m^{train} ||X^{train}ω - y^{train}||^2 $$ - Make the gap between training and test error small $$ 1/m^{test} ||X^{test}ω - y^{test}||^2 $$ - Underfitting occurs when the model is not able to obtain a sufficiently low error value on the training set. - Overfitting occurs when the gap between the training error and test error is too large. - Th.. 2021. 12. 12.
Virtual screening 6 - Hybrid Autoencoder - Dimensionality reduction : input data의 dimension을 줄이기 위해 사용. - 그 과정을 encoding 이라고 함. - Dimensional reduction을 통해 핵심 feature를 잘 학습했는지 확인하기 위한 방법은, 원래의 data를 reconstruction할 수 있어야 함. Classification with separate graphs GCN with autoencoder for virtual screening - Graph Convolutional Neural Networks for Predicting Drug-Target Interactions, https://doi.org/10.1021/acs.jcim.9b00628 - Li.. 2021. 12. 12.
Virtual screening 5 - GCN Graph Convolutional Networks - 비정형화된 구조에 사용가능. System - Structure : Representation, Computation. - Entity : element, size, mass, ... - Relation : property btw entities. - Rule : relational inductive biases, structure를 바탕으로 DL 설계. Graph representation $$ Graph = G(X,A) $$ X : Node, Vertex - Atoms in a molecule A : Adjacency matrix - Edges of a graph - Connectivity, relationship Molecular graphs X.. 2021. 12. 12.
Virtual screening 4 - 3D CNN Deep Neural Network (fully connected) - Large number of parameters -> easy to be overfitted when data is small. or large memory consumption (GPU) - Does not enforce any structure, e.g., local information (local feature를 찾아내는게 어렵다.) Convolution Neural Network (weight sharing and convolving) - Reduce the number of parameters (less overfitting) 3D CNN for virtual screening - Grid representation - B.. 2021. 12. 12.
Virtual screening 3 - Data sets Data formats - FASTA : sequence similarity calculation. - Structure Data File (SDF) includes 3D atomic coordinates, atom connectivity, molecular weight, logP, etc. - mol2 : comment, info, elements, coordinate, bond - Protein Data Bank (PDB) : element, amino acid, chain name, sequence number, coordinates - docking. Database DUD-E : http://dude.docking.org/, Virtual screening, Classification - Dir.. 2021. 12. 11.
Virtual screening 2 - AI Molecular structure-property relationship by supervised learning - Input : Structure or protein (X) - Method : Convention, $$ Y = f(X) $$ where f = Schrodinger equation or Hamiltonian : Modern, feature extraction (L), $$ Y = f_θ(X)$$ where f = AI or machine learning (DNN, CNN, RNN, GNN, etc), θ = a set of learnable parameters - Output data : Property (Y), biding affinity. Modeling (θ) = Maximum .. 2021. 12. 11.
Virtual screening 1 - Intro Protein-Ligand interaction 예측이 중요. - Assumptions : Rigid protein structure, no explicit solvation, no explicit pH dependence, etc. : 가정하고 있는 한계를 고려하여 계산한다. - Step1. Structure preparation (protein, ligand) : target 단백질에 대한 3D 구조를 준비. PDB, X-ray analysis, homology modeling, folding prediction. - Step2. Ligand preparation. : conformer search, charging state, protonation of aicds, etc - Step3. Bindi.. 2021. 12. 10.
Molecular dynamics software Molecular dynamics software https://en.wikipedia.org/wiki/Category:Molecular_dynamics_software 2021. 9. 29.
신약 개발 과정 약의 탄생이 궁금하지 않니? - 이경 교수 https://www.ibric.org/vod/vod_detail.php?nNum=15461&LURI=L3ZvZC92b2RfbWFnei5waHA/bk51bT0yMzM2 https://www.ksmcb.or.kr/file/bio_2016/lectures/cv09.pdf 1. 타겟 선정 (Target identification) : 특정 질환 치료제를 개발하기 위해 타겟 단백질 등을 정하는 일. 선행 연구결과와 전략 부합성을 종합적으로 판단하여 진행여부를 결정. 2. 타겟 검증 (Target validation) : 선정된 타겟을 제어하는 것과 목표하는 질환 치료와의 상관관계 및 인과관계를 검증하는 단계. 다양한 유전체 정보, 형질전환 동물의 정보 및 연구용 물질을.. 2021. 9. 28.