基于生成扩散模型的分子对接程序-DiffDock安装及使用-编程知识

欢迎浏览我的CSND博客！ Blockbuater_drug …点击进入

前言

分子对接是采用计算模拟的方式，预测受体与配体之间的结合模式，即Pose，以便于后续的Pose评估（打分）。传统对接基于构象搜索，深度学习将分子对接抽象为回归问题，但都没有很好的解决对接准确性问题。
DiffDock来自MIT CSAIL的Regina教授和Tommi教授课题组的工作，他们将分子对接视为一种生成任务，并采用了时下在图像生成等领域相当热门的生成扩散模型（DGM）。
已有的测试显示：DiffDock在已知的对接任务中取得了38%的成功率，对比最先进的深度学习模型（20%）和基于搜索的方法（23%）成功率有较大提升，同时速度也有3-12倍提升。对于被折叠的复合物结构，此前各种方法最大仅达到10.4%的对接成功率，而DiffDock仍达到了21.7%的成功率水平。

本文介绍DiffDock在Linux Ubuntu系统的安装及使用。

一、DiffDock是什么？

在这里插入图片描述

论文来源：DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking，arxiv.org/abs/2210.01776
代码来源：https://github.com/gcorso/DiffDock

DiffDock的工作流程：将单独的配体和蛋白质结构作为输入，通过平移、旋转和扭转自由度上的反向扩散，对随机采样的初始姿态进行降噪，正确的通过置信度模型对采样的Pose进行排序，以产生最终预测和置信度得分。

DiffDock的主要特点：

将分子对接任务定义为一个生成问题，并强调了以前深度学习方法的问题。
在配体姿态上建立了一个新的扩散过程，该过程对应于分子对接所涉及的自由度。
在PDBBind对接基准上实现了最优的Top1 准确率(RMSD＜2A)达到38%，远超此前的最佳搜索算法（23%）和深度学习方法（~20%）。
使用ESMFold生成近似的蛋白质apo结构，Top1 准确率(RMSD＜2A)达到28%，几乎是最准确基线的准确性的3倍。

与传统对接方法及其他机器学习分子对接方法相比，在PDB共晶结构redock及无监督语言模型预测apo蛋白结构上实现准确度的SOTA：在这里插入图片描述 Diffdock在PDB共晶结构与ESMFold预测结构上对接，与gnina的比较：
（RMSD<1.5A时，正确率优于gnina的表现；在ESMFold预测结构上整体优势更加明显。）

在实际场景中（未见受体），DiffDock优势明显，计算效率更高：
在这里插入图片描述对于apo受体的柔性侧链对接，DiffDock整体最优：

二、DiffDock安装步骤

1. 下载

不建议使用environment.yml直接创建diffdock环境，后续的ESM安装会导致torch_geometric不可用，出现Segmentation fault (core dumped)。可以参考environment.yml安装包的数量和名称。

git clone https://kkgithub.com/gcorso/DiffDock.git

2.创建conda环境并安装

由conda创建虚拟环境并安装必要的包，最后配置ESM及pyg相关包。

STEP 1. 创建conda环境并配置

conda create -n diffdock_env python=3.9
conda activate diffdock_env
conda install pytorch==1.11.0 pytorch-cuda=11.7 -c pytorch -c nvidia
conda install pyarrow joblib

STEP 2. 配置ESM和OpenFold

python -m pip install PyYAML scipy "networkx[default]" biopython rdkit-pypi e3nn spyrmsd pandas biopandas
pip install "fair-esm[esmfold]"
pip install 'dllogger @ git+https://github.com/NVIDIA/dllogger.git'
pip install 'openfold @ git+https://github.com/aqlaboratory/openfold.git'

STEP 3. 检查cuda和pytorch geometric安装

输入以下，查看torch安装版本版本：

python -c "import torch; print(torch.__version__)"

输出：

1.13.1+cu117

输入以下，查看cuda安装版本版本：

python -c "import torch; print(torch.version.cuda)"

输出：

11.7

通过pyg 官网安装pytorch geometric及附件，torch-1.13.1+cu117.html部分需要与上面输出一致：

pip install  pyg_lib \torch_scatter==2.0.9 \torch_sparse==0.6.15 \torch_cluster==1.6.0 \torch_spline_conv==1.2.2 \torch_geometric==2.0.4 -f https://data.pyg.org/whl/torch-1.13.1+cu117.html

STEP 4. 检查pytorch geometric library

保证torch_geometric能正常工作，检查安装：

python -c "from torch_geometric.loader import DataLoader"

如果没有返回信息，即成功。

三、 DiffDock使用

1. 单一配体+单一受体的复合物对接

简单分子对接，DiffDock支持多种输入方式，用 --protein_path定义受体pdb结构或者 --protein_sequence定义字符串作为受体序列，用 --ligand 定义配体sdf文件或者smile名称。
运行实例如下：

cd Diffdock
python -m inference \--protein_path data/1a0q/1a0q_protein_processed.pdb \--ligand "COc(cc1)ccc1C#N" \--out_dir results/user_predictions_small_pdb-smi \--inference_steps 20 \--samples_per_complex 40 \--batch_size 10 \--actual_steps 18 \--no_final_step_noise

结果保存在–out_dir指定的位置。

python -m inference \--protein_path data/1a0q/1a0q_protein_processed.pdb \--ligand data/1a0q/1a0q_ligand.sdf \--out_dir results/user_predictions_small_pdb-sdf \--inference_steps 20 \--samples_per_complex 40 \--batch_size 10 \--actual_steps 18 \--no_final_step_noise

结果保存在–out_dir指定的位置。

2. 多个配体+多个受体对接

需要由--protein_ligand_csv定义一个csv文件，按格式注明配体，受体的名称或者对应文件路径，示例文件位于data/protein_ligand_example_csv.csv，如下：
在这里插入图片描述

complex_name：用于保存预测的名称，可以留空
protein_path：.pdb文件的路径，如果为空则使用sequence
ligand_description：SMILE或文件路径
protein_sequence：如果protein_path为空，则使用ESMFold

运行命令如下：

python -m inference \--protein_ligand_csv data/protein_ligand_example_csv.csv \--out_dir results/user_predictions_small \--inference_steps 20 \--samples_per_complex 40 \--batch_size 10 \--actual_steps 18 \--no_final_step_noise

3. 查看对接Pose

pymol results/user_predictions_small/complex_0/rank1.sdf \data/1a0q/1a0q_protein_processed.pdb

在这里插入图片描述

4. 重新训练模型

对于受体结构已知的分子对接，可以直接使用Diffdock已训练好的模型参数。
如果有需要，可以使用Diffdock提供的工具重新训练模型，需要安装esm获得ESM2 embeddings，然后获得model weights，再训练score model 和confidence model，用于结构推理。
这部分可参阅README文件，此处不再描述。