Paper再现:MD+AI自动编码机探测蛋白变构(一):文章分析

需要具备的背景知识:
(1) 蛋白质结构文件读取
(2) Pytorch
(3) 自动编码机
(4) sklearn聚类

本文是模仿文章:Autoencoder-Based Detection of Dynamic Allostery Triggered by Ligand Binding Based on Molecular Dynamics的工作。作者是Yasushige Yonezawa。
在这里插入图片描述

一、文章分析

Yasushige Yonezawa提出使用自动编码机对MD 的结果进行分析,找出蛋白变构的方法。该方法通过自动编码机计算holo和apo蛋白在动力学模拟过程中残基对的距离矩阵扰动,根据残基对的扰动模式对残基对进行聚类,生成残基簇,最终找出残基簇中lead残基。
首先,分析一下该模型的构建过程。该模型的构建过程可以分为以下几步:

  1. 数据集的产生:MD Simulations of the PDZ2 Domain in Ligand Bound and -Unbound Forms. 分别对PDZ蛋白Ligand Bound和Unbound的两个结构分别进行分子动力学模拟两次,生成的数据集分别为opo1, opo2 和holo1, holo2,一共有四个数据集。MD模拟时长为200ns。待MD体系稳定以后,只取50~200ns,每隔0.1 ns怕一个快照(蛋白结构),所以一共有1500个蛋白结构文件(PDB文件)。所以每一个数据集都由1500个PDB文件组成。

  2. 计算蛋白中残基对在MD中的距离扰动:为蛋白中每两两残基在某一个快照中计算距离,因此,在opo1, opo2 和holo1, holo2任意一个数据集中,任一残基对是一个1500维的向量表示。这些向量将作为自动编码机的输入。
    在这里插入图片描述

  3. 多层金字塔形自动编码器:构建如下图的自动编码机。分别使用opo1, opo2训练两个模型。80%的残基对数据作为训练集,20%的残基对作为测试集。Batch_side=100, 训练次数为30000次,使用早期停止法。在这里插入图片描述

  4. 计算DIO: DIO(vector of the difference)是将holo数据集中的残基对数据矢量输入opo训练出来的模型,然后获得输出和输入之间的差别,这些差别就是DIO,分别编号为:opo1-holo1,opo2-holo1,opo2-holo1, opo2-holo2。DIO实际上代表的是Ligand对蛋白结构的影响。Opo数据集训练出来的模型学习的是opo蛋白结构在分子动力学模拟中的运动模式,但是holo经过该模型,其输出是按照opo模型的运动模式,之间的差距显然就是Ligand导致的。这些差距(DIO)就是找出Lead 残基的关键所在。
    在这里插入图片描述

  5. 对残基对进行聚类,找出Lead残基:利用DIO进行层次聚类,文章中是分为7类。找出每一类中出现比例大于80%的残基,那么这些残基就是残基簇中的Lead残基。也就是在变构过程中处于重要地位的残基。下图为残基对聚类的结果。
    在这里插入图片描述

二、文章复现

接下来就是复现这一片paper。但是由于我们没有PDZ这个蛋白,更没有PDZ蛋白的MD数据集结果。为了简便起见,这里直接使用了以前项目中的某个蛋白的MD结果作为数据集,当然,MD也没有opo做了两次,holo做了两次,只分别做了一次。也由于MD过程中,发生了一些小问题,导致数据集有一些问题,所以不一定能做出文献中的结果。这里仅仅是方法学上的实现,至于最终结果。。。

Paper的复现过程分为几步走:

2.1 数据的预处理

2.2 训练自编码模型

2.3 DIO的生成和聚类

2.4 Lead残基的提取与结果的可视化

接下来,将逐步实现该模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIDrug 测测深不可测

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值