通过可解释的深度学习预测蛋白质-肽结合残基

Predicting protein-peptide binding residues via interpretable deep learning

期刊:Bioinformatics
Web服务链接:https://server.wei-group.net/PepBCL/
Github代码:https://github.com/Ruheng-W/PepBCL
原文链接:链接

摘要

背景: 识别蛋白质-肽结合残基对理解蛋白质功能机制和探索药物发现至关重要,虽然已经开发了几种计算方法,但是它们在特征设计上高度依赖第三方工具或信息,容易导致计算效率低,预测性能不理想。
结果:
a)、作者提出了一种名为PepBCL的方法,该方法是基于Bert的对比学习框架, 从蛋白质序列出发来预测蛋白质-结合肽残基。具体而言,作者介绍以一种用于蛋白质特征表示的预训练模型,此外,设计了一个新的对比学习模块,用于优化不平衡数据集下的绑定残基特征表示。
b)、作者证明了模型的优越性能,此外,作者发现通过与传统特征相互整合,模型性能进一步提升,这突出了基于深度学习的蛋白质语言模型的灵活性和适应性。有趣的是,作者证明了与其他蛋白配体结合残基相比,局部序列区域的肽结合残基具有更具体的序列模式,这可能提供了功能差异。

数据

数据集a:包含1279条蛋白质-肽复合物,其中16749个绑定位点和290943个非绑定位点。 随机选取10%的复合物作为独立测试集,剩余作为训练集。其中,
独立测试集:125条蛋白质,1719个绑定位点,29151个非绑定位点。
训练集:1154条蛋白质,15030个绑定位点,261792个非绑定位点。

数据集b: 包含1279条蛋白质-肽复合物,其中16749个绑定位点,和290943个非绑定位点。为了训练,随机选取640条复合物用于训练,剩余部分用作独立测试。其中,
训练集:640条复合物,8259个绑定位点,和149103个非绑定位点。
独立测试集:剩余复合物,8490绑定位点,和141840非绑定位点。
![](https://img-blog.csdnimg.cn/61ac46bec2244b79ae54a450f86f5c82.png

方法

在这里插入图片描述
模型流程:序列首先进序列编码模块进行向量表征,紧接着通过Bert嵌入到高维,最后使用三层全连接层,使得预测输出。

序列编码模块:首先将氨基酸进行数值化处理,对于罕见的U,Z,O,B将统一替换成X。 在这部分,并没有将蛋白质序列进行填充,也就是序列长度并没有固定。其原因为,数据量不大,以及填充使得性能极度下降。然后通过查表方式嵌入至低维表示,这部分与Bert预训练模块联用,也就是说,嵌入模块的更新是和Bert预训练模型一块使用的,生成改进的初始嵌入。

Bert预训练模块
本篇文章中,作者使用ProtBert-BFD预训练模型,该模型是是在2021年在2.1亿条蛋白质序列上,使用MLM策略训练而得。

对比学习模块
在这里插入图片描述
在这里插入图片描述
模型总损失
总损失 = 样本交叉熵损失 + 对比损失
在这里插入图片描述

方法总结

a): 作者所提方法PepBCL是一种完全基于序列的预测方法,只使用蛋白质序列进行模型训练和预测。
b):引入了Bert
c): 引入了对比学习模块

实验板块

与现有方法对比

![](https://img-blog.csdnimg.cn/a8b5c247504b4d38b24eac8232bdecdd.png
在这里插入图片描述

对比使用对比学习模块的差异

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

案例分析

随机选取了两种蛋白质,通过作者的模型与PepBind模型进行预测对比。

在这里插入图片描述

PepBCL对其他配体结合残基的鉴别能力

在这里插入图片描述

基于Bert的特征与传统特征实验对比

使用随机森林,对比序列特征、进化信息特征和结构特征这些传统特征与基于Bert的特征性能对比。
在这里插入图片描述

Bert注意力可视化

在这里插入图片描述

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值