使用全原子图和SE(3)-等变图神经网络的原子蛋白结构细化（精化）-CSDN博客

本文链接：https://blog.csdn.net/weixin_44907817/article/details/133281879

题目	Atomic protein structure refinement using all-atom graph representations and SE(3)-equivariant graph transformer
作者/机构	Wu tianqi Chengjianlin/ 密苏里大学
期刊/年份	Bioinformatics/ 2023.4
状态	阅读中
DOI	https://doi.org/10.1093/bioinformatics/btad298
Github	https://github.com/BioinfoMachineLearning/ATOMRefine

摘要

先进的蛋白质结构预测方法被广泛的应用于预测生物医学研究中未表征的蛋白质结构，因此也迫切提高所预测结构的质量和原生性（更接近实际结构）来增强其可用性。
本文所提出的模型首先在AlphaFoldDB中已知的预测结构中进行训练和测试，然后在69个规则靶标和7个细化靶标进行盲测试。
ATOMRefine可以提高AlphaFold初始结构模型的主链原子和全原子构像的质量。
:::info
全原子模型质量评分——基于全原子接触、键长、原子碰撞、扭转角分析的 MolProbity 评分，和侧链旋转异构体
:::
该方法为通过直接坐标细化改善蛋白质几何形状和固定预测结构的结构误差提供了一种可行的、快速的解决方案。

Introduction

蛋白质参与细胞的大部分过程，从DNA复制到免疫反应。且蛋白质的功能与其三维结构密切相关，因此从序列中预测蛋白质结构一直是一个长期存在的挑战，AlphaFold的出现使这个领域的一大进步，但是AlphaFold依然存在一定的不足。

最近将AlphaFold2 预测人类蛋白质组的结构表明，58%的总残基的构象具有较高的准确性，预测置信度评分pLDDT>70，其余42%的总残基置信度评分pLDDT<70。

pLDDT是一个估计预测结构与基于主碳坐标的实验结构的一致性的指标。
pLDDT>90作为高准确度的分界点，pLDDT>70的较低临界值对应于一个普遍正确的骨架预测。

在一些基准研究中观察到AlphaFold模型质量与蛋白质数据库(PDB)中同源模板的可用性之间的强烈相关性，这表明AlphaFold模型的质量仍有改进的空间，特别是对于PDB中没有同源模板的蛋白质。
现有结构预测方法只关注正确预测蛋白质的骨干结构，而不强调提高预测结构的原生性和全原子的几何形状，为提高预测结构的全原子质量留下很大的空间。

现有方法：
典型的模型优化方法采用分子动力学模型（MD）、能量最小化或者片段组装来优化输入蛋白结构。

MD方法：是基于物理的方法，根据原子的相互作用的物理原理对多个MD轨迹进行采样，计算密集并且耗时。
能量最小化方法：专注于用复合物理和基于知识的力场重新包装主链和侧链原子。
基于片段装配的方法：与基于知识的方法类似，利用了PDB中的模板片段信息和统计潜力。

一个值得注意的方法是Rosetta 它使用预测估计的局部结构误差来通知片段组装，然后在全原子表示中进行侧链重建和能量最小化。
以往方法需要大量构象采样和消耗大量的计算资源。
深度学习方法：
GNNRefine使用图神经网络来细化蛋白质结构的主链原子。它在很大程度上依赖于Rosetta protocol来重建全原子模型。

Rosetta提供一个灵活的功能库来完成各种生物分子建模任务。这些库定义的基本任务和操作作为算法被组合在一起，称之为“Protocols”，每种Protocols都使用Rosetta的灵活分子建模库来完成特定的建模任务。

在RoseTTAFold的细化模块中，使用SE(3)等变图转换器来细化主链原子，而不直接使用机器学习来利用和改进蛋白质结构中的侧链原子。但是，它只生成一个包含主原子的精化模型，不能作为一个独立的工具来精化第三方模型。

Methods

ATOMRefine是一种基于SE(3)-等变图变换神经网络的端到端蛋白质细化方法。它直接预测所有原子的细化原子坐标，作为输入结构中所有原子的初始坐标的输出。

模型架构

蛋白质结构可以被认为是一组节点，每个节点代表蛋白质中的一个原子。根据每个原子的三维坐标可以计算原子之间的成对空间关系。因此蛋白质结构将转化为原子图，其中边描述节点（原子）之间的关系。

每个原子特征包括one-hot编码（37个原子类型的二进制向量）以及原子所属氨基酸的类型。每个节点的（x,y,z）的空间坐标也可以作为被更新的可变特征。
边的构成，通过计算节点之间的欧几里得距离，选择离目标节点最近的128个点进行连接。

模型采用邻域聚合的方法，捕获邻域内每个原子的特性，并在训练期间细化局部构象来提高预测的准确性。
通过过滤掉不相关的信息，关注重要的局部特征。模型可以识别并矫正局部错误。
六个边特征：
:::info
一个基于距离的特征：
:::
通过径向基函数将两个节点之间的距离 $d$ 转化为：
$)=exp(-(\frac{\left \| d-{d}' \right \| }{\sigma _{d} } )^{2} )$
其中 $d$ 表示两个节点之间的欧式距离， ${d}'$ 和 ${\sigma _{d} }$ 为超参数

径向基函数：是某种沿径向对称的标量函数，通常定义为样本到数据中心之间径向距离（通常是欧氏距离）的单调函数。

一个共价键边特征：

使用二元共价键边缘特征来表示原子之间的局部共价键连通性。由原子与原子之间的距离矩阵来计算想邻键矩阵，再根据Graphein来检测两个原子之间是否存在共价键。

Graphein是提供生物分子结构与作用网络的深度学习python库

将原子欧几里得距离矩阵D解析为二元共价键相邻矩阵M，如下所示：
$M_{ij}=\begin{cases} 1, 0.4<D_{ij}<r\\ 0, otherwise \end{cases},$
其中 $i, j$ 是距离矩阵中原子的位置，阈值参数 $r$ 是一组基于不同原子的共价半径，1就表示两个原子之间有键。

一个基于相对位置边的特征

使用基于局部坐标系的边的相对位置和相对方向特征。我们基于蛋白质模型中每个氨基酸残基位置(索引)构建局部坐标系(对于相同氨基酸的原子，它们共享相同的局部坐标基)。

相对位置边特征计算公式如下
$p_{im,in}=[x_{i}^{T} y_{i}^{T} z_{i}^{T}][atom_{jn}-atom_{im}]$

三个相对方向边特征

$q_{im,in}=[x_{i}^{T} y_{i}^{T} z_{i}^{T}][x_{j}]; k_{im,in}=[x_{i}^{T} y_{i}^{T} z_{i}^{T}][y_{j}]; t_{im,in}=[x_{i}^{T} y_{i}^{T} z_{i}^{T}][z_{j}]$