AlphaFold3 对生物分子相互作用的精准结构预测

https://www.nature.com/articles/s41422-024-00991-8

AlphaFold2的引入在蛋白质及其相互作用结构的建模领域引发了一场革命,推动了蛋白质建模与设计的广泛应用。在此,我们介绍了我们的AlphaFold3模型,该模型采用了显著更新的基于扩散的架构,能够预测包含蛋白质、核酸、小分子、离子及修饰残基的复合物的联合结构。新版AlphaFold模型在多个方面显著超越了以往的专业工具:在蛋白质-配体相互作用方面,其准确性远超最先进的对接工具;在蛋白质-核酸相互作用方面,其准确性大大高于专门的核酸预测工具;在抗体-抗原预测方面,其准确性显著优于AlphaFoldMultimer v2。这些结果共同表明,在单一统一的深度学习框架内实现生物分子空间的高精度建模是可能的。

生物复杂体的精确模型对于我们理解细胞功能以及合理设计治疗方案至关重要。随着AlphaFold1的发展,蛋白质结构预测取得了巨大进展,该领域也随着基于AlphaFold2理念和技术的一系列后续方法的出现而迅速扩展。AlphaFold一经推出,便有研究表明,简单的输入修改即可实现令人惊讶的蛋白质相互作用预测精度,并且专门针对蛋白质相互作用预测训练的AF2系统表现出了极高的准确性。

这些成功引发了一个问题,即是否有可能在一个深度学习框架内准确预测包含更广泛生物分子(包括配体、离子、核酸和修饰残基)的复合物结构。已经开发了多种针对特定相互作用类型的预测器,以及一种与本工作同时开发的通用方法,但这些深度学习尝试的准确性参差不齐,且往往低于基于物理启发的方法。几乎所有这些方法都高度专用于特定的相互作用类型,无法预测包含多种实体的一般生物分子复合物的结构。

我们在这里介绍AlphaFold 3(AF3)——一种能够高精度预测包含几乎所有存在于蛋白质数据库(PDB)中的分子类型的复合物的模型。在除一类以外的所有类别中,它的表现显著优于专门针对该任务的强大方法,包括在蛋白质结构和蛋白质-蛋白质相互作用结构方面更高的准确性。

这是通过AF2架构和训练过程的重大改进实现的,既适应了更广泛的化学结构,又提高了学习的数据效率。该系统通过用更简单的pairformer模块替换AF2的evoformer,减少了多序列比对(MSA)的处理量。此外,它直接利用扩散模块预测原始原子坐标,取代了在氨基酸特定框架和侧链扭转角上操作的AF2结构模块。扩散过程的多尺度特性(低噪声水平促使网络改进局部结构)也使我们能够消除立体化学损失和网络中大部分对成键模式的特殊处理,轻松适应任意化学成分。

网络架构与训练

AF3的整体结构与AF2相似,主干部分演化出化学复合物的成对表示,随后是一个结构模块,该模块利用成对表示来生成明确的原子位置,但在每个主要组件中存在显著差异。这些修改既是为了适应广泛的化学实体而无需过多的特殊处理,也是基于对AF2在不同修改下的性能观察。在主干部分,MSA处理的重要性大大降低,采用了更小且更简单的MSA嵌入块。与AF2的原始evoformer相比,块的数量减少到四个,MSA表示的处理采用了廉价的成对加权平均,并且仅使用成对表示进行后续处理步骤。pairformer取代了AF2的evoformer作为主要的处理块。它仅在成对表示和单个表示上操作;MSA表示未被保留,所有信息都通过成对表示传递。成对处理和块的数量(48个)与AF2基本保持不变。生成的成对表示和单个表示与输入表示一起传递给新的扩散模块,该模块取代了AF2的结构模块。

扩散模块直接操作于原始原子坐标和粗略抽象的标记表示,无需旋转框架或任何等变处理。我们在AF2中发现,去除结构模块的大部分复杂性仅对预测精度产生适度影响,而维持骨架框架和侧链扭转表示则对通用分子图增加了相当多的复杂性。同样,AF2在训练过程中需要精心调整立体化学违规惩罚,以确保生成结构的化学合理性。我们采用了一种相对标准的扩散方法,其中扩散模型被训练来接收“噪声化”的原子坐标,然后预测真实坐标。此任务要求网络通过在多种长度尺度上学习蛋白质结构,其中在小噪声情况下的去噪任务强调对非常局部立体化学的理解,而在高噪声情况下的去噪任务则强调系统的大尺度结构。在推理时,随机噪声被采样,然后递归去噪以生成最终结构。重要的是,这是一种生成训练过程,产生的是答案的分布。这意味着,对于每个答案,局部结构将被明确定义(例如,侧链键几何),即使网络对位置不确定。因此,我们能够避免基于扭转的残基参数化以及结构上的违规损失,同时处理一般配体的全部复杂性。与一些最近的工作类似,我们发现,在架构中不需要对分子的全局旋转和平移保持不变性或等变性,因此我们省略了这些特性以简化机器学习架构。

生成扩散方法的使用带来了一些技术挑战,这些是我们需要解决的。最大的问题是生成模型容易产生幻觉35,即模型可能在无结构的区域中创造出看似合理的结构。为了对抗这种效应,我们采用了交叉蒸馏方法,其中我们用AlphaFold-Multimer(v.2)预测的结构来丰富训练数据。在这些结构中,无结构区域通常由长延伸环表示,而不是紧凑结构,对这些结构进行训练“教会”了AF3模仿这种行为。这种交叉蒸馏显著减少了AF3的幻觉行为。

我们还开发了置信度度量方法,用于预测我们最终结构中的原子级误差和成对误差。在AF2中,这是通过在训练过程中回归结构模块输出误差来直接实现的。然而,这种方法不适用于扩散训练,因为扩散训练仅训练单一步骤而非完整结构生成。为了弥补这一点,我们开发了一种扩散“展开”过程,用于在训练期间进行完整结构预测生成(使用比正常情况更大的步长)。然后,利用这一预测结构来排列对称的真实链和配体,并计算性能指标以训练置信度头部。置信度头部利用成对表示来预测修改后的局部距离差异测试(pLDDT)和预测对齐误差(PAE)矩阵,如同AF2中一样,以及一个距离误差矩阵(PDE),该矩阵表示预测结构与真实结构之间距离矩阵的误差。

在初始训练阶段,模型迅速学会预测局部结构(所有链内指标快速上升,并在前20,000个训练步骤内达到最大性能的97%),而模型需要更长时间来学习全局排列(界面指标上升缓慢,蛋白质-蛋白质界面LDDT在60,000步后才达到97%的门槛)。在AF3开发过程中,我们观察到某些模型能力达到上限。

相对较早地开始下降(很可能是由于对该能力的有限训练样本过度拟合),而其他能力仍然训练不足。我们通过增加或减少相应训练集的采样概率,并使用上述所有指标和一些附加指标的加权平均值进行早期停止,以选择最佳模型检查点来解决这一问题。具有较大裁剪尺寸的微调阶段在所有指标上均提升了模型性能,特别是在蛋白质-蛋白质界面上有显著提升。

复杂类型中的准确性

AF3能够根据输入的聚合物序列、残基修饰和配体SMILES(简化分子输入线输入系统)预测结构。

我们对系统在每种复杂类型的最新界面特定基准上的性能进行了评估。蛋白质-配体界面的性能评估基于PoseBusters基准集,该基准集由2021年或之后发布到PDB的428个蛋白质-配体结构组成。由于我们的标准训练截止日期是2021年,我们训练了一个单独的AF3模型,其训练集截止日期较早(方法)。PoseBusters集的准确性报告为蛋白质-配体对中配体口袋对齐的均方根偏差(r.m.s.d.)小于2 Å的百分比。基线模型分为两类:仅使用蛋白质序列和配体SMILES作为输入的模型,以及额外泄露已解决的蛋白质-配体测试结构信息的模型。传统的对接方法使用后者特权信息,尽管在实际应用中这些信息不可用。即便如此,AF3在不使用任何结构输入的情况下,仍大大优于Vina等经典对接工具(Fisher’s精确检验,P = 2.27 × 10-13),并且大大优于所有其他真正的盲对接方法。

类似于RoseTTAFold全原子模型(P = 4.45 × 10-25)。扩展数据展示了三个例子,其中AF3实现了准确的预测,而对接工具Vina和Gold未能做到37。PoseBusters分析使用2019年9月30日的训练截止日期进行,以确保模型未在任何PoseBusters结构上进行训练。为了与RoseTTAFold全原子结果进行比较,我们使用了PoseBusters版本1,版本2(从基准集中移除了晶体接触)的结果及其质量指标显示在扩展数据中。我们使用多个种子来确保正确的手性和避免轻微的蛋白质-配体碰撞(与使用扩散引导等方法相反),但我们通常能够生成高质量的立体化学。此外,我们还训练了一个AF3版本,该版本接收了“口袋信息”,正如近期一些深度学习工作中所使用的。

AF3在预测蛋白质-核酸复合物和RNA结构方面,比RoseTTAFold2NA15具有更高的准确性。由于RoseTTAFold2NA仅在低于1,000个残基的结构上得到验证,我们仅使用我们最近的PDB评估集中低于1,000个残基的结构进行此比较。AF3能够预测含有数千个残基的蛋白质-核酸结构,其中一个例子如图3a所示。需要注意的是,我们并未直接与RoseTTAFold全原子模型进行比较,但基准测试表明,在核酸预测方面,RoseTTAFold全原子模型的准确性略低于RoseTTAFold2NA29。

我们还评估了AF3在十个公开的结构预测关键评估15(CASP15)RNA目标上的表现:在与RoseTTAFold2NA和AIchemy_RNA27(CASP15中表现最佳的AI提交)的共同预测子集上,我们的平均表现更高(详细结果见扩展数据图5a)。我们未能达到CASP15中最佳人类专家辅助提交AIchemy_RNA239的表现。由于数据集规模有限,我们在此不报告显著性检验统计数据。进一步分析仅预测核酸(不包括蛋白质)的准确性,结果见扩展数据图5b。

共价修饰(结合配体、糖基化以及蛋白质和核酸碱基的修饰)也能被AF3准确预测。这些修饰涉及任何聚合物残基(蛋白质、RNA或DNA)。我们将准确性报告为成功预测的百分比(口袋r.m.s.d. <2 Å)。我们对结合配体和糖基化数据集应用了质量过滤器(与PoseBusters的做法相同):我们仅包含具有高质量实验数据的配体(根据RCSB结构验证报告,ranking_model_fit > 0.5,即模型质量高于中位数的X射线结构)。与PoseBusters数据集一样,结合配体和糖基化数据集未根据与训练数据集的同源性进行过滤。基于结合聚合物链的同源性过滤(使用聚合物模板相似性 < 40)仅产生了五个结合配体的簇和七个糖基化的簇。我们在这里排除了多残基糖类,因为RCSB验证报告未提供它们的ranking_model_fit值。在所有质量的实验数据上,多残基糖类的成功预测百分比(口袋r.m.s.d. < 2 Å)为42.1%(n = 131个簇),略低于所有质量实验数据上单残基糖类的成功率46.1%(n = 167个簇)。修饰残基数据集的过滤方式与我们其他聚合物测试集类似:它仅包含与训练集同源性低的聚合物链中的修饰残基。详见扩展数据表1的详细结果,以及扩展数据图6中预测的带有共价修饰的蛋白质、DNA和RNA结构示例,包括磷酸化对预测影响的分析。

在扩展建模能力的同时,AF3在蛋白质复合物准确性方面也相对于AlphaFold-Multimer(v.2.3)有所提高。总体而言,蛋白质-蛋白质预测成功率(DockQ > 0.23)有所提升(配对Wilcoxon符号秩检验,P= 1.8 × 10-18),抗体-蛋白质相互作用预测方面,尤其是显示出显著的改进;配对Wilcoxon符号秩检验,P = 6.5 × 10-5,预测从1000个而非典型的5个种子中排名最高;更多细节见图5a)。蛋白质单体LDDT的改进也具有显著性(配对Wilcoxon符号秩检验,P = 1.7 × 10-34)。AF3对MSA深度的依赖性与AlphaFold-Multimer v.2.3非常相似;具有浅层MSA的蛋白质预测精度较低。

预测的置信度跟踪准确性

预测的置信度跟踪准确性与AF2一样,AF3的置信度指标与准确度校准良好。我们的置信度分析基于最近的PDB评估集,未进行同源性过滤,并包括了多肽。配体类别经过筛选,仅保留高质量的实验结构,并且只考虑标准非键合配体。

模型局限

我们注意到AF3在立体化学、幻觉、动态性和某些目标的准确性方面存在模型局限性。在立体化学方面,我们注意到两类主要的违规情况。第一类是模型输出并不总是遵循手性,尽管模型接收的参考结构具有正确的手性作为输入特征。为了解决这个问题,在PoseBusters基准测试中,我们在模型预测的排名公式中加入了手性违规的惩罚。尽管如此,我们仍然在基准测试中观察到4.4%的手性违规率。第二类立体化学违规是模型偶尔会在预测中产生重叠(冲突)的原子。这种情况有时表现为同源体中的极端违规,其中整个链被观察到重叠。在排名过程中对冲突进行惩罚减少了这种失败模式的发生,但并未完全消除。几乎所有剩余的冲突都发生在蛋白质-核酸复合物中,这些复合物中核酸超过100个,总残基数超过2000个。

我们注意到,从非生成型的AF2模型切换到基于扩散的AF3模型引入了在无序区域中产生虚假结构顺序(幻觉)的挑战。尽管幻觉区域通常被标记为非常低的置信度,但它们可能缺乏明显的带状外观。

AF2在无序区域生成的结果。为了在AF3中鼓励带状的预测,我们使用从AF2预测中提取的蒸馏训练,并添加了一个排序项,以鼓励生成更多溶剂可及表面积的结果。

蛋白质结构预测模型的一个主要局限性在于,它们通常预测的是在PDB中观察到的静态结构,而不是溶液中生物分子系统的动态行为。这一局限性在AF3中也存在,其中无论是扩散头还是整个网络的多个随机种子都无法产生溶液集合的近似。

在某些情况下,根据指定的配体和其他输入,建模的构象状态可能不正确或不全面。

例如,E3泛素连接酶在apo状态下自然地采用开放构象,并且只有在结合配体时才观察到闭合状态,但AF3专门预测apo和holo系统的闭合状态。已经开发了许多方法,特别是在MSA重采样方面,这些方法有助于从之前的AlphaFold模型中生成多样性,并且也可能有助于AF3的多状态预测。

尽管AF3在模型精度上取得了显著进步,但仍有许多目标的准确建模颇具挑战性。为了达到最高精度,可能需要生成大量预测并对其进行排序,这会带来额外的计算成本。我们观察到这一效应的目标类别强烈的是抗体-抗原复合物,类似于其他近期的工作。

对于AF3,随着模型种子的增加,排名靠前的预测结果持续改进,即使在多达1,000个种子的情况下(5和1,000个种子之间的Wilcoxon符号秩检验,P = 2.0 × 10-5 对于正确百分比,P = 0.009 对于非常高准确率的百分比;按蛋白质-蛋白质界面ipTM排序)。这种随着多种子的显著改进在其他分子类别中并不常见。仅使用每个模型种子的一个扩散样本进行AF3预测,而不是五个,结果并没有显著变化,这表明运行更多模型种子对于提高抗体评分是必要的,而不仅仅是增加扩散样本。

讨论

分子生物学的核心挑战在于理解和最终调控生物系统中复杂的原子相互作用。AF3模型在这一方向上迈出了重要一步,展示了在统一框架下准确预测广泛生物分子系统结构的可能性。尽管在所有相互作用类型中实现高度准确的预测仍面临重大挑战,但我们证明了构建一个对所有这些相互作用表现出强大覆盖和泛化能力的深度学习系统是可能的。我们还证明了缺乏跨实体的进化信息并不是预测进展的重大障碍。这些相互作用,以及抗体结果的显著改善,表明AlphaFold衍生的方法能够模拟分子间相互作用的化学和物理特性,而不依赖于MSA。最后,蛋白质-配体结构预测的巨大改进表明,在一个通用的深度学习框架内处理化学空间的广泛多样性是可能的,并且无需求助于蛋白质结构预测与配体对接之间的人为分离。

自下而上构建细胞组分的模型发展是解开细胞内分子调控复杂性的关键步骤,而AF3的表现表明,开发适当的深度学习框架可以大幅减少在这些任务上获得生物学相关性能所需的数据量,并放大已经收集的数据的影响。我们预计,结构建模不仅会因深度学习的进步而持续改进,还因为实验结构测定方法的不断进步,如冷冻电子显微镜和断层扫描技术的显著改进,将为进一步提高此类模型的泛化能力提供丰富的新的训练数据。实验方法和计算方法的并行发展有望将我们进一步推向一个结构化生物学理解和治疗开发的时代。

Free论文翻译

### 如何优化 AlphaFold3 的性能 #### 参数调整与最佳实践 为了提升 AlphaFold3 的性能,参数调整是一个至关重要的环节。通过合理设置超参数并利用高效的优化算法可以显著提高模型的表现。 在训练过程中,选择合适的优化器对于加速收敛至关重要。根据已有研究[^2],推荐采用 Adam 作为默认优化器,因为它能够自适应调节学习率,在处理大规模数据集时表现出色。此外,还可以尝试其他高级变种如 AdaBound 或者 Lookahead 来进一步改善效果。 除了优化器的选择外,还需要关注以下几个方面: - **批量大小 (Batch Size)**:适当增大 batch size 可以使梯度估计更加稳定,从而加快训练速度;但是过大的 batch size 会占用过多内存资源,因此需要权衡利弊找到最优解。 - **初始学习率 (Initial Learning Rate)** 和 **衰减策略 (Decay Strategy)**:合理的起始学习率以及逐渐降低的学习率可以帮助模型更好地探索参数空间,并最终达到全局最优点附近。常用的衰减方法有指数衰减、余弦退火等。 针对具体应用场景下的调参建议如下所示: ```python import torch.optim as optim # 定义优化器及其配置项 optimizer = optim.Adam(model.parameters(), lr=0.001) # 学习率调度器 scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=50) ``` 另外值得注意的是,由于蛋白质结构预测任务本身具有高度复杂性和计算密集型特点,所以在实际操作中往往还会涉及到分布式训练、混合精度训练等一系列技术手段来缩短整体耗时并增强稳定性。 最后,考虑到 AlphaFold3 是基于深度学习框架 PyTorch 实现的开源项目[^3],社区内已经存在大量关于该领域前沿进展和技术分享的文章资料可供参考借鉴。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值