超新的文献分享又来啦!
近日,来自约翰霍普金斯大学化学与生物分子工程系的 Jeffrey J. Gray 团队在 bioRxiv 预印平台上发表文章“What has AlphaFold3 learned about antibody and nanobody docking, and what remains unsolved?”。文章主要讨论了 AlphaFold3(AF3)在抗体和纳米抗体对接上的性能表现,并分析了其当前的成功率、局限性及对未来抗体设计的影响。
原文链接:https://www.biorxiv.org/content/10.1101/2024.09.21.614257v1
或者点击文末「阅读原文」即可直达原文页面!
-
如果小伙伴们有需求的话,可以加入我们的交流群:一定要知道 | 永久免费的环境友好型生信学习交流群又双叒叕来啦!| 伴随不定期群友好物分享!在这里,你可以稍有克制地畅所欲言!
-
超级建议大家在入群前或入群后可以看一下这个:干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!让你不虚此看!
-
如果有需要个性化定制分析服务的小伙伴,可以看看这里:你要的个性化生信分析服务今天正式开启啦!定制你的专属解决方案!全程1v1答疑!!绝对包你满意!
要知道推荐阅读
Baker 的最新抗体从头设计研究:要读文献 | bioRxiv | David Baker 团队利用生成式 AI 开创从头设计具有原子级精确度单域抗体新篇章
用于从头设计的扩散模型:火爆全网的扩散模型(Diffusion Model)到底是什么?只看这篇就够了!绝对通俗易懂!| 附完整代码 + 详细注释
抗体疗法因其高度的结合亲和力和特异性,已成为医疗领域的研发重点。为了加速药物开发,研究人员在抗体的设计和筛选方面投入了大量精力,致力于实现高精度的计算机辅助药物开发。为全面评估 AlphaFold3(AF3)的性能改进和局限性,本文测试了其在捕捉抗体结构预测细节以及抗原对接精确性方面的能力。结果显示,AF3在抗体和纳米抗体的对接中分别取得了8.9%和13.4%的高精度成功率,中位CDR H3环RMSD分别为2.04 Å和1.14 Å,表明其对CDR H3的高精度预测显著提升了复合物整体预测准确性。特别是在CDR H3环长度超过15个残基时,抗原背景进一步提高了其预测精度。然而,AF3在单种子采样的情况下,抗体和纳米抗体对接的失败率仍高达60%,这一结果揭示了其在抗体设计应用中仍存在改进空间。
0 太长不看版
背景
抗体在医疗领域具有重要地位,尤其在癌症、自身免疫病和传染病的治疗中具有应用潜力。开发抗体药物需要高效且精确的结构预测模型来支持药物筛选和设计。AF3的引入标志着抗体和抗原对接研究的一大进展,其在结合位点和抗体结构的预测上显示出一定的优势。
主要研究结果
- AF3在抗体对接上的表现优于之前的方法:AF3比AlphaFold2-Multimer(AF2-M)和AlphaRED等模型有更高的对接成功率。具体表现为抗体对接的成功率为8.9%,纳米抗体为13.4%,并且CDR H3(重链第三互补决定区)预测的精确度明显提升。
- CDR H3环对抗体-抗原对接的影响:CDR H3环对于高精度对接预测至关重要,尤其是在其残基数超过15时,抗原背景可以显著提高其预测精度。在高精度对接区域,若CDR H3的均方根偏差(RMSD)小于1.5Å,则成功对接的可能性显著增加。
- AF3在无抗原的抗体结构预测中优于之前模型:相比IgFold和AF2.3-M,AF3在预测抗体CDR H3环结构时的精确度更高,RMSD降至2.04Å(IgFold的RMSD约为3Å)。这种提升意味着AF3在抗体结构预测上具有更高的可靠性。
不足之处及改进空间
尽管AF3在许多方面显示了优于现有模型的表现,但其在单个种子下的对接成功率仍然只有40%左右。主要限制在于对抗体接口和抗原结合位点的识别。此外,AF3在长环预测方面的表现也受到抗原背景的影响,这表明进一步优化模型的对接算法可能会提升整体对接质量。
研究方法与数据集
使用从SAbDab数据库中提取的抗体结构数据,并基于高分辨率结构数据进行筛选,以确保数据的准确性和代表性。通过RMSD计算、DockQ打分和统计分析,量化了AF3的预测性能并评估了模型对抗体结构和对接预测的依赖性。
讨论与未来研究方向
AF3作为生成式框架,通过同时预测结构和对接关系,展示了其在捕捉CDR H3环与抗体-抗原对接关系方面的潜力。未来的研究可进一步优化循环采样策略,结合抗原背景以提升对接的全局准确性。此外,通过加入再循环技术,可以增强对接的准确度,尤其是在长链和复杂结构的对接中。
总结
AF3在抗体和纳米抗体对接研究中取得了显著进步,但仍存在优化空间,尤其是在对抗体接口与抗原结合面的识别方面。未来的改进方向包括更复杂的全局采样协议、循环预测机制以及整合抗原背景的对接优化。这些改进有望推动AF3在抗体设计和药物开发中的应用。
怎么样!新开的模块,以后咱们分享文献的时候,都在前面先来个「太长不看」式的总结供大家速览文献,如何!哈哈哈哈哈哈哈哈哈!
接下来,正片开始!!!
1 引言 / Introduction
抗体(Ab,Antibody)在免疫系统中扮演着关键角色,因其能够靶向癌症、自身免疫病、心血管疾病及传染病,且具备可溶性、亲和力可调及对人体的高耐受性,这使得抗体与纳米抗体疗法的开发成为研究热点。抗体(或纳米抗体)的抗原(Ag,antigen)结合界面由6条(或3条)高变区环组成,称为互补决定区(CDR,complementarity determining
region)环,其中重链上的第三条环(CDR H3)尤为多样,常与抗原表位紧密接触;这些CDR环在与抗原结合时,有时会产生构象变化。抗体设计的难点在于脱靶效应的潜在风险及大量时间和资源的投入,为此研究人员在抗体及抗体-抗原复合体结构预测方面投入了大量精力,以应对这一挑战。鉴于抗体CDR环的灵活性及其在抗体设计中的关键作用,能够有效模拟其结构变化及对接过程具有重要应用价值。在AlphaFold3(AF3)之前,抗体对接的最高成功率由混合模型AlphaRED实现,该模型通过结合AlphaFold2-Multimer(AF2-M)的复合体结构预测和基于Rosetta的复制交换对接法,将成功率提升至43%。尽管AF3与AF2-M使用了相同的抗体数据集进行训练,但2024年5月DeepMind报告指出,AF3在1,000次种子采样条件下实现了60%的成功率,显著提升了抗体对接的成功率。
为了深入探究AF3性能的提升来源及其局限性,本文全面评估了AF3在抗体-抗原和纳米抗体-抗原复合体对接及非结合态抗体和纳米抗体结构预测中的表现。与此同时,为进一步理解AF3在利用PDB有限的实验结构数据时的不足,本文基于冗余过滤的定制数据集,详细研究了CDR H3环与抗体-抗原对接的相互作用,以期揭示AF3在2021年训练截止后仍未解决的问题。
2 实验 / Experiments
2.1 AF3 优于先前抗体对接领域的最新方法
为了将AlphaFold3(AF3)与之前的最优模型进行比较,研究首先整理了一个包含结合态和非结合态抗体及纳米抗体的基准数据集。在AF3中,研究对每个目标进行了三次不同的种子采样,并选择第一个种子中得分最高的预测结果,以确保与AlphaRED的评估结果保持一致。正如图1所示,尽管AlphaRED将可接受的对接结构比例提高至43%(相较于AF2-M),AF3进一步提升了整体对接质量,增加了高精度结构的数量。具体而言,AF2-M和AlphaRED在高精度对接方面的成功率微乎其微,而AF3在抗体对接中实现了8.9%的高精度成功率和38.4%的总体成功率。尽管AF3在纳米抗体上的成功率略低,为36.1%,但其在高精度复合体的成功率达到了13.4%(请往下滑看图6)。研究还发现,CDR H3环的长度对抗体或纳米抗体的对接精度并未产生显著影响(再往下滑看图7嘿嘿嘿)。
图1:抗体(Ab,antibody)和纳米抗体(Nb,nanobody)对接的最先进模型的成功率。(A) AF3在抗体-抗原对接(N=112)和纳米抗体-抗原对接(N=97)上的表现,与基于Harmalkar等人提供的评估集的AF2-M和AlphaRED(N=67)进行对比。结合抗体和纳米抗体的DockQ评分根据CAPRI分类(Collins等人,2024)被分为错误、可接受、中等和高四类。(B, C, D) 示例中错误、可接受和高准确度预测的蛋白质复合物结构。
2.2 抗体结构预测与抗体-抗原对接相互依赖提高了整体复合物的准确性
抗体成熟过程旨在提高针对表达抗原的结合亲和力,使得未结合的抗体能够通过补充结合位点(paratope)来靶向抗原。由于超可变的H3环通常在抗体与抗原之间的接触中占据主要作用,因此正确建模CDR H3环在提高对接质量方面至关重要。为了理解CDR H3环的建模与对接准确性之间的相关性,研究测量了AF3对抗体-抗原复合体预测的CDR H3 RMSD,并比较了DockQ评分与CDR H3 RMSD在各个对接准确度水平之间的条件概率(方法见图2的说明)。如图2所示,对于高精度的复合体,p(DockQ > 0.8 | CDR H3 RMSD ≤ 1.5 Å)为40.8%,而p(CDR H3 RMSD ≤ 1.5 Å | DockQ > 0.8)则非常高,达到了91.3%,这表明正确的CDR H3环对高质量的对接预测至关重要。然而,当比较CDR H3 RMSD小于1.5 Å对具有可接受或更高准确度的复合体的影响时,条件概率之间的不等式发生了变化(见表1和表2),这表明在这一阶段,良好的界面采样对结构质量的影响要比CDR H3环结构更为重要。通过对不同DockQ类别下的CDR H3 RMSD阈值进行变动,研究确定了一个强阈值要求,即CDR H3环结构的RMSD应小于3.5 Å,以促进全局对接(见表1和表2)。
图2:预测的抗体-抗原复合体的DockQ评分与CDR H3环RMSD的分布。标记了CAPRI分类区域,其中高精度对接复合体区域用绿色阴影表示,小于1.5 Å的CDR H3环RMSD区域用粉色阴影表示,两者交集区域用紫色阴影表示。给定高精度复合体时,CDR H3环RMSD小于1.5 Å的条件概率是交集事件(紫色)中的点数与高精度对接总点数(绿色)之比。给定CDR H3环RMSD小于1.5 Å时,形成高精度复合体的条件概率是交集中的点数(紫色)与亚埃米级H3环RMSD区域(粉色)中的点数之比。
表1:给定不同CDR H3环准确度的对接准确度条件概率
表2:给定不同对接准确度的CDR H3环准确度条件概率
2.3 AF3在预测未结合的Fv结构方面优于AF2.3-M、AF2-M和IgFold
考虑到CDR H3环准确度对整体对接成功的影响,研究旨在评估AF3对未结合CDR H3环的预测准确性。为了将AF3与先前的顶尖结构预测模型进行比较,研究使用了IgFold整理的基准数据集,其中包含197个未结合的抗体可变片段和71个未结合的纳米抗体,同时参考了IgFold和AF2.0-M的已发布结果。研究人员从AF3中预测了一个种子(seed = 1),并选择了五个预测的对偶中排名最高的抗体进行比较,排名是基于AF3的ipTM、pTM和无序置信度测量的组合得出的(图3)。
图3:AF3在预测197个抗体和71个纳米抗体的未结合CDR H3环结构方面的表现与先前模型的比较。(A) AF3将平均中位数提高到2.04 Å。作为参考,未结合和抗原结合的抗体CDR H3环的中位数差异为0.5 Å。(B) 尽管IgFold和AF2.0-M的纳米抗体中位H3 RMSD超过3 Å,AF2.3-M将中位数提高到1.30 Å,而AF3则进一步降至1.14 Å。
尽管AF2.3-M在三种之前的顶尖模型中具有最低的中位CDR H3 RMSD,为2.74 Å,但AF3的表现更佳,达到了2.04 Å。IgFold和AF2.3-M的性能相似,分别为2.87 Å和2.74 Å,而AF2-M的表现最差,为3.03 Å。因此,AF3在CDR H3环预测方面提升了0.7 Å(p ≤ 0.0001)。IgFold、AF2-M和AF2.3-M达到的准确性平台引发了对环的准确性极限的质疑,尤其考虑到其灵活性。近期对177对结合与未结合抗体复合体的调查中发现,Liu等人发现70.6%的抗体CDR H3环在结合引发的构象变化中低于1 Å(见图3中的B-U列)。因此,尽管这个环可能具备灵活性,但从理论上讲,模型有朝一日可能达到亚埃预测精度,这表明仍然有改进的空间。
2.4 抗原背景影响抗体CDR H3环预测的准确性
为了进一步观察抗原背景如何影响H3环的结构,研究人员比较了结合态抗体H3环和非结合态抗体H3环的RMSD。研究人员将RMSD分为H3全局RMSD(通过叠加重链计算)和H3局部RMSD(仅通过叠加CDR H3残基计算),其中全局RMSD反映了环的形状和位置,而局部RMSD则仅代表环的形状。如图4A所示,无论是结合态还是非结合态,AF3和AF2.3-M的H3局部RMSD均为亚埃级别,但在考虑抗原背景时,AF3的H3全局RMSD从1.65 Å改善至1.34 Å。
以往的抗体结构预测研究表明,随着环长度的增加,H3环的RMSD也会增加,这是由于环的自由度增加。正如图4B所示,当有抗原背景帮助约束较长的环时,CDR H3的预测准确性从2.11 Å提高到1.38 Å。
图4:抗原背景对AF3(左)和AF2.3-M(右)抗体CDR H3环预测的影响,以及抗原背景对AF3抗体CDR H3环预测的影响(按长度分类)。(A) 使用抗原预测的结合结构,与仅使用抗体预测的未结合结构进行比较。全局RMSD在VH结构域叠加后计算;局部RMSD仅通过叠加环残基计算。(B) 使用抗原预测的结合结构,与仅使用抗体预测的未结合结构进行比较。短环定义为少于10个残基,中环定义为10到15个残基,长环定义为超过15个残基。
3 讨论 / Discussion
AF3基于AF2的成熟性能提升方法(见后面的第4部分 —— 相关工作)以及蛋白质数据表示方法。在研究中,证明AF3能够将高质量的抗体-抗原对接率从0%提高到13%;然而,即使使用单一种子,AF3仍然有60%的目标预测不准确。根据非可重复工作的报告,模型的准确率在评估1000个种子时可提高到60%。该模型在寻找特定抗体界面的正确抗原界面方面似乎存在困难,尤其是在全局对接时表现最差,可能需要采用像AlphaRED这样的全局采样协议来增强性能。令人印象深刻的是,AF3的对接成功率与抗体和纳米抗体的环长度无关(见下面的图7)。AF3的置信度指标与对接准确性相关,重链与抗原之间的DockQ和ipTM之间表现出高度线性相关性(见下面的图8)。
人生的出场顺序很重要,但在这里,图图的出场顺序不重要!大家不要介意嘿嘿嘿!(毕竟这还是预印本,文章中提到的某些信息并没有完整给出,不慌!咱们静候这篇文章正式发布!)
生成模型学习的是连续分布而非离散点,使其适合模拟蛋白质的可塑性。因此,AF3的生成框架结合同时进行结构与对接预测,使我们研究AF3能否捕捉到CDR H3环预测与抗体-抗原对接之间的关系。研究发现AF3学习了抗体结合界面与对接准确性之间的依赖性,可能是因为该模型同时预测结构和对接复合体。在给定抗原序列的情况下,AF3的CDR H3 RMSD为1.34 Å。另一个生成网络AbODE在基于抗原序列和结构的条件下,使用来自SabDab的数据集(CDR序列冗余为40%,与AF3相同),实现了1.73 Å的平均抗体CDR H3环RMSD。AF3和AbODE的多分辨率结构可以解释为初步步骤对应于刚性主链采样,而后续步骤学习局部对接。这两个模型的成功可能归因于同时进行结构和对接预测任务。回收在AF2.3-M中的对接准确性方面发挥了重要作用,回收同样可能增强AF3,尤其是在抗原背景下,因为该模型迭代地优化复合体的局部和全局结构。
研究受限于AF3服务器每日可用任务的数量,以及由于数据污染问题导致的数据集规模较小。结果显示,虽然AF3在建模抗体和纳米抗体结构及对接复合体方面明显优于以往的方法,但在单一种子预测中,抗体和纳米抗体对接的60%失败率仍有改进空间。对于结合态(1.34 Å)和非结合态(1.65 Å)的CDR H3环结构预测准确度虽然令人印象深刻,但相较于测量的抗体有限的结合与非结合构象变化,理论上仍然有进一步提升的潜力。
4 相关工作 / Related Work
传统对接算法
传统的基于Rosetta的抗体-抗原对接算法利用抗体的同源模型集,通过对刚性主链、环构象和VH-VL相对方向的采样进行对接。这一协议在抗体-抗原对接中实现了20%的成功率,成功的定义是DockQ评分大于0.23。其他一些基于物理和结构的方法也被提出,性能相似。然而,尽管这些方法不依赖于数据,它们的计算过程非常耗时。同时,成功率的提升也受到准确建模CDR H3能力的限制,因此,改进这一部分的建模能力将是提高对接成功率的关键因素。
机器学习在抗体-抗原结构和复合物预测中的应用
机器学习方法显著提高了抗体-抗原和纳米抗体-抗原复合物的预测精度,并且所需时间较少。现有方法种类繁多,其中一些专注于仅进行结构预测或对接,而另一些则将这两项任务结合起来。测试的架构包括卷积神经网络、变换器、扩散模型和归一化流模型,旨在进行结构和复合物预测,同时根据任务对数据集和损失函数进行调整。虽然这些方法在蛋白质-蛋白质对接的成功率上有所提升,尤其是在具有共同进化关系的复合物方面,但抗体-抗原复合物缺乏共同进化背景的限制使得整体对接成功率停滞不前。例如,AF2.3-M在抗体-抗原对接中的成功率仅为20%。除了对接和结构预测任务外,通过处理多序列比对(MSA,multiple sequence alignment)的神经网络也改善了从查询序列中提取上下文的信息,而蛋白质语言模型(PLM,protein language model)则进一步推动了这一进展。
提升 AF2 对接性能的方法
在AF2发布后,Mirdita等人发现,通过在单体链之间添加甘氨酸连接子,可以使模型预测多聚体结构,这对于建模抗体可变片段的双链结构至关重要。随后,Evans等人推出了一个结合结构和复合物预测的模型:AF2-M。更新后的AF2.3-M模型使用了扩展的数据集(训练数据截止日期从2018年4月 30 日更改为2021年9月30日)。许多方法旨在提升AF2.3-M的对接性能,比如通过调节dropout率实现高多样性的采样率和生成框架,使用多重复制交换对接来优化AF2.3-M预测的复合物,以及MSA子采样。研究表明,MSA子采样和生成框架能够从序列数据中提取构象变化信息,而大规模采样和AlphaRED则在多聚体的采样多样性方面具有明显优势,特别是在缺乏共进化背景的情况下。
在将AF2和ESMFold融合到生成网络中并采用归一化流目标时,Jing等人发现MSA子采样结合AlphaFold为结构构象数据的提取提供了比ESM的嵌入更丰富的背景信息。尽管该模型尚未扩展到多聚体预测,但如果考虑抗体-抗原复合物中的种子效果(如Abramson等人在2024年所观察),预计该模型将进一步提高抗体-抗原对接预测的准确性。AF3集合了这些成熟方法的优点,成为该领域的重要进展。
5 基准数据集 / Benchmark Dataset
单个结构评估集
为了创建免疫球蛋白结构预测数据集,研究从SabDab数据库中提取了结构数据(抗体的截止日期为2024年5月31日,纳米抗体为2024年6月4日),并通过AF3模型的训练数据集截止日期(2021年9月30日)对评估结构进行了时间分离。首先,分离了所有剩余PDB中的抗体副本,然后进行了质量筛选,移除了分辨率≥2.8 Å的PDB以及在CDR环中缺失残基的PDB,通过Bio.Seq Python包比较原子序列和残基序列来识别缺失部分。接着,采用Kabsch对齐算法计算结构对之间重链和轻链的结构冗余性,对于RMSD > 1Å的结构对,仅保留其中一个具有代表性的结构。然后,基于序列冗余对剩余结构进行筛选,与AF3的训练集比对,设定序列相似性截止值分别为99%和95%。在此过程中,研究分别对重链和轻链进行了MSA对齐,使用Abalign工具,并编写了自定义Python函数来计算序列相似性。图5展示了该流程中每一步筛选后的结构数量。
图5:用于评估抗体结构预测的数据集筛选流程,以及每一步筛选后剩余的结构数量。
6 评估方法 / Evaluation Methods
6.1 AF2.3-M 预测
使用从ColabFold(https://github.com/YoshitakaMo/localcolabfold)下载的本地ColabFold安装,搭载AlphaFold-Multimer版本2.3。针对每个目标预测了一个单独的构象,并未使用任何模板。
6.2 AF3 预测
利用AF3服务器(https://alphafoldserver.com/)生成构象,该服务器每个种子生成五个构象(扩散样本)。为了测试种子生成的多样性,为每个目标预测了三个种子,并通过上传JSON文件选项预设了种子编号为一、二或三。
6.3 RMSD 计算
在计算RMSD时,使用了PyRosetta的AntibodyInfo类。对于H3全局RMSD,使用CDR主链函数进行计算,而H3局部RMSD则提取了H3循环的子构象,依然利用AntibodyInfo类,接着使用Rosetta Scoring类计算Cα循环RMSD。
6.4 图形和统计分析
通过Python中的Scipy包进行了Mann-Whitney U检验和Pearson相关性统计分析,同时使用Seaborn包生成了箱线图、散点图和回归图。对于蛋白质结构可视化图像,使用了PyMol 3.0(Schrodinger, Inc.)。
6.5 平均 H3 pLDDT 计算
使用AbNumber(IMGT方案)和重链序列,从AF3的置信度摘要文件中提取每个H3循环的Cα残基的pLDDT值,并在Python中对其进行了平均处理。
7 补充实验 / Additional Experiments
图6:图中展示了错误、可接受和高精度对接的纳米抗体-抗原复合物示例。(A) 显示了一个错误的纳米抗体-抗原复合物,与晶体结构相比,预测对接了错误的抗原界面,抗原结构预测精度较低。(B) 显示了一个可接受的对接复合物,其中抗原结构预测精度较低,影响了取样的表位。纳米抗体的CDR H3环形状正确,但位置不准确。© 纳米抗体的抗原和CDR H3环均预测正确,并且取样到了正确的结合界面。
图7:图中展示了不同DockQ等级下纳米抗体CDR H3环长度的分布,以及错误、可接受和高精度对接的纳米抗体-抗原复合物示例。(A) 表明对于纳米抗体-抗原复合物而言,CDR H3环长度并不是对接精度的影响因素。(B) 同样表明CDR H3环长度不会影响纳米抗体-抗原复合物的对接精度。
图8:ipTM置信度与所有对接的抗体复合物的散点图。图中显示了所有评估的抗体-抗原复合物的DockQ评分与预测的重链和抗原之间ipTM之间的线性相关性(R=0.91)。
文末碎碎念
那今天的分享就到这里啦!我们下期再见哟!
最后顺便给自己推荐一下嘿嘿嘿!
如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!
蟹蟹你们的喜欢和支持!!!