题目:New prediction categories in CASP15
文献来源:Proteins. 2023;1–8.
代码:无
内容:结构预测关键评估(CASP)实验中的预测类别随着结构建模中需要解决特定问题的需要而变化。在CASP15中,引入了四种新的预测类别:RNA结构、配体-蛋白复合物、低聚结构及其界面的准确性,以及备选构象的集合。本文列出了这些类别的技术规范,并描述了它们在CASP数据管理系统中的集成。
1.背景介绍
结构预测的关键评估(CASP)是一个成熟的比赛,可以显示从氨基酸序列和相关挑战中计算蛋白质结构计算方法的进展。虽然CASP的核心自成立以来一直没有改变,但其范围经常发生变化,一些任务类别会过时,一些任务类别则会被引入。随着CASP14中单蛋白结构建模的重大进展,第15届删除掉三个类别的任务:单体目标的接触预测、细化和第三方模型精度估计。与此同时,组织者和顾问委员会成员之间的讨论,以及对建模社区的调查,促进了人们对RNA结构,蛋白质-配体复合物,低聚物结构及其界面的准确性,以及备选构象的集合等新任务的兴趣。CASP在这些领域开展了试点实验,在可能的情况下,与参与现有或最近停止的相关实验的小组进行合作。在CASP15中,新的任务类别产生了有趣的结果,关于它们的评估在本杂志特刊的专门论文中进行了展示。本文的主要目的是解决在CASP中引入新任务类别的技术问题,并展示了格式规范和实验如何进行的细节信息。
2.RNA结构预测
从核酸序列中预测RNA的结构是一项具有挑战性的任务,因为RNA分子,就像蛋白质一样,可以折叠成各种各样的三维形状。几个研究小组一直在这一领域积极工作,2010年, Eric Westhof开创了一个类似CASP的挑战来追踪RNA结构预测的最新进展,并为讨论该方法的进展提供一个论坛。在12年(2010-2021年)的过程中,有22个被评估的RNA挑战,吸引了大约10名参与者的注意。
2.1RNA预测格式
(https://predictioncenter.org/casp15/index.cgi?page=format#TS)
与蛋白质结构预测类似,CASP RNA提交文件以CASP行首开始,包括格式规范代码、目标标识符、作者标识符和用于建模的方法的描述。该文件最多可以包括5个RNA 3D模型,每个模型都由MODEL/END关键字包含。模型是根据 RNA-Puzzles社区的既定标准进行格式化的:
-
为目标FASTA文件中所有核苷酸的完整原子列表提供了三维坐标。
-
只允许使用天然核苷酸(A、C、G、U)。
-
如果存在,修饰的单体单位通过丢弃非典型原子转化为未修饰的单体单位。
-
只允许以下原子(C2、C4、C6、C6、C8、N8、N1、N2、N2、N3、N4、N6、N6、N7、N9、O2、O4、O6),以及(C10、C20、C30、C40、C50、C50、O20、O30、O40、O40、O50、OP1、OP2、P)作为糖磷酸主链的原子。
在蛋白质-RNA复合物的情况下,蛋白质链用字母(A、B、C、…)表示,RNA链用数字(0、1、2、…)表示。
在CASP15格式页面上的示例3中提供了RNA预测的一个例子:https://predictioncenter.org/casp15/index.cgi?page=format
2.2目标和模型模板的准备
CASP的组织者准备了一个包含目标RNA序列的FASTA文件。该文件以一个行首开始,其中包含目标结构中所有链的目标ID(例如,>R1117)和链ID(即,从0到9的数字)。该文件的主体包括核酸序列。此外,组织者使用RNA-Puzzles格式化工具生成了一个3D结构模板。该模板是一个PDB文件,其中包含所有必需的带有零坐标值的ATOM记录。关于目标的信息通过CASP的门户网站传达给参与小组。
在提交之前,预测器可以通过运行RNA-Puzzles工具来验证其模型与提供的模板的兼容性。如果预测文件不符合要求,则会将错误消息报告给日志文件。不兼容的文件可以使用rna-tools工具箱中提供的rna_pdb_toolsx.py脚本进行重新格式化。
2.3设置验收系统
在目标发布时间时,为每个目标分配一个预测时间窗口,服务器通常为3天,专家组通常为3周。RNA结构模型通过电子邮件或专门的CASP预测提交网络形式被接受。CASP提交系统会自动检查提交的文件是否符合截止日期和格式要求,并向预测者提供反馈。预测格式使用用于生成模型模板的相同工具进行检查。如果预测被拒绝,则将向提交者发送一条错误消息,他们将在目标截止日期之前修复所报告的问题并重新提交。可接受的预测存储在CASP系统中,并最终在目标结构可用后进行评估。
2.4RNA评价指标
图1 PreQ1I类III型核糖体开关的两个模型与目标结构叠加(R1117,绿色)。模型R1117TS119_3(橙色,面板B)正确地复制了所有规范碱基对同时不复制任何非规范交互和RMSD 9.90。模型R1117TS287_2(蓝色,面板)错过了7%的规范碱基对。
RNA预测是通过检查其几何合理性并与目标结构进行比较来评估的。当替代目标结构可用时,CASP报告了每个模型的最佳分数。评价指标包括碰撞评分、均方根偏差(RMSD)、局部距离差异检验(lDDT)、模板建模得分(TM-score)和全球距离检验-总分(GDT-TS)。这些是蛋白质-CASP评价中常用的方法,在这里也用于RNA评价。然而,这些指标都不适合评估RNA特异性成分,如典型的(G-C、A-U、G-U)、非典型的,以及有助于RNA折叠和稳定的碱基之间的堆叠相互作用。仅对正则相互作用的正确预测通常不足以获得一个良好的RNA分子模型(如图1所示)。虽然其对非正则相互作用的预测非常有价值,但由于计算需求高而难以实现。此外,CASP还考虑了一种RNA特异性的测量方法,即相互作用网络保真度(INF)。它在模型中评估不同类型的RNA相互作用。这些指标的计算需要事先从原子坐标中确定RNA的相互作用。给定两组交互作用,一组是模型,另一组是目标,系统识别真阳性(正确预测碱基对)、假阳性(未预测碱基对)和假阴性(错误预测碱基对),然后计算INF得分作为Matthes相关系数。得分范围为[0.0,1.0],得分越高,说明对碱基间交互作用的预测效果越好。INF得分确定于所有交互作用(INF_all),并分别为规范((Watson-Crick,INF_WC)、非规范((non-Watson-Crick,INF_nWC)和堆叠(INF_stacking)交互作用。
许多RNA靶标来自于低到中分辨率(4-7A)的低温电子显微镜图。为了消除参考结构中可能存在的偏差和建模不确定性,CASP通过直接将预测与地图进行比较来额外评估预测。将模型对接到地图后,用五种不同的方法对预测进行评分:CCmask、CCpeaks、MI、SMOC和AI。值得注意的是,已知与模型无关的度量会夸大具有不现实几何形状的压缩模型的分数。因此,当使用这些分数时,重要的是首先过滤掉拓扑分数较差的模型,或者将这些分数与几何分数结合起来,比如clash分数。
3.蛋白质配体复合物
3.1大分子-配体复合物预测格式
(https://predictioncenter.org/casp15/index.cgi?page=format#LG)
配体预测格式的一个重要要求是以稳健可靠的方式编码原子连通性-因为对称性修正需要正确的原子连通性,这是准确配体评估的必要步骤。然而,在CASP中常用的PDB格式不能可靠地编码任意配体的连接性。MDL摩尔文件格式是早期配体对接中用于配体的常见格式。
在CASP15中,组织者设计了一种混合提交格式,其中受体的模型(蛋白质或RNA)和配体模型在相同的空间参考框架中作为单独的文件提交。该受体以PDB格式提交,而配体以MDL格式提交(详见下文)。与常规的蛋白质结构提交类似,CASP配体提交(LG格式)以一个CASP行首开始,其中包括格式规范代码、目标标识符、作者标识符和建模方法的描述。引入了两个新的关键字:配体关键字,它定义了配体名称和配体数据的开头,以及POSE关键字,它定义了所选配体的POSE号。参与者可以为一个选定的受体模型提交一个给定配体的五种姿势。在CASP15格式页面上的示例6中提供了LG预测的一个例子。
3.2目标和模型模板的准备
受体序列的FASTA文件由CASP组织者准备。对于已知的小分子,SMILES可以从PDB组件字典中检索到。在新的小分子(不存在于PDB组件字典中)的情况下,SMILES由实验者提供。在这两种情况下,SMILES都会根据PDB坐标的结果进行比较和修改。如有必要,使用RDKit中的AssignStereochemistryFrom3D函数来分配立体化学,并通过基于蛋白质-配体相互作用的视觉检查手动编辑SMILES来调整质子化状态。每个小分子的相关性是逐个决定的。只有生物学上相关的小分子被保留下来。如果不与小分子或部分结构基序(如锌结合基序)相互作用,常见的晶体学试剂和离子就会被忽略。CASP组织者提供了一个准备预测模板(MDL文件)的脚本。它是在python 3和RDKit中实现的。该脚本最初使用RDKit将输入的微笑字符串转换为RDKit Mol对象。化学MolFromSmiles方法。在这个阶段,Mol对象只包含与小分子性质相关的信息,如原子类型和键的形成。坐标部分将使用RDKit的ETKDG方法添加到Mol对象中。随后,Mol对象被写入MDL格式的文件,它可以用作配体提交模板。
3.3设置验收系统
配体预测的验证是用python 2.7和RDKit编写的脚本进行的。初始检查验证CASP行首部分(PFRMAT、目标、作者和模型/END记录的可用性和正确性)。一旦提交通过了这个阶段,配体模型将被转换为RDKit Mol对象,并与下游评估的模板进行比较。提交文件中的每个分子都通过与如上所述的相应SMILES串生成的参考Mol对象进行比较来验证。为了验证提交的内容,CASP对以下参数进行了比较:
-
原子的数量及其类型。
-
键的数量。
-
键对中的键类型和原子类型(例如,C-C单键,或C=0双键)。
此外,为了考虑所提交模型中的原子连通性和手性,CASP使用RDKit中的FindMCS函数计算了所提交的配体和参考配体之间的最大公共子结构。为了通过验证,一个分子必须有一个在参考模型中等于原子数的最大共同子结构。最后,系统将创建一个验证报告用于显示验证过程的结果以帮助排除无效提交的情况。
3.4大分子配体复合物评价指标
之前的配体对接挑战使用了两种主要指标来评估受体-配体复合体的预测效果。这些方法用RMSD度量评估了预测的配体在结合位点内与目标的绝对距离,以及天然受体-配体相互作用的复制程度。CASP实验带来了额外的评估挑战:(1)由于受体结构没有给出,而是建模,模型中的配体和参考复合物可以结合到不同的结合位点构型上,因此计算任何基于叠加的分数都需要与两个复合物中的配体初步对齐,这不是一项简单的任务;(2)需要建立链映射;(3)某些目标中的不完全配体需要部分图匹配才能进行对称性校正;(4)目标和模型中的多个配体副本必须被唯一地映射(分配),以避免对目标或预测的配体进行评分。
为了解决这些挑战,CASP开发了两个分数,它们在CASP15配体评估论文中进行了更详细的描述。结合位点叠加的、对称校正的姿态均方根偏差(BiSyRMSD)分数定义了结合位点和计算目标和模型配体之间的RMSDs的叠加。蛋白质-配体相互作用的局部距离差异测试(lDDT-PLI)测量通过基于lddt的度量和对称性校正,评估了受体和配体之间的天然接触在模型中的再现程度。当结合使用时,这些分数可以更好地解释受体-配体复合体的建模情况。
4.低聚目标模型精度的估计
4.1模型精度预测格式
(https://predictioncenter.org/casp15/index.cgi?page=format#QA)
对于全局(整个模型)精度预测(QMODE1),参赛者需要提交一个折叠相似度评分(评分,在0-1范围内)-估计模型与目标模型的整体折叠的相似性,以及一个界面相似度评分(QSCORE,也在0-1范围内)-=评估四元结构接口的可靠性。提交QSCORE是可选的,预测器可以通过将“X”符号放在QA预测的相应位置来跳过它(见上面的链接)。在QMODE2(局部精度)中,除了QMODE1分数外,预测器还被要求为模型的界面残差分配置信度分数,以表明它们存在于原生结构的界面中的可能性。界面残基被识别为与来自不同链的至少一个残基接触,其Cβ-Cβ距离不超过8A(如果该残基是甘氨酸,则为Cα)。在CASP15格式页面上的示例5中提供了QMODE1和QMODE2中的EMA预测示例。
4.2提交收集系统
CASP15中的EMA预测被要求适用于所有(和仅适用于)多聚目标。EMA目标是在收集所有模型(而不仅仅是服务器模型)之后发布的。在TS目标关闭后的第二天,创建一个包含所有CASP组组装预测的数据库,目标文件的链接被推送到EMA服务器并发布在CASP15网站上。所有EMA组,无论其类型(即“服务器”或“人类”),都有2天的时间返回包含在数据库文件中的TS模型的精度估计值。使用验证脚本检查预测,并保存成功的预测以供后续评估。
4.3EMA评价指标
将全局预测与具有所期望属性的已建立的评价指标进行了比较。这是总体拓扑(分数)的低聚模板建模分数(TM-score)和基于接触的QS-score,即以界面为中心的(QSCORE)。为了确保全面的评价,这些指标还补充了额外的措施。一种寡聚GDT样评分,称为寡聚-GDTTS,用于整体拓扑分析,以及以界面为中心的DockQ评分的变体。将局部预测与每个残基lDDT17和CAD(aa变体)分数进行比较,以评估包括邻近链在内的相对原子位置的准确性。此外,CASP引入了两种新的QS-score和DockQ的局部变体:PatchQS和PatchDockQ。所有的评估指标都在CASP15 EMA评估文件中详细描述。
5.备选构象的集合
随着对单个结构的深度学习方法的成功,评估预测备选构象集合的方法变得越来越重要。虽然深度学习和其他方法在某些情况下有可能生成集成,但这些能力从未经过过严格的测试。CASP15首次尝试包含这一类别。CASP将构象情况分类为:(1)大分子在相同的环境和化学条件下填充多种构象的情况(包括本质上无序的蛋白质或蛋白质部分;振动运动;局部替代构象;“幽灵”构象在低水平存在,但在其他条件下占主导地位;和折叠中间体)。(2)大分子对环境或化学变化采取不同构象的情况(配体结合;大分子复合物的形成;翻译后修饰;突变;以及晶体、pH等环境变化)。CASP所考虑的第三类系综是与实验数据相一致的构象集。后者是一个越来越重要的类别,因为现在普遍的高准确性计算结构和包含低分辨率数据。替代构象的目标不需要单独的预测格式,因为它们是在CASP中常规处理的三维结构,但它们确实需要一种提交多个模型的机制。在CASP15中,这种需求以两种不同的方式来处理。在某些情况下,不同的备选构象被视为单独的目标。特别是
-
以野生型结构(靶点T1110)和T11点突变体T1109代表,其中氨基酸D183变为A183。
-
以野生型结构(靶点T1110)和T11点突变体T1109代表,其中氨基酸D183变为A183。
-
将两对靶点(TR1189和TR1190)分别用于建模代谢物抑制蛋白(RsmA)和一个非编码RNA(RsmZ)的复合物。这两种复合物都包含一个RNA分子,但包含不同数量的蛋白质分子(TR1189中有6个,TR1190中有4个)。
-
我们分配了5个靶点(T1158v0-v4)来建模IV型ABC转运体,其中观察到五种不同的构象,这取决于环境条件(配体结合)。
在其他情况下,CASP鼓励参与者使用标准的CASP五个模型的目标格式提交多个构象。这种方法被用于:
-
三种激酶(CASP以T1195-T1197为目标),每种激酶都有两到三组代表不同构象的实验坐标。
-
Holliday连接复合物(目标T1170、H1171、H1172),其中一些亚基由于与复合物中的DNA和其他蛋白质分子接触而变形。
-
Holliday连接复合物(目标T1170、H1171、H1172),其中一些亚基由于与复合物中的DNA和其他蛋白质分子接触而变形。
-
RNA乙型冠状病毒结构BtCoV-HKU(CASP靶点R1156)的SL5结构域,其中一个螺旋相对于该结构的其余部分接受多个相对构象。
6.总结
本文总结了CASP15中新的预测类别的技术方面,可作为未来预测指标的参考点。在CASP15中处理RNA/配体/多EMA预测的系统是在实验开始前不久实施的,因此,没有进行广泛的测试。基于来自CASP15评估者和预测者的反馈,CASP计划通过进一步自动化验证RNA和配体提交的过程,并确保模型更好地符合系统所要求的格式。这种时间和精力的投入应该在评估阶段通过更无缝的预测评估得到回报。由于PDB格式已经过时,组织者将激励CASP中使用的评估措施的预测器和开发人员在他们的工具和方法中支持PDBx/mmCIF格式。对于RNA类别,我们将努力进一步纳入和标准化评估碱基-碱基相互作用网络的评估措施。这将需要在RNA相互作用的识别和注释方面建立社区接受的标准。此外,CASP将努力改进比较预测与原始数据的措施,以评估低分辨率目标。对于配体预测类别,CASP需要改进具有更有趣的配体建模挑战的目标集,可能是通过利用制药公司的未释放结构。
-------------------------------------------
欢迎点赞收藏转发!
下次见!