把已知生物大分子的结构进行精准比较,这样一个看似简单的问题,在AI高度发展的今天,居然是分子生物学里面一个悬而未决的数学问题。最近,密歇根大学和耶鲁大学的科学家合作在Nature Methods上发布的 US-align(Universal Structure Alignment, https://zhanggroup.org/US-align/)是全球第一款能把不同蛋白质和核酸等生物大分子的比对功能融合到同一个程序框架中,利用统一的标度函数和搜索引擎,来进行高精度多功能结构比对的计算机软件。
"它一方面解决了此前不同比对算法‘各自为政’、难以沟通的问题;另一方面,通过采用统一标度和搜索引擎,有助于对含有不同类型分子的复合物比如在蛋白质-RNA 复合物之间进行高精度比对。对于生物大分子的功能注解、以及现代药物的开发来讲,第二方面显得尤为重要。” 著名蛋白质工程学家、美国密歇根大学医学院生物化学系教授张阳表示。
密歇根大学张阳教授
为什么这是一个重要的问题,值得在Nature Methods这样高影响力杂志(IF=47.99)上发表?
我们居住的这个星球上繁衍着各式各样的生命,每个高级生命体的复杂社会学行为本质上都是通过其分子水平上的生物学功能来实现。而核酸和蛋白质分别是这些功能的主要操控和执行者,它们的生物学功能都由其三维的空间结构和形状来决定。因此,蛋白质和核酸分子的结构比对,是结构生物学和分子生物学的最基本问题之一。而 US-align 这样的高精度多功能的结构比对算法,可在面对不同生物大分子的复杂结构和形状时,帮助分子生物学家们得到定量、精准、以及快速的比较结果。
US-align 在分子生物学上的一个主要应用就是通过其精准的结构比对,帮助生物学家从已知的蛋白质家族推导未知的蛋白质家族的生物学功能,即所谓蛋白质功能注解。此外,它在蛋白质和 RNA 结构预测、生物分子设计、高通量分子结构搜索、以及大型结构库的建立和结构归类研究等领域也可得到广泛应用。
特别是,最近几年结构生物学技术的发展,比如冷冻电镜技术的进步,已让结构生物学家能够解析出许多大分子复合物的结构。因此,如何针对高阶生物大分子复合物的结构,做出快速的比对分析变得特别重要。
据悉,US-align 能对不同类型的生物大分子的复合物,比如含有蛋白质、RNA 和 DNA 分子复合物,进行统一便捷的结构比较。这也让它自然地适用于蛋白质、肽链和 RNA 之间的组装和对接的研究。
US-align对大尺度RNA结果的比对结果
据张阳教授介绍,多年以来,传统的药物研发都是以蛋白质为靶向进行药物设计,比如设计新的药物分子来调节和改变靶向蛋白的结构和功能,从而实现疾病治疗。截至目前,所有美国食品药品监督管理局(Food and Drug Administration,FDA)批准的药物加起来,只是针对不到 700 种的不同蛋白质而已。也就是说,人体大多数蛋白质不能用作药物靶向蛋白。因此,只以蛋白质作为靶向,限制了药物开发的范围。
其实,能够最后表达成蛋白质的基因只占人体整个基因组的 1.5% 左右。大部分人体基因组都会转录成一种不能够编码成蛋白质的非编码 RNA。而很多非编码 RNA(包括 tRNA、rRNA、siTNA、snRNA、microRNA 等)在 RNA 水平就能行使各自的生物学功能。
最近的研究表明,许多非编码的 RNA 分子都可以用作有效的药物靶向分子,其数目远远超过可以用作药物靶向的蛋白质的数目。因此,高精度快速的蛋白质 RNA 分子的结构比较,对于 RNA 靶向制药产业也会产生重要影响。
人体基因表达的蛋白质和RNA的分布图
一个程序框架一统大分子结构比对的“江湖”?
US-align所解决的是关于蛋白质和核酸等生物学大分子的结构比对的问题,这在结构生物学和生物信息学领域,是一个基本且重要的问题。
在生物信息学领域,研究新的未知基因或者蛋白质功能的一个主要手段,是通过把它们的序列、与已知基因或者蛋白的序列进行比较,这一过程也叫序列比对。如果蛋白质序列的相似度高,往往认为它们具有相同的结构和功能。由此,可以从已知蛋白的结构和功能,来快速地推导和了解新的未知蛋白质的结构和功能。
但是,这种方法存在两大不足。
第一,序列相似度高的基因或者蛋白质,并不一定总是有相似的生物学功能。相反,因为长期进化的原因,自然界很多序列相似度比较低的基因和蛋白质,可能有相似的功能。因此,仅仅由序列相似性作为依据来推导基因或者蛋白的功能,并不总是可靠和全面。原则上来讲,蛋白质在细胞中的生物学功能,和它的三维空间结构直接相关。因此,从结构决定功能的角度出发,为了更加准确有效地研究未知蛋白的功能,除了进行基因的序列比对之外,还需将不同蛋白质的三维结构或者空间形状进行比对。
第二,从技术上来讲,序列比对只涉及到一维信息,相对来讲它比较容易解决。事实上,如果给定 20 种氨基酸之间的变异几率矩阵,再利用美国科学家索尔·本·尼德尔曼(Saul Ben Needleman)和克里斯蒂安 D . 文施(Christian D. Wunsch)于 1970 提出的动态规划算法,通过计算机程序即可快速推导出任何一对蛋白质序列的最优比对结果。因此,数学上来讲,一维序列的比对是一个已经解决的问题。但是,三维结构的比对涉及到三维空间原子对的距离,后者与蛋白质结构整体空间的叠加方向有关,这在数学上是一个 NP-hard 问题。或者说,计算机算法很难在有限的时间内,找到最优解。所以,相对于蛋白质的序列来讲,虽然它们的三维结构与其生物学功能有更加紧密和直接的关系。但是,精确的蛋白质结构比对是一个更加困难、且依然无解的问题。
在过去几十年的研究中,计算生物学领域的科学家们开发了一些关于蛋白质三维结构比对的算法。比较有名的包括张阳教授团队开发的 TM-align 和欧洲分子生物学实验室开发的 Dali。但是,这些算法仍旧局限于蛋白质单链分子的结构比对。
事实上,自然界很多其他的生物学大分子,特别是 RNA 分子因为其生物学功能的发现、以及在药物开发上的重要性,在近几年已经成为研究热点。但是,人们仍然缺乏有效的核酸结构比对算法。
另外,除了单链分子结构的两两比对之外,很多情况下生物学家经常需要对含有多条链的高阶分子复合物进行比对,以及对多个单链分子的结构同时进行比对(也称作多重结构比对)。
面对这些具体问题,传统的结构比对程序往往需要分别建立特殊的计算机算法。尤其是针对复合物大分子之间的比对、以及单链分子的多重结构比对。鉴于问题的复杂性,算法的时间和精度也成为重要的考验。而 US-align 正是张阳为上述问题交来的答案。
US-align论文的截图。密歇根大学张阳教授担任通讯作者,其课题组的张成辛博士担任第一作者 。
对于投稿过程张阳表示:“这篇工作一共被送往三个审稿人评审。其中,第一位审稿人可能是我们实验室服务器的粉丝用户。他/她认为这个工作解决了一个非常基本和重要的问题。他/她说,‘我毫不怀疑,就像他们早期开发的算法/服务器一样,这个平台将在这个领域中得到广泛应用。’一方面,他/她认可我们实验室以往的努力。另一方面,也十分赞赏我们用同一个计算机程序来统一不同算法的想法。”
第二位审稿人也认可该工作的重要性,认为 US-align 算法可靠、基准测试令人信服。同时,对方觉得此次算法所包含的功能比较多,因此建议张阳加一张图,简要而直观地描述 US-align 的大致功能,以帮助用户更好地使用,这便是论文中图一的由来。
US-align的四大应用功能
第三位审稿人对 US-align 算法在工程上的优化极为赞赏。他/她认为,US-align除了将不同分子的结构比对算法用一个统一的框架来实现,在速度和精度方面相对于单个算法也有很大提升。
同时,该审稿人也提出了关于结构比对的一个经典问题:每种计算机结构比对算法都会首先设计一种目标函数,然后对此进行优化。但是,在客观评价比对结果的时候,到底什么样的比对才是最好的结果,即衡量标准的标准是什么,这仍然是一个值得争议的问题。为此,张阳课题组除了统计算法的 TM-score、RMSD 和比对覆盖范围,也增加了 US-align 相对于基于人工注解的比较结果,以证明 US-align 可以产生比其他自动算法更加接近于人工直觉的比对结果。
US-align将蛋白质和RNA同时进行结构比对
“三代师徒”和他们的算法
张阳表示,和他此前开发的许多其他算法一样,US-align 是由于其他研究项目的需要而提出,然后汇聚多人的努力、逐渐开发出来的。
首先,鉴于研究蛋白质结构和功能预测的需要,之前张阳和其导师佐治亚理工学院生物学院教授Jeffrey Skolnick 一起,提出了一种衡量蛋白质结构相似性的新标度 TM-score、以及基于 TM-score 的蛋白质结构比对算法 TM-align。
其中,TM-score 已成为目前测量蛋白质结构预测精度、包括 CASP(Critical Assessment of protein Structure Prediction)蛋白质国际预测大赛的一个金标准。
而 TM-align 也成为结构生物学领域目前最为流行的蛋白质结构比对算法,是很多国际平台,包括 PDB(Protein Data Bank)蛋白质数据库、以及 Debian Unix 计算机操作系统,指定的蛋白结构比对算法。
原始的 TM-score 和 TM-align 代码,由张阳在 10 多年前用 Fortran77 写成。后来,该实验室的博士后杨建益博士和访问学者吴剑洁博士把 TM-align 用 C++ 重写了一遍。
此后,张阳教授的博士研究生 Srayanta Mukherjee 以及访问学者龚莎博士,则分别把 TM-align 推广到多蛋白复合物以及 RNA 分子间的结构比对。
最后,张阳的另一位博士研究生即本次论文一作张成辛,把它进一步推广到多结构比对,并把不同类型的结构比对算法进一步整合、优化、归并到一个统一的算法中,形成了 US-align。
US-align 在线服务器(https://zhanggroup.org/US-align/)
US-align与大标度蛋白质组和 RNA 组学
不过,张阳教授也坦言虽然 US-align 的开发是向生物大分子结构的统一比对上迈进的重要的一步,但是它并没有解决结构比对的所有问题。其中,US-align 的一个主要限制是,它只能进行和序列同向的有序结构比对。
从数学角度来讲,蛋白质可以看成是一条由不同氨基酸组成的、有方向的链。从 N-到 C-端,我们可以把构成蛋白质的所有氨基酸按顺序标上 1 到 L 的序号。目前,US-align 只能进行从 N- 到 C- 端有顺序的比对。也就是说,如果一个蛋白质的两个氨基酸的序号服从(j>i),那么在另一个蛋白质上与它们相比对的两个氨基酸也必须服从同样的顺序(j'>i'),不能颠倒。
虽然这种有序比对于衡量蛋白质的整体拓扑学的结构至关重要,但是对于某些特定的任务,US-align 这种有序的结构比对并不适用。
比如,在蛋白质中,能和药物配体直接相互作用的只有少部分氨基酸。这些氨基酸往往在空间中形成一个特殊形状的口袋,以便它们更好地和药物配体相互作用。从某种意义上来讲,药物和蛋白质的关系有点类似于钥匙和锁的关系,而新药开发的过程就类似于我们按照给定的锁孔寻找新钥匙的过程。在这个过程中,不同蛋白质口袋与口袋之间的结构比对,对于新药开发就特别重要。但是,因为组成这些口袋的氨基酸并不是按序列有序组成,所以 US-align 对于这种口袋结构之间的比较显得无能为力。要解决这个问题,需要将 US-align 推广到无序结构比对。也就是说这是一个只重视形状、不重视顺序的结构比对问题。
另外,很多大的蛋白质和 RNA 分子含有多个结构单元,或者称作“域”。因为进化的关系,很多结构域本身会保持守恒的结构,但是域和域之间可能会产生方向上的平移或者转动。
因为 US-align 原则上是刚性结构比对,所以它并不能识别这种因为进化而形成的域-域之间的位置变化。换句话讲,当域和域之间的相对方位产生变化时,虽然单个结构域的本身结构并不变化,但是因为它们位置的错动,整体结构比对的 TM-score 会很低。要解决这个问题,需要把结构域的柔性比对引入 US-align。
当然,上面提到的两点主要是技术上的推广。对于张阳来说,更重要的后续研究是把 US-align 应用到大标度蛋白质和 RNA 组学的结构比对,帮助其进行生物大分子的整体结构归类、数据库建设、以及数据库搜索,从而进行高精度蛋白质和 RNA 结构和功能预测、以及分子水平的药物研发。
参考文献:
1. Zhang, C., Shine, M., Pyle, A.M., Zhang, Y. US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes. Nat Methods 19, 1109–1115 (2022).
https://www.nature.com/articles/s41592-022-01585-1
US-align在线服务器和源代码下载: