传统方法:
代表为Rosetta软件。
基于物理模型,使用力场和能量函数来描述生物分子中原子间的相互作用,表示为原子间的非共价范德华、静电、氢键等作用关系的和。
第一个问题在于,蛋白质的构象空间是十分庞大的。分子动力学方法只有不到一毫秒的模拟时间,因此除了很小的蛋白只能分析蛋白起始状态。基于蒙特卡洛法的Rosetta试图寻找蛋白链与较大蛋白纠缠时的最小能量状态,因此有更大的构象空间。
第二个问题在于力场的精确性。预测的精确性取决于对力场建模的精确性。
鉴于经过复杂的进化历程,实际氨基酸序列排列有限,将此作为约束可以大大提升此类方法的性能。
引入深度学习的方法:
代表为RoseTTAFold和AlphaFold。
与传统方法不同之处在于,利用深度学习搭建的模型可以拥有百万个参数,而传统方法只有数百个。另外深度学习模型对函数形式没有约束,其学习(定义)过程是由氨基酸序列直接到蛋白质三维结构的映射。
与传统方法相似之处在于,都是通过迭代过程逐步逼近正确结构(但深度学习迭代更新基于当前结构的表达,而非分子动力或蒙特卡洛轨迹,这种方式更有利于全局优化,因为传统方法不一定每一步朝着最优方向)。
在训练过程中,RoseTTAFold和AlphaFold由大量同源序列而不是单序列预测结构,但这些冗余的信息在预测过程中不是必须的,仅使用单序列有时也能起到很好的效果。在蛋白质设计领域,使用训练好的模型可以设计大量新结构,已经受到了X射线晶体学和NMR的检验;另外类比语言模型(给出前几个单词完成整个句子),可以从简单的位点的序列生成完成序列或结构。
未来的挑战:
深度学习模型的训练需要大量数据集,包括结构的原子坐标及相互作用关系,这些数据需要长时间的积累。在某些应用性比较好的领域如药物设计,这类数据是不公开的或体量非常少的。同样,在利用自然界不存在的氨基酸或非蛋白骨架设计时可用来训练的数据更加难以获取。在这种情况下,可以同时使用深度学习方法和基于物理的传统方法。
参考文献:
Baek M, Baker D. Deep learning and protein structure modeling[J]. Nature methods, 2022, 19(1): 13-14.