摘要:
深度学习语言模型在各种生物技术应用中显示出前景,包括蛋白质设计和工程。在这里,我们描述了 ProGen,这是一种语言模型,可以生成具有跨大型蛋白质家族的可预测功能的蛋白质序列,类似于在不同主题上生成语法和语义正确的自然语言句子。 该模型接受了超过 19,000 个家族的 2.8 亿个蛋白质序列的训练,并增加了指定蛋白质特性的控制标签。 ProGen 可以进一步微调到精选的序列和标签,以提高来自具有足够同源样本的家族的蛋白质的可控生成性能。 针对五个不同溶菌酶家族微调的人工蛋白质显示出与天然溶菌酶相似的催化效率,与天然蛋白质的序列同一性低至 31.4%。 ProGen 很容易适应不同的蛋白质家族,正如我们用分支酸变位酶和苹果酸脱氢酶所证明的那样。
讨论
总之,我们的研究表明,仅使用进化序列数据训练的最先进的基于 transformer 的条件语言模型可生成跨蛋白质家族的功能性人工蛋白质。 额外的分析表明,我们的模型已经学会了一种灵活的蛋白质序列表示,可以应用于不同的家族,如溶菌酶、CM 和 MDH。 虽然我们不希望我们的语言模型生成属于完全不同分布或域的蛋白质(例如,创建一个催化非自然反应的新折叠),但它可以从进化采样的蛋白质序列中大大扩展蛋白质序列的空间。 将生物物理建模与生成模型相结合可以进一步帮助我们探索与进化采样完全不同的数据分布17、59、60。 我们模型的应用可能包括生成极有可能功能性蛋白质的合成文库,用于发现或迭代优化。 结合不断增加的序列数据源和更具表现力的控制标签,我们的工作指出了使用基于深度学习的语言模型精确从头设计蛋白质以解决生物学、医学和 环境。
任何方法、附加参考、Nature Portfolio 报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息; 作者贡献和竞争利益的细节; 数据和代码可用性声明可在 https://doi.org/10.1038/s41587-022-01618-2 获得
