大型语言模型生成功能型不同家族的蛋白质序列：第一节描述

摘要：

深度学习语言模型在各种生物技术应用中显示出前景，包括蛋白质设计和工程。在这里，我们描述了 ProGen，这是一种语言模型，可以生成具有跨大型蛋白质家族的可预测功能的蛋白质序列，类似于在不同主题上生成语法和语义正确的自然语言句子。该模型接受了超过 19,000 个家族的 2.8 亿个蛋白质序列的训练，并增加了指定蛋白质特性的控制标签。 ProGen 可以进一步微调到精选的序列和标签，以提高来自具有足够同源样本的家族的蛋白质的可控生成性能。针对五个不同溶菌酶家族微调的人工蛋白质显示出与天然溶菌酶相似的催化效率，与天然蛋白质的序列同一性低至 31.4%。 ProGen 很容易适应不同的蛋白质家族，正如我们用分支酸变位酶和苹果酸脱氢酶所证明的那样。

描述

蛋白质工程的传统方法执行迭代诱变和天然蛋白质序列的选择，以鉴定具有所需功能和结构特性的蛋白质。相比之下，理性或从头蛋白质设计方法旨在提高创建具有所需特性的新型蛋白质的效率和精度。基于结构的从头设计方法 1-5 采用基于生物物理学原理的模拟，而协同进化方法 6-10 从进化序列数据构建统计模型，以指定具有所需功能或稳定性的新序列。结构和协同进化方法都不是没有限制的。结构方法依赖于稀缺的实验结构数据和困难或棘手的生物物理模拟 3, 11。

共同进化统计模型针对特定的蛋白质家族量身定制，通常依赖于多序列比对，并且在定义的多序列比对之外的空间中运行不佳 11。最近，深度神经网络已显示出作为蛋白质科学和工程的生成和判别模型的前景 12-20。他们学习复杂表示的能力对于有效利用呈指数增长的多样化且相对未注释的蛋白质数据来源至关重要——公共数据库包含数百万个未对齐的原始蛋白质序列 21-23。受到基于深度学习的自然语言模型的成功启发，这些模型在大型文本语料库上训练，生成具有不同主题和情感的真实文本24-28，我们开发了 ProGen，这是一种蛋白质语言模型，在数百万个原始蛋白质序列上训练，生成人工蛋白质多个家庭和功能。虽然之前的工作表明，受自然语言启发的蛋白质统计表示可用于蛋白质信息学任务，例如稳定性预测、远程同源检测和二级结构预测 11,29–31，但我们表明深度学习的最新进展- 可以采用基于语言建模的方法从头开始生成人工蛋白质序列，其功能与天然蛋白质一样。

ProGen 通过学习在给定原始序列中过去的氨基酸的情况下预测下一个氨基酸的概率来迭代优化，没有明确的结构信息或成对共同进化假设。 ProGen 以这种无监督的方式从一个大型、多样的蛋白质序列数据库（补充表 1）中进行训练，学习了一种通用的、独立于域的蛋白质表示，它包含局部和全局结构基序，类似于自然语言模型学习语义和语法规则。训练后，可以提示 Pro-Gen 从头开始为任何蛋白质家族生成全长蛋白质序列，与天然蛋白质具有不同程度的相似性。

在蛋白质家族的一些序列数据可用的常见情况下，我们可以使用微调预训练语言模型（32-35）与家族特定序列的技术来进一步提高 ProGen 捕获分布的能力对应于蛋白质家族的局部序列邻域。 ProGen 是一个 12 亿参数的神经网络，使用包含 2.8 亿个蛋白质序列的公开数据集进行训练。 ProGen 的一个关键组成部分是条件生成 28,36–38，即由属性标签（例如蛋白质家族：Pfam ID PF16754、Pesticin）控制的序列生成作为语言模型的输入提供。在自然语言的情况下，这些控制标签可能是风格、主题、日期和其他实体（图 1a）。对于蛋白质，控制标签是蛋白质家族、生物过程和分子功能等属性，可用于公共蛋白质数据库中的大部分序列（图 1b 和补充图 1）。