论文地址(ESM-1b):https://www.biorxiv.org/content/10.1101/622803v4.full.pdf
论文地址(ESM-2):https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf
ESM-1b模型
模型概述
ESM-1b(Evolutionary Scale Modeling 1b)是一种用于蛋白质序列建模的深度学习模型。它属于蛋白质语言模型家族,通过对大量的蛋白质序列进行训练,能够学习到序列中的进化信息。ESM-1b以其在多种下游任务中的优异表现而闻名,如结构预测和功能预测。
模型输入
ESM-1b的输入是蛋白质序列,这些序列通常由氨基酸单字母代码组成。例如,一个蛋白质序列可以表示为字符串“MKVIFL...”。模型通过对这些序列进行编码来提取信息,以便在后续的预测任务中使用。
模型结构
ESM-1b的架构基于Transformer模型,这是目前自然语言处理任务中广泛使用的架构。它包含多个注意力层(Attention Layers),能够捕获序列中的长期依赖关系和复杂的上下文信息。与传统的序列模型不同,Transformer能够更好地处理序列中的变异和噪声。
在架构中,ESM-1b使用了一种自监督学习方法,通过预测序列中被掩盖的氨基酸(类似于语言模型中的掩蔽语言建模)来进行训练。这样的训练方式使得模型能够学习到蛋白质序列的丰富表征。
模型输出
ESM-1b的输出是每个输入氨基酸位置的特征表示,这些表示可以用于下游的各种生物信息学任务。输出的特征通常包含蛋白质序列的结构和功能信息,使得研究人员能够对未知序列进行预测和分析。
应用
ESM-1b在多个领域具有广泛的应用:
- 结构预测:帮助预测蛋白质的三维结构,从而理解其功能。
- 功能注释:通过序列信息预测蛋白质的潜在功能。
- 变异影响分析:评估氨基酸变异对蛋白质功能的影