生物大模型——ESM模型（一）

_小苔藓_

已于 2024-08-11 15:47:10 修改

阅读量2.3w

点赞数 26

分类专栏：深度学习大模型多模态文章标签：语言模型深度学习

于 2024-08-11 15:45:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47520540/article/details/141105740

版权

论文地址（ESM-1b）：https://www.biorxiv.org/content/10.1101/622803v4.full.pdf

论文地址（ESM-2）：https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf

ESM-1b模型

模型概述

ESM-1b（Evolutionary Scale Modeling 1b）是一种用于蛋白质序列建模的深度学习模型。它属于蛋白质语言模型家族，通过对大量的蛋白质序列进行训练，能够学习到序列中的进化信息。ESM-1b以其在多种下游任务中的优异表现而闻名，如结构预测和功能预测。

模型输入

ESM-1b的输入是蛋白质序列，这些序列通常由氨基酸单字母代码组成。例如，一个蛋白质序列可以表示为字符串“MKVIFL...”。模型通过对这些序列进行编码来提取信息，以便在后续的预测任务中使用。

模型结构

ESM-1b的架构基于Transformer模型，这是目前自然语言处理任务中广泛使用的架构。它包含多个注意力层（Attention Layers），能够捕获序列中的长期依赖关系和复杂的上下文信息。与传统的序列模型不同，Transformer能够更好地处理序列中的变异和噪声。

在架构中，ESM-1b使用了一种自监督学习方法，通过预测序列中被掩盖的氨基酸（类似于语言模型中的掩蔽语言建模）来进行训练。这样的训练方式使得模型能够学习到蛋白质序列的丰富表征。

模型输出

ESM-1b的输出是每个输入氨基酸位置的特征表示，这些表示可以用于下游的各种生物信息学任务。输出的特征通常包含蛋白质序列的结构和功能信息，使得研究人员能够对未知序列进行预测和分析。

应用

ESM-1b在多个领域具有广泛的应用：

结构预测：帮助预测蛋白质的三维结构，从而理解其功能。
功能注释：通过序列信息预测蛋白质的潜在功能。
变异影响分析：评估氨基酸变异对蛋白质功能的影

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。