encoder-only | decoder-only | encoder-decoder常见模型总结

yxx122345

于 2025-02-25 15:10:02 发布

阅读量351

点赞数 7

文章标签： transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yxx122345/article/details/145853843

版权

以下是常见大模型的编码器和解码器类型总结，包括GPT和DeepSeek R1，以及采用这些结构的理由：

模型名称	编码器-解码器类型	结构理由
GPT系列	Decoder-only	GPT系列采用Decoder-only结构，专注于自回归生成任务，通过掩码自注意力机制生成文本。
BERT	Encoder-only	BERT采用Encoder-only结构，专注于双向上下文理解，适用于分类、问答等任务。
T5	Encoder-Decoder	T5采用完整的Encoder-Decoder结构，适用于多种文本生成和理解任务，统一了任务格式。
BART	Encoder-Decoder	BART结合了双向编码和自回归解码，适用于文本生成和重构任务。
DeepSeek R1	Decoder-only	DeepSeek R1采用Decoder-only结构，专注于高效的自回归生成，适用于大规模文本生成。

结构选择的理由：

Decoder-only（如GPT、DeepSeek R1）：
- 适用于自回归生成任务，如文本生成、对话系统。
- 通过掩码自注意力机制，模型只能看到当前及之前的token，适合逐词生成。
- 结构简单，训练和推理效率高。
Encoder-only（如BERT）：
- 适用于需要理解整个上下文的任务，如文本分类、命名实体识别。
- 双向注意力机制可以捕捉前后文信息，提升理解能力。
Encoder-Decoder（如T5、BART）：
- 适用于需要同时理解和生成文本的任务，如翻译、摘要生成。
- Encoder负责理解输入，Decoder负责生成输出，结构灵活，适合多任务学习。

这些结构的选择取决于任务需求，Decoder-only适合生成任务，Encoder-only适合理解任务，而Encoder-Decoder则兼顾两者。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。