encoder-only | decoder-only | encoder-decoder常见模型总结

以下是常见大模型的编码器和解码器类型总结,包括GPT和DeepSeek R1,以及采用这些结构的理由:

模型名称编码器-解码器类型结构理由
GPT系列Decoder-onlyGPT系列采用Decoder-only结构,专注于自回归生成任务,通过掩码自注意力机制生成文本。
BERTEncoder-onlyBERT采用Encoder-only结构,专注于双向上下文理解,适用于分类、问答等任务。
T5Encoder-DecoderT5采用完整的Encoder-Decoder结构,适用于多种文本生成和理解任务,统一了任务格式。
BARTEncoder-DecoderBART结合了双向编码和自回归解码,适用于文本生成和重构任务。
DeepSeek R1Decoder-onlyDeepSeek R1采用Decoder-only结构,专注于高效的自回归生成,适用于大规模文本生成。

结构选择的理由:

  1. Decoder-only(如GPT、DeepSeek R1)

    • 适用于自回归生成任务,如文本生成、对话系统。
    • 通过掩码自注意力机制,模型只能看到当前及之前的token,适合逐词生成。
    • 结构简单,训练和推理效率高。
  2. Encoder-only(如BERT)

    • 适用于需要理解整个上下文的任务,如文本分类、命名实体识别。
    • 双向注意力机制可以捕捉前后文信息,提升理解能力。
  3. Encoder-Decoder(如T5、BART)

    • 适用于需要同时理解和生成文本的任务,如翻译、摘要生成。
    • Encoder负责理解输入,Decoder负责生成输出,结构灵活,适合多任务学习。

这些结构的选择取决于任务需求,Decoder-only适合生成任务,Encoder-only适合理解任务,而Encoder-Decoder则兼顾两者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值