在预训练语言模型主流架构

    在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式,并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型。随着 GPT 系列模型的成功发展,当前自然语言处理领域走向了生成式大语言模型的道路,解码器架构已经成为了目前大语言模型的主流架构。进一步,解码器架构还可以细分为三个变种架构,包括因果解码器(Causal Decoder)架构和前缀解码器(Prefix Decoder)架构。值得注意的是,学术界所提 到解码器架构时,通常指的都是因果解码器架构。下图针对这三种架构进行了对比。

图片名称
三种主流架构的注意力模式比较示意图(蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀词元之间的注意力、前缀词元和目标词元之间的注意力、目标词元之间的注意力以及掩码注意力)

<

自然语言处理(NLP)领域的主流预训练语言模型主要包括以下几个: 1. **BERT (Bidirectional Encoder Representations from Transformers)**:由Google于2018年发布,它是基于Transformer架构的第一款大规模预训练模型,通过双向上下文理解文本。 2. **GPT (Generative Pre-trained Transformer)**:由OpenAI开发的一系列模型,最初有GPT-1、GPT-2和更先进的GPT-3,它们擅长生成连贯的文本,尤其是长期依赖的序列预测。 3. **DistilBERT**:是BERT的一个轻量级版本,它通过缩小规模和优化训练过程来提高效率,同时保持较高的性能。 4. **RoBERTa (Robustly Optimized BERT Pretraining Approach)**:Facebook AI Research推出的一种改进版BERT,采用更大的数据集、动态学习率等策略获得更好的性能。 5. **XLNet**:同样来自Google,它引入了自注意力的新机制,能够在训练过程中同时考虑整个句子的全局信息,效果显著。 6. **ELECTRA**:这是另一款基于对抗性训练的预训练模型,由Google发布,它的目标是更有效地学习鉴别真实的单词对。 7. **T5 (Text-to-Text Transfer Transformer)**:由Google提出,设计为通用的预训练模型,能够接受任意长度的输入并输出相应的文本,支持多种NLP任务。 每个模型都有其特点和应用场景,如BERT和RoBERTa广泛应用于问答、文本分类等任务,而GPT系列则适用于生成式对话和创造力表达。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值