GPT家族

本文介绍了GPT模型从初代到GPT-3的发展,详细阐述了模型结构,特别是GPT如何利用Transformer的Decoder进行预训练和有监督的微调。GPT-2通过增加层数、词汇量和序列长度来提升性能,而GPT-3则通过巨大的参数量和少量示例(few-shot)实现出色的表现。
摘要由CSDN通过智能技术生成

目前chatGPT火的一塌糊涂,但是论文还没正式公开(目前官网是说和 InstructGPT方法一致但数据有区别)。但是也可以看看GPT到GPT-3,以及InstructGPT,之前对gpt了解不多,只知道用的是transformer的decode,在这里详细拜读一下论文。

GPT

模型结构

GPT最主要的结构就是transformer的decoder结构,而实际transformer的decoder没那么简单:
左边是transformer的decoder,分为两部分attention:
1、第一层的attention叫Masked Multi-Head Attention,由于decoder解码是由前面的结果预测下一个token,所以对于被预测token以及后面的token都要进行mask。这里的mask操作上也有很多细节可以聊聊:
在这里插入图片描述在这里插入图片描述
2、第二层的attention和transformer的encoder层的attention一样,但是KQV的值不太一样,这里的KQV中的KV都是encoder的输出,而Q是经过第一层attention(上述M

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值