GPT家族

最新推荐文章于 2024-06-11 21:04:07 发布

xuecaisun

最新推荐文章于 2024-06-11 21:04:07 发布

阅读量522

点赞数

分类专栏： transformer 文章标签： transformer 自然语言处理深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuecaisun/article/details/128940312

版权

本文介绍了GPT模型从初代到GPT-3的发展，详细阐述了模型结构，特别是GPT如何利用Transformer的Decoder进行预训练和有监督的微调。GPT-2通过增加层数、词汇量和序列长度来提升性能，而GPT-3则通过巨大的参数量和少量示例（few-shot）实现出色的表现。

摘要由CSDN通过智能技术生成

目前chatGPT火的一塌糊涂，但是论文还没正式公开（目前官网是说和 InstructGPT方法一致但数据有区别）。但是也可以看看GPT到GPT-3，以及InstructGPT，之前对gpt了解不多，只知道用的是transformer的decode，在这里详细拜读一下论文。

GPT

模型结构

GPT最主要的结构就是transformer的decoder结构，而实际transformer的decoder没那么简单：
左边是transformer的decoder，分为两部分attention：
1、第一层的attention叫Masked Multi-Head Attention，由于decoder解码是由前面的结果预测下一个token，所以对于被预测token以及后面的token都要进行mask。这里的mask操作上也有很多细节可以聊聊：
在这里插入图片描述
2、第二层的attention和transformer的encoder层的attention一样，但是KQV的值不太一样，这里的KQV中的KV都是encoder的输出，而Q是经过第一层attention（上述M

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GPT家族

gpt的演变
复制链接

扫一扫

专栏目录

xuecaisun CSDN认证博客专家 CSDN认证企业博客

码龄9年

5: 原创

81万+: 周排名

137万+: 总排名

5804: 访问

: 等级

81: 积分

2: 粉丝

4: 获赞

1: 评论

17: 收藏

私信

关注

热门文章

分类专栏

深度学习基础 2篇
nlg 1篇
transformer 1篇
code 1篇
TableQA 3篇

最新评论

ANOMALY TRANSFORMER: TIME SERIES ANOMALY DETECTION WITH ASSOCIATION DISCREPANCY 论文解读
CSDN-Ada助手: 恭喜您又写了一篇非常高质量的博客，对于时间序列异常检测这个话题进行了深入的探讨。我认为下一步您可以考虑探索一些与此相关的新颖方法或者应用场景，这样可以进一步丰富您的博客内容，也有利于您的个人成长。谢谢您的分享，期待您更多的优秀文章。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文解读
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。