第2章 GPT-3简介

wumg3000

已于 2023-02-07 13:05:40 修改

阅读量4.7k

点赞数 4

分类专栏： GPT 文章标签： gpt-3 深度学习人工智能 Powered by 金山文档

于 2023-02-07 13:03:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wumg3000/article/details/128916777

版权

GPT 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

GPT-3是OpenAI推出的一个巨大规模的语言模型，其参数量达到1750亿，通过45TB数据训练。与GPT-2相比，GPT-3在图像生成和多种NLP任务上表现出色，且无需微调即可执行任务，包括文本纠错。它改变了传统预训练模型依赖微调的方式，支持Few-Shot,One-Shot和Zero-Shot学习策略。

摘要由CSDN通过智能技术生成

GPT-3依旧延续自己的单向语言模型训练方式，只不过这次把模型尺寸增大到了1750亿，并且使用45TB数据进行训练。同时，GPT-3主要聚焦于更通用的NLP模型，GPT-3模型在一系列基准测试和特定领域的自然语言处理任务（从语言翻译到生成新闻）中达到最新的SOTA结果。对于所有任务，GPT-3没有进行任何微调，仅通过文本与模型进行交互。与GPT-2相比，GPT-3的图像生成功能更成熟，不需经过微调，就可以在不完整的图像样本基础上补全完整的图像。GPT-3意味着从一代到三代的跨越实现了两个转向：

1.从语言到图像的转向；

2.使用更少的领域数据、甚至不经过微调步骤去解决问题。

2.1 预训练模型一般流程

一般预训练模型（如ELMo、BERT等）的流程如图1-23所示，其中微调是一个重要环节。

图1-23 预训练模型的一般流程

2.2 GPT-3 与BERT的区别

一般预训练模型中微调是一个重要环节，但GPT-3却无需微调，GPT-3与一般预训练模型（这里以BERT为例）还有很多不同之处，具体可参考图1-24。

图1-24 GPT-3 与BERT的区别

2.3 GPT-3与传统微调的区别

对下游任务的设置大致有以下四类：

1.Fine-Tunning（FT）：

FT利用成千上万的下游任务标注数据来更新预训练模型中的权重以获得强大的性能。但是，该方法不仅导致每个新的下游任务都需要大量的标注语料，还导致模型在样本外预测的能力很弱。虽然GPT-3从理论上支持FT，但没有采用这种方法。

2.Few-Shot（FS）

模型在推理阶段可以得到少量的下游任务示例作为限制条件，但是不允许更新预训练模型中的权重。

3.One-Shot（1S）

模型在推理阶段仅得到1个下游任务示例。

4.Zero-Shot（0S）

模型在推理阶段仅得到一段以自然语言描述的下游任务说明。GPT-3与传统预训练模型对下游任务的处理方法的区别，可参考图1-25。

图1-25 传统微调与GPT-3采用的三种设置方法比较

2.4 GPT-3 示例

图1-26 为使用GPT-3 进行文本纠错的实例，从纠错结果来看，效果还是令人惊奇。

图1-26 GPT-3 进行文本纠错的实例

wumg3000 CSDN认证博客专家 CSDN认证企业博客

码龄10年

22: 原创

54万+: 周排名

17万+: 总排名

3万+: 访问

: 等级

317: 积分

66: 粉丝

92: 获赞

6: 评论

200: 收藏

私信

关注

热门文章

分类专栏

AIGC 1篇
LLM 3篇
GPT 5篇

最新评论

4.扩散模型DDPM的发展脉络
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
第5章微调GPT-2生成戏剧文本
御风而行_652: 5.5的select_top_k()函数在第四章定义了，大家参考的时候记得在循环之前加上函数的定义。 [code=python] import random def select_top_k(predictions, k=10): predicted_index = random.choice( predictions[0, -1, :].sort(descending=True)[1][:10]).item() return predicted_index [/code]
第5章微调GPT-2生成戏剧文本
御风而行_652: 5.4训练模型中间那行 loss, logits, _ = model(data, labels=target) 是不是该是 loss = model(data, labels=target)[0] 啊？
第5章微调GPT-2生成戏剧文本
御风而行_652: 这一章的5.4训练模型的代码会报错耶，我用的Jupyter Lab，“loss.item()”和后面的“loss.backward()”会报错：AttributeError: 'str' object has no attribute 'item'。尝试了redis降级安装也不行，求求大佬指导下。
使用transformer实现图像分类
葡萄糖o: 老哥能网盘分享一下整个文件吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。