GPT 3.0:Language Models are Few-Shot Learners(2020-5-28)

模型介绍

迁移学习是一种在自然语言处理中强大的技术,模型首先要针对数据丰富的任务进行预训练,然后再针对下游任务进行微调。GPT3.0通过引入统一的框架来探索NLP迁移学习技术的前景:将问题都转换为text-to-text 格式,并在数十种语言理解任务研究比较了预训练目标,架构,未标记的数据集,迁移方法和其他因素。结合实验所得以及 C4 数据集,在许多基准上获得了最新的结果,这些基准涵盖了摘要,问题回答,文本分类等等。

GPT-3是具有1750亿参数的自回归语言模型,这比以前的任何非稀疏语言模型大10倍,并在少样本学习的设置下测试其性能。所有任务应用GPT-3模型时均不进行任何梯度更新或微调,而只是通过与模型的文本交互指定任务和少样本学习演示。 GPT-3在许多NLP数据集上均具有出色的性能,包括翻译,问题解答和完形填空,以及一些需要即时推理或领域适应的任务,例如解读词语,新词使用,算术运算。但是,我们还确定一些数据集,GPT-3的少样本学习仍然困难重重;以及一些数据集,GPT-3面临与训练大型Web语料库有关的方法论问题的。

GPT-3主要聚焦于更通用的NLP模型,解决当前BERT类模型的两个缺点:

  • 对领域内有标签数据的过分依赖:虽然有了预训练+精调的两段式框架,但还是少不了一定量的领域标注数据,否则很难取得不错的效果,而标注数据的成本又是很高的。

  • 对于领域数据分布的过拟合:在精调阶段,因为领域数据有限,模型只能拟合训练数据分布,如果数据较少的话就可能造成过拟合,致使模型的泛化能力下降,更加无法应用到其他领域。

因此GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。

模型结构

GPT-3 使用与 GPT-2 相同的模型和架构,包括其中修改的初始化,预归一化和其中描述的可逆分词,不同之处是我们在Transformer的各层中交替使用稠密和局部带状稀疏注意力模式,类似于稀疏Transformer。

GPT-3共训练了8种不同大小的模型,范围从1.25亿参数到1,750亿参数,超过三个数量级,最后一个模型称为GPT-3。

在这里插入图片描述
上边显示了8种模型的大小和架构。 n p a r a m s n_{params} nparams 表示可训练参数的总数, n l a y e r s n_{layers} nlayers 是总层数, d m o d e l d_{model} dmodel 是每个瓶颈层的单元数(我们总是将前馈层设为瓶颈层大小的四倍, d f f = 4 ∗ d m o d e l d_{ff}=4*d_{model} dff=4dmodel), d h e a d s d_{heads} dheads 是每个注意头的维度。所有模型都使用 n c t x = 2048 n_{ctx}=2048 nctx=2048 个符号的上下文窗口。

模型改进

方法

基本预训练方法(包括模型,数据和训练)与GPT-2中描述的过程相似,只是相对直接地扩大了模型大小,数据集大小和多样性以及训练时间。

GPT-3评估了许多NLP数据集,以及旨在测试快速适应不太可能直接包含在训练集中的任务的几个新颖任务。传统方法是Fine-Tuning,而GPT-3对于每项任务,我们在3种情况下评估GPT-3:

在这里插入图片描述
Few-Shot(FS):指的是在推理时对模型进行一些任务相关的示例演示,但不允许权重更新。如图2.1所示,对于一个典型的数据集,一个示例具有上下文和所需的补全(例如英语句子和对应的法语句子),并通过给出K个示例上下文和补全的例子进行了Few-Shot。我们通常将K设置在10到100的范围内。FS的主要优点是,大大减少了对特定任务数据的需求,并减少了过拟合的可能性。主要缺点是,到目前为止,这种方法的结果要比最新的微调模型差很多。而且,仍然需要少量的任务特定数据。

One-Shot(1S):和FS一样,不允许权重更新,但是k设置为1,和人类处理任务最为相似。

Zero-Shot (0S) :没有示例演示,仅向模型提供描述任务的自然语言指令,同样没有权重更新。

训练集

使用CommonCrawl数据集,采取了3个步骤来提高数据集的平均质量:

  • 基于与一系列高质量参考语料库的相似性,我们下载并筛选了CommonCrawl的一个版本;
  • 在文档级别、数据集内部和数据集之间执行了模糊重复数据消除,以防止冗余,并保留完整验证集作为一种精确的过拟合度量
  • 将已知的高质量参考语料库添加到训练组合中,以增强CommonCrawl并增加其多样性。

在这里插入图片描述
CommonCrawl数据是从2016年至2019年的每月CommonCrawl的41个分片中下载的,构成了过滤前的45TB压缩明文和过滤后的570GB,大致相当于4000亿字节对编码的分词符号。在训练过程中,并非按大小比例对数据集进行采样,而是对我们视为更高质量的数据集进行更高频采样,例如CommonCrawl和Books2数据集在训练期间的采样次数少于一次,而其他数据集则采样2 -3次。从本质上讲,这会接受少量的过度拟合,以换取更高质量的训练数据。

模型参考

论文地址:https://arxiv.org/abs/2005.14165

代码地址:https://github.com/openai/gpt-3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
引用提到了GPT-3模型在不同样本推理形式下的表现。其中,One-shot是指模型只使用一条样本进行推理,Few-shot是指模型使用少量样本进行推理(例如64条样本)。这些推理形式展示了GPT-3模型在处理自然语言任务时的能力。通过比较GPT-3模型和微调模型在TriviaQA数据集上的实验结果,可以看出,GPT-3模型在One-shot情况下已经能够与最好的微调模型相媲美,在Few-shot情况下甚至超过了微调模型的效果。这表明GPT-3模型在处理任务时具有较强的推理能力。然而,需要注意的是,GPT-3模型的参数量非常庞大(1750亿),在现有的硬件条件下,实际应用仍然存在一定的困难。此外,GPT-3模型采用的是从左到右的建模方式,对于需要结合上下文的NLU任务来说,GPT-3的效果可能不如预期。因此,虽然GPT-3模型在某些方面表现出强大的性能,但在实际应用中仍然面临一些挑战。引述了GPT-3模型在处理自然语言任务时的能力,特别是在One-shot和Few-shot情况下的表现。这些实验结果表明,GPT-3模型具有较强的推理能力,并且在某些情况下能够超越微调模型的效果。然而,需要注意的是,GPT-3模型的参数量非常庞大,这对于实际应用来说可能存在一些限制。此外,GPT-3模型的建模方式也可能对某些任务的效果产生一定影响。因此,在使用GPT-3模型时需要综合考虑其性能和适用性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [四两拨千斤,训练大模型的PEFT方法](https://blog.csdn.net/Solo95/article/details/131584584)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [论文笔记:Making Pre-trained Language Models Better Few-shot Learners](https://blog.csdn.net/qq_43183860/article/details/120660668)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不负韶华ღ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值