DataWhale深度解析：大模型的非凡能力与理论基础

最新推荐文章于 2024-07-11 14:06:01 发布

xziyuan

最新推荐文章于 2024-07-11 14:06:01 发布

阅读量225

点赞数 4

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/xziyuan/article/details/139761108

版权

大模型的能力

一、概述

本节主要是通过对GPT-3论文中的基准测试深入研究，从而获得关于GPT-3更深程度的认识

我们应该知道，
GPT-3的结果参差不齐
：

在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；
在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后。

造成上述现象的原因：

GPT-3并未明确针对这些任务进行训练，它只是作为一个语言模型，被训练来预测下一个词。（也即
是一个通用的模型，并未对特定问题进行特殊的训练，没有过度拟合
）

想在其他任务上表现良好：

要利用大量的标签数据来适应GPT-3，并超越当前的技术水平

二、语言模型的适应性：从语言模型到人物模型的转化

语言模型

是一种对token序列

x_{1:L}

的分布

语言模型既能用来评估序列（获得特定序列出现的概率），也能够生成序列（即根据前文生成下文）

适应
：指代将语言模型转化为任务模型的过程

需要以下两个输入：
- 任务的自然语言描述
- 一组训练实例（输入-输出对）
进行适应的两种方式：
- 训练（
  标准的有监督学习
  ）
  - 训练一个新模型，使其能将输入映射到输出
  - 方式：
    - 通过创建一个新模型并利用语言模型作为特征（探针法）
    - 或者从现有的语言模型出发，根据训练实例进行更新（微调）
    - 或者在这两者之间找到平衡（轻量级的微调）
- 提示（上下文）学习
  - 根据对任务的描述建一个或一组提示/上下文信息，将其输入到语言模型中以获取基于该任务的生成结果。
  - 分类（
    提示/上下文信息的数量
    ）
    - 零样本学习(Zero-shot)：提示/上下文信息的数量为0，模型直接基于对任务的理解输出结果。
    - 单样本学习(One-shot)：提示/上下文信息的数量为1，一般来说模型基于1个例子可以更好的理解任务从而较好的生成结果。
    - 少样本学习(Few-shot)：提示/上下文信息的数量大于1，大模型可以看到更丰富的例子，一般来说获得比单样本学习更好的效果。
关于GPT-3相关任务的关注点：
- 定义：任务是什么，以及其动机？
- 适应：我们如何通过提示将任务简化为语言模型？
- 结果：与该任务的最先进模型相比，GPT-3的定量性能如何？（结果评估）

1 Language Modeling

定义：
- 原理是什么？
  - 对于任意的词序列，它能够计算出这个序列是一句话的概率
适应：
- 询问语言模型会给这段文本分配什么概率？
结果：
- 困惑度（Perplexity）
  - 可以解释为模型在预测下一个词时的平均不确定性（
    即衡量模型下一个词预测准确程度的指标
    ）
  - 简单来说，如果一个模型的困惑度较低，那么它在预测下一个词的时候就会更加准确。
语言模型会犯的两种错误以及对应错误困惑度的处理方式
- 召回错误：
  - 语言模型未能正确地为某个词符分配概率值。
  - 这种情况下，困惑度是毫不留情的。
  p
  
  (
  
  a
  
  t
  
  e
  
  ∣
  
  t
  
  h
  
  e
  
  ,
  
  m
  
  o
  
  u
  
  s
  
  e
  
  )
  
  →
  
  0
  
  ⇒
  
  perplexity
  
  p
  
  (
  
  t
  
  h
  
  e
  
  ,
  
  m
  
  o
  
  u
  
  s
  
  e
  
  ,
  
  a
  
  t
  
  e
  
  ,
  
  t
  
  h
  
  e
  
  ,
  
  c
  
  h
  
  e
  
  e
  
  s
  
  e
  
  )
  
  →
  
  ∞
  
  .
  
  p({ate} \mid {the}, {mouse}) \to 0 \quad\Rightarrow\quad \text{perplexity}_p({the}, {mouse}, {ate}, {the}, {cheese}) \to \infty.
  
  p
  
  (
  
  a
  
  t
  
  e
  
  ∣
  
  t
  
  h
  
  e
  
  ,
  
  m
  
  o
  
  u
  
  se
  
  )
  
  →
  
  0
  
  ⇒
  
  perplexity
  
  p
  
  (
  
  t
  
  h
  
  e
  
  ,
  
  m
  
  o
  
  u
  
  se
  
  ,
  
  a
  
  t
  
  e
  
  ,
  
  t
  
  h
  
  e
  
  ,
  
  c
  
  h
  
  eese
  
  )
  
  →
  
  ∞.
- 精确度错误
  - 语言模型为某些错误的词序列过度分配了概率值
  - 在这种情况下，困惑度会进行适度的惩罚。
  q
  
  (
  
  x
  
  i
  
  ∣
  
  x
  
  1
  
  :
  
  i
  
  −
  
  1
  
  )
  
  =
  
  (
  
  1
  
  −
  
  ϵ
  
  )
  
  p
  
  (
  
  x
  
  i
  
  ∣
  
  x
  
  1
  
  :
  
  i
  
  −
  
  1
  
  )
  ϵ
  
  r
  
  (
  
  x
  
  i
  
  ∣
  
  x
  
  1
  
  :
  
  i
  
  −
  
  1
  
  )
  
  q(x_i \mid x_{1:i-1}) = (1-\epsilon) p(x_i \mid x_{1:i-1}) + \epsilon r(x_i \mid x_{1:i-1})
  
  q
  
  (
  
  x
  
  i
  
  ∣
  
  x
  
  1
  
  :
  
  i
  
  −
  
  1
  
  )
  
  =
  
  (
  
  1
  
  −
  
  ϵ
  
  )
  
  p
  
  (
  
  x
  
  i
  
  ∣
  
  x
  
  1
  
  :
  
  i
  
  −
  
  1
  
  )
  ϵr
  
  (
  
  x
  
  i
  
  ∣
  
  x
  
  1
  
  :
  
  i
  
  −
  
  1
  
  )
具体任务见
DW大模型理论基础

2 Question answering

定义：
- 任务：要建立一个能回答任意自然语言形式问题的模型
- 目标：给定一个问题, 能够得到简短、精确的答案
评价指标：
- 不同的问答系统评价指标也各不相同，具体问题要具体分析
  - 如选择题要用ACC
  - 部分主观题也可以才用人工评估的方法
具体任务见
DW大模型理论基础

3 Translation

定义：
- 任务：创建一个能进行翻译任务的模型
- 目标：给定一段文字描述，将其翻译为另一个语种的文字描述
评价指标：
- BLUE(双语评估替补)

4 Other tasks

其他具体任务见
DW大模型理论基础

参考资料：
DataWhale大模型理论基础

xziyuan

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
DataWhale深度解析：大模型的非凡能力与理论基础

本节主要是通过对GPT-3论文中的基准测试深入研究，从而获得关于GPT-3更深程度的认识我们应该知道，GPT-3的结果参差不齐在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后。GPT-3并未明确针对这些任务进行训练，它只是作为一个语言模型，被训练来预测下一个词。（也即是一个通用的模型，并未对特定问题进行特殊的训练，没有过度拟合要利用大量的标签数据来适应GPT-3，并超越当前的技术水平。
复制链接

扫一扫