DataWhale深度解析:大模型的非凡能力与理论基础

大模型的能力

一、 概述

本节主要是通过对GPT-3论文中的基准测试深入研究,从而获得关于GPT-3更深程度的认识

我们应该知道,
GPT-3的结果参差不齐

  • 在某些任务上,比如语言建模,GPT-3大幅度超越了现有技术的最高水平;
  • 在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后。

造成上述现象的原因:

  • GPT-3并未明确针对这些任务进行训练,它只是作为一个语言模型,被训练来预测下一个词。(也即
    是一个通用的模型,并未对特定问题进行特殊的训练,没有过度拟合

想在其他任务上表现良好:

  • 要利用大量的标签数据来适应GPT-3,并超越当前的技术水平

二、 语言模型的适应性:从语言模型到人物模型的转化

语言模型

p

p

p

是一种对token序列

x

1

:

L

x_{1:L}

x

1

:

L

的分布

语言模型既能用来评估序列(获得特定序列出现的概率),也能够生成序列(即根据前文生成下文)

适应
:指代将语言模型转化为任务模型的过程

  • 需要以下两个输入:
    • 任务的自然语言描述
    • 一组训练实例(输入-输出对)
  • 进行适应的两种方式:
    • 训练(
      标准的有监督学习
      • 训练一个新模型,使其能将输入映射到输出
      • 方式:
        • 通过创建一个新模型并利用语言模型作为特征(探针法)
        • 或者从现有的语言模型出发,根据训练实例进行更新(微调)
        • 或者在这两者之间找到平衡(轻量级的微调)
    • 提示(上下文)学习
      • 根据对任务的描述建一个或一组提示/上下文信息,将其输入到语言模型中以获取基于该任务的生成结果。
      • 分类(
        提示/上下文信息的数量
        • 零样本学习(Zero-shot):提示/上下文信息的数量为0,模型直接基于对任务的理解输出结果。
        • 单样本学习(One-shot):提示/上下文信息的数量为1,一般来说模型基于1个例子可以更好的理解任务从而较好的生成结果。
        • 少样本学习(Few-shot):提示/上下文信息的数量大于1,大模型可以看到更丰富的例子,一般来说获得比单样本学习更好的效果。
  • 关于GPT-3相关任务的关注点:
    • 定义:任务是什么,以及其动机?
    • 适应:我们如何通过提示将任务简化为语言模型?
    • 结果:与该任务的最先进模型相比,GPT-3的定量性能如何?(结果评估)

1 Language Modeling

  • 定义:

    • 原理是什么?
      • 对于任意的词序列,它能够计算出这个序列是一句话的概率
  • 适应:

    • 询问语言模型会给这段文本分配什么概率?
  • 结果:

    • 困惑度(Perplexity)
      • 可以解释为模型在预测下一个词时的平均不确定性(
        即衡量模型下一个词预测准确程度的指标
      • 简单来说,如果一个模型的困惑度较低,那么它在预测下一个词的时候就会更加准确。
  • 语言模型会犯的两种错误以及对应错误困惑度的处理方式

    • 召回错误:

      • 语言模型未能正确地为某个词符分配概率值。
      • 这种情况下,困惑度是毫不留情的。

      p

      (

      a

      t

      e

      t

      h

      e

      ,

      m

      o

      u

      s

      e

      )

      0

      perplexity

      p

      (

      t

      h

      e

      ,

      m

      o

      u

      s

      e

      ,

      a

      t

      e

      ,

      t

      h

      e

      ,

      c

      h

      e

      e

      s

      e

      )

      .

      p({ate} \mid {the}, {mouse}) \to 0 \quad\Rightarrow\quad \text{perplexity}_p({the}, {mouse}, {ate}, {the}, {cheese}) \to \infty.

      p

      (

      a

      t

      e

      t

      h

      e

      ,

      m

      o

      u

      se

      )

      0

      perplexity

      p

      (

      t

      h

      e

      ,

      m

      o

      u

      se

      ,

      a

      t

      e

      ,

      t

      h

      e

      ,

      c

      h

      eese

      )

      ∞.

    • 精确度错误

      • 语言模型为某些错误的词序列过度分配了概率值
      • 在这种情况下,困惑度会进行适度的惩罚。

      q

      (

      x

      i

      x

      1

      :

      i

      1

      )

      =

      (

      1

      ϵ

      )

      p

      (

      x

      i

      x

      1

      :

      i

      1

      )

      ϵ

      r

      (

      x

      i

      x

      1

      :

      i

      1

      )

      q(x_i \mid x_{1:i-1}) = (1-\epsilon) p(x_i \mid x_{1:i-1}) + \epsilon r(x_i \mid x_{1:i-1})

      q

      (

      x

      i

      x

      1

      :

      i

      1

      )

      =

      (

      1

      ϵ

      )

      p

      (

      x

      i

      x

      1

      :

      i

      1

      )

      ϵr

      (

      x

      i

      x

      1

      :

      i

      1

      )

  • 具体任务见
    DW大模型理论基础

2 Question answering

  • 定义:
    • 任务:要建立一个能回答任意自然语言形式问题的模型
    • 目标:给定一个问题, 能够得到简短、精确的答案
  • 评价指标:
    • 不同的问答系统评价指标也各不相同,具体问题要具体分析
      • 如选择题要用ACC
      • 部分主观题也可以才用人工评估的方法
  • 具体任务见
    DW大模型理论基础

3 Translation

  • 定义:
    • 任务:创建一个能进行翻译任务的模型
    • 目标:给定一段文字描述,将其翻译为另一个语种的文字描述
  • 评价指标:
    • BLUE(双语评估替补)

4 Other tasks

参考资料:
DataWhale大模型理论基础

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值