PPT: Pre-trained Prompt Tuning for Few-shot Learning


如题目所示,本篇的思想是Prompt也经过预训练,得到Prompt的表示,然后在固定任务的数据集上微调。

预训练方法

符号: P V P = < f , v > PVP=<f, v> PVP=<f,v> to denote this pattern-verbalizer pair,即输入 f f f与输出端 v v v的表示。

作者把所有的下游任务分为三种大任务:Sentence-Pair Classification,Multiple-Choice Classification,Single-Sentence Classfication,大任务中又包含若干种特定的小任务。作者针对这三种任务提出了相应的预训练模板 P V P i p r e = < f i p r e , v i p r e > PVP_i^{pre}=<f_i^{pre}, v_i^{pre}> PVPipre=<fipre,vipre>,i 代表第 i 种大任务。后来,作者又把这几个任务unifying为 Multiple-Choice Classification。经过预训练以后,再在那种大任务的具体小任务的数据集上微调,得到该小任务的模板 P V P i k = < f i k , v i k > PVP_i^k=<f_i^{k}, v_i^{k}> PVPik=<fik,vik>,代表第 i 种大任务,第k个特定的小任务的模板。

预训练过程:
在这里插入图片描述

Sentence-Pair Classification

作者把 Sentence-Pair Classification 转换成3分类任务, l a b e l s : Y = [ 0 , 1 , 2 ] labels : \mathcal{Y}=[0, 1, 2] labels:Y=[0,1,2]。label 0 代表来自不同document的句子对;label 1 代表来自相同document的,不相邻的句子;label 2 代表来自相邻的两个句子。
在这里插入图片描述
在微调时:对于只有两种label可以令 v i k ( Y ) = [  no, yes  ] v_{i}^{k}(\mathcal{Y})=[\text { no, yes }] vik(Y)=[ no, yes ];对于三种label,令 v i k = v i p r e v_{i}^{k}=v_i^{pre} vik=vipre;对于算两个句子之间的概率,可以转换成计算{no, yes}的概率。

Multiple-Choice Classification

对于多项选择任务的label, Y = [ 1 , 2 , 3 , 4 , 5 , 6 ] \mathcal{Y} = [1,2,3,4,5,6] Y=[1,2,3,4,5,6];输入 x = ( s q , s 1 , s 2 , s 3 , s 4 , s 5 , s 6 ) x=(s_q,s_1,s_2,s_3,s_4,s_5,s_6) x=(sq,s1,s2,s3,s4,s5,s6),其中,一个句子与 s q s_q sq相临,其他句子来自不同的document。
在这里插入图片描述
在微调时:不改变PVP,即 P V P i k = P V P i p r e PVP_i^{k}=PVP_i^{pre} PVPik=PVPipre

Single-Sentence Classfication

作者把Single-Sentence Classfication设置成预测伪标签的任务,用 Fine-tuned PLMs 生成 伪label。
在这里插入图片描述
在微调时:不改变PVP,即 P V P i k = P V P i p r e PVP_i^{k}=PVP_i^{pre} PVPik=PVPipre

Unifying Task Formats

作者提出另一种方法,即把所有任务转换成 Multiple-Choice Classification 。具体来说,对于 Sentence-Pair Classification , s q s_q sq是两个句子的拼接,然后有三个选项:maybe,yes,no,对于 Single-Sentence Classfication , s q s_q sq是一个句子,选项是对应的labels。

实验结果

其中 FT 的部分展示了各种尺寸 T5 模型的全模型微调结果;PT 的部分展示了 PPT 和其他基线的结果。第一个基线是 Vanilla PT,其中的 soft token 是从正态分布中随机初始化的;第二个基线是混合策略;然后该研究还考虑了 Lester 等人(2021)使用的 LM Adaption。其中 T5 模型通过语言建模进一步预训练 10K 步,以减少预训练和微调之间的差距。除了 PPT 以外,该研究还测试了 PPT 的两种变体:一种是 Hybrid PPT,将精心设计的 hard prompt 与预训练的 soft prompt 相结合;另一种是 Unified PPT,其中所有任务都以 multiple-choice 的格式统一。

  • 随着参数数量的增加,FT 的性能有所提升。

  • 在大多数数据集中,PPT 明显优于 Vanilla PT 和 LM Adaption。

  • PPT 在所有中文数据集和大多数英文数据集上都优于 10B 模型的 FT。

  • PPT 在大多数数据集上会产生较小的方差,相比之下,一般的 few-shot 学习常存在不稳定性,例如 Vanilla PT。

在这里插入图片描述
以上所有数据集的分类标签都少于 5 个,该研究进一步在超过 5 个标签的数据集上测试了 Unified PPT,实验结果如下表 5 所示。
在这里插入图片描述
研究者探究了当训练样本数量增加时 FT、PT 和 PPT 的比较结果。下图 4 展示了这些方法在 RACEm 和 CB 数据集上的趋势。从中可以观察到,对于从 32 到 128 个样本,PPT 始终优于 Vanilla PT,当数量增长到 256 时,三种方法的性能逐渐收敛。
在这里插入图片描述
引用:
https://arxiv.org/pdf/2109.04332.pdf
一个「PPT」框架,让超大模型调参变简单:清华刘知远、黄民烈团队力作

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值