PPT: Pre-trained Prompt Tuning for Few-shot Learning

最新推荐文章于 2023-05-12 10:50:57 发布

酷暑冷冰

最新推荐文章于 2023-05-12 10:50:57 发布

阅读量1.2k

点赞数

分类专栏： Prompt-tuning 文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/weixin_43913077/article/details/120282633

版权

Prompt-tuning 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

文章目录

预训练方法
实验结果

如题目所示，本篇的思想是Prompt也经过预训练，得到Prompt的表示，然后在固定任务的数据集上微调。

预训练方法

符号： $P V P = < f, v >$ to denote this pattern-verbalizer pair，即输入 $f$ 与输出端 $v$ 的表示。

作者把所有的下游任务分为三种大任务：Sentence-Pair Classification，Multiple-Choice Classification，Single-Sentence Classfication，大任务中又包含若干种特定的小任务。作者针对这三种任务提出了相应的预训练模板 $PVP_i^{pre}=<f_i^{pre}, v_i^{pre}>$ ，i 代表第 i 种大任务。后来，作者又把这几个任务unifying为 Multiple-Choice Classification。经过预训练以后，再在那种大任务的具体小任务的数据集上微调,得到该小任务的模板 $PVP_i^k=<f_i^{k}, v_i^{k}>$ ，代表第 i 种大任务，第k个特定的小任务的模板。

预训练过程：
在这里插入图片描述

Sentence-Pair Classification

作者把 Sentence-Pair Classification 转换成3分类任务， $\mathcal{Y}=[0, 1, 2]$ 。label 0 代表来自不同document的句子对；label 1 代表来自相同document的，不相邻的句子；label 2 代表来自相邻的两个句子。
在这里插入图片描述
在微调时：对于只有两种label可以令 $v_{i}^{k}(\mathcal{Y})=[\text { no, yes }]$ ；对于三种label，令 $v_{i}^{k}=v_i^{pre}$ ；对于算两个句子之间的概率，可以转换成计算{no, yes}的概率。

Multiple-Choice Classification

对于多项选择任务的label， $\mathcal{Y} = [1,2,3,4,5,6]$ ；输入 $x=(s_q,s_1,s_2,s_3,s_4,s_5,s_6)$ ，其中，一个句子与 $s_q$ 相临，其他句子来自不同的document。
在这里插入图片描述
在微调时：不改变PVP，即 $PVP_i^{k}=PVP_i^{pre}$ 。

Single-Sentence Classfication

作者把Single-Sentence Classfication设置成预测伪标签的任务，用 Fine-tuned PLMs 生成伪label。
在这里插入图片描述
在微调时：不改变PVP，即 $PVP_i^{k}=PVP_i^{pre}$ 。

Unifying Task Formats

作者提出另一种方法，即把所有任务转换成 Multiple-Choice Classification 。具体来说，对于 Sentence-Pair Classification ， $s_q$ 是两个句子的拼接，然后有三个选项：maybe，yes，no，对于 Single-Sentence Classfication ， $s_q$ 是一个句子，选项是对应的labels。

实验结果

其中 FT 的部分展示了各种尺寸 T5 模型的全模型微调结果；PT 的部分展示了 PPT 和其他基线的结果。第一个基线是 Vanilla PT，其中的 soft token 是从正态分布中随机初始化的；第二个基线是混合策略；然后该研究还考虑了 Lester 等人（2021）使用的 LM Adaption。其中 T5 模型通过语言建模进一步预训练 10K 步，以减少预训练和微调之间的差距。除了 PPT 以外，该研究还测试了 PPT 的两种变体：一种是 Hybrid PPT，将精心设计的 hard prompt 与预训练的 soft prompt 相结合；另一种是 Unified PPT，其中所有任务都以 multiple-choice 的格式统一。

随着参数数量的增加，FT 的性能有所提升。
在大多数数据集中，PPT 明显优于 Vanilla PT 和 LM Adaption。
PPT 在所有中文数据集和大多数英文数据集上都优于 10B 模型的 FT。
PPT 在大多数数据集上会产生较小的方差，相比之下，一般的 few-shot 学习常存在不稳定性，例如 Vanilla PT。

在这里插入图片描述
以上所有数据集的分类标签都少于 5 个，该研究进一步在超过 5 个标签的数据集上测试了 Unified PPT，实验结果如下表 5 所示。

研究者探究了当训练样本数量增加时 FT、PT 和 PPT 的比较结果。下图 4 展示了这些方法在 RACEm 和 CB 数据集上的趋势。从中可以观察到，对于从 32 到 128 个样本，PPT 始终优于 Vanilla PT，当数量增长到 256 时，三种方法的性能逐渐收敛。
在这里插入图片描述
引用：
https://arxiv.org/pdf/2109.04332.pdf
一个「PPT」框架，让超大模型调参变简单：清华刘知远、黄民烈团队力作

酷暑冷冰

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PPT: Pre-trained Prompt Tuning for Few-shot Learning

文章目录预训练方法Sentence-Pair ClassificationMultiple-Choice ClassificationSingle-Sentence ClassficationUnifying Task Formats实验结果如题目所示，本篇的思想是Prompt也经过预训练，得到Prompt的表示，然后在固定任务的数据集上微调。预训练方法符号：PVP=<f,v>PVP=<f, v>PVP=<f,v> to denote this pattern-ve
复制链接

扫一扫