Making Pre-trained Language Models Better Few-shot Learners

最新推荐文章于 2023-04-12 08:00:00 发布

酷暑冷冰

最新推荐文章于 2023-04-12 08:00:00 发布

阅读量807

点赞数 1

分类专栏： Prompt-tuning 文章标签：深度学习机器学习 pytorch

本文链接：https://blog.csdn.net/weixin_43913077/article/details/120210679

版权

Prompt-tuning 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

文章目录

输入端
- 自动生成Prompt
- Prompt的拼接方式
输出端
- 自动生成label
训练
- 对于分类
- 对于回归

模型简称LM-BFF，better few-shot fine-tuning of language models。
符号：
预训练模型为

\mathcal{L}

，总数据集为

\mathcal{D}

，标签空间为

\mathcal{Y}

；对于

\mathcal{D}

中的每个类，我们采样K个样本，组成训练集

\mathcal{D_{train}}

；词表为

\mathcal{V}

；Prompt的样板记为

\mathcal{T}

；验证集

\mathcal{D_{dev}}

。

|\mathcal{D_{dev}}| >= |\mathcal{D_{train}}|

，验证集越大，测试的越准确，该实验设置为

|\mathcal{D_{dev}}| = |\mathcal{D_{train}}|

。

输入端

自动生成Prompt

对于给定与 $\mathcal{Y}$ 对应的词表中的label，利用自回归模型T5自动生成Prompt。对于Decode阶段，我们采用beam search，选取n个 $\mathcal{T}$ 。我们可以在 $\mathcal{D_{train}}$ 中 fine-tune 这n个 $\mathcal{T}$ ，再在 $\mathcal{D_{dev}}$ 中测试，选取最好的那一个；也可以一直使用这n个 $\mathcal{T}$ 来训练和测试。实验证明n越大，测试效果越好，见图。
在这里插入图片描述

Prompt的拼接方式

在这里插入图片描述
该论文采用c中的方式：我们随机采样一个样本（作者说选取多个没有见到效果提升），例如：No reason to wath. It was [MASK]；再从每个类中采样一个样本，嵌入标签，一起组成输入。例如：对于postive类，我们选取了A fun ride. It was great.，对于negative类，我们选取了The drama discloses nothing. It was terrible.。实验结果表明从每个类中选取的样本越短越好，这可能是因为作者使用的Roberta与Bert等模型的不够大，理解不了组合成的输入；也可能输入变得太长了，采用长序列模型可能会改善。

输出端

Answer的映射记为 $\mathcal{M:Y\rightarrow V}$ , 也 $\mathcal{M(y)}, y \in \mathcal{Y}$ 。y表示了一个标签，对于样本来说我们记为c。

自动生成label

对于 $D_{train}$ 某个类别中的样本c，记为 $D_{train}^c$ 。对于每个 $D_{train}^c$ ，我们用不做fine-tune的 $\mathcal{L}$ 来预测 k 个word。
在这里插入图片描述
这样，每个类别在词表中都有k个word来对应。

训练

函数表达式为：
在这里插入图片描述
其中， $p(y|x_{in})$ 表示类别的概率； $\mathcal{M(y)}$ 表示把 $y$ 映射成 $\mathcal V$ 中的某一个词； $x_{prompt}$ 为组合后的输入； $w_{\mathcal{M(y)}}$ 代表 $\mathcal{M(y)}$ 的词向量。 $h_{[MASK]}$ 为 $\mathcal L$ 在[MASK]位置的输出向量。
$h_{[MASK]}$ 必定与 $\mathcal V$ 中的一个词相近，其实 $h_{[MASK]} \cdot w_{\mathcal{M(y)}}$ 计算的就是两者的相似度， $h_{[MASK]}$ 与哪一个 $\mathcal{M(y)}$ 相近，那个类别的概率就越大。

对于分类

标签中的每个类别的概率 $P_{label_i}$ ，其实就是该类别对应的词表中词 $w_{\mathcal{M(y)}}$ 乘以 $h_{[MASK]}$ 后归一化（此处为softmax）的值。
损失函数为交叉熵。

对于回归

假设预测范围为[ $v_l$ , $v_u$ ]，我们选择其中一个类别 $y_u$ ，根据表达式计算 $p(y_u|x_{in})$ 的概率，
那么预测的值就为: $y=v_l + p(y_u|x_{in}) \cdot v_u$ 。
损失函数为 $p(y_u|x_{in})$ 与 $y-v_l)/(v_u-v_l)$ 的 KL divergence。
$p(y_u|x_{in})$ 概率分布其实表示的是：预测的不同类别的多少。
$y-v_l)/(v_u-v_l)$ 概率分布其实表示的是：真实的不同类别的多少。

我认为，回归问题比较好做的是分类转回归的问题，对于本事就是回归的问题，可能 $\mathcal{M(y)}$ 就不太好找。

酷暑冷冰

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Making Pre-trained Language Models Better Few-shot Learners

文章目录输入端自动生成PromptPrompt的拼接方式模型简称LM-BFF，better few-shot fine-tuning of language models。符号：预训练模型为L\mathcal{L}L，总数据集为$$输入端自动生成Prompt对于给定的词表中的label，利用自回归模型T5自动生成Prompt，Prompt的拼接方式...
复制链接

扫一扫