【论文】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

最新推荐文章于 2024-06-23 11:59:08 发布

华农度假村村长

最新推荐文章于 2024-06-23 11:59:08 发布

阅读量298

点赞数

文章标签： prompt

本文链接：https://blog.csdn.net/weixin_50862344/article/details/133964110

版权

1. 论文介绍

1.1 之前的方法存在的局限性

缺乏跨尺度的普遍性。

模型参数较少时，远不如微调

任务间缺乏通用性。

有效性可能只能局限在一些特定的任务中

1.2 当前方法的改进

如上图所示，不同层中的promote被添加为前缀令牌

1.3 优化与实现

embedding VS MLP重参数化

作者的观点是：它的有用性取决于任务和数据集。（如上图

Prompt 长度

一般来说，简单的分类任务喜欢较短的提示(少于20个);硬序列标记任务倾向于较长的序列(大约100个)。

多任务学习

对于P-Tuning v2来说，多任务是可选的，但可以通过提供更好的初始化来进一步提高性能

分类头

使用语言建模头来预测语言表达器可以实现快速调整模型，但我们发现在全数据设置中没有必要，并且与序列标记不兼容。

2. 代码

以执行的SequenceClassification的Roberta的模型为例，即

2.1调用

P-Tuning v2在forward函数中：通过调用get_prompt获得的embedding传入到RobertaModel类的参数

2.1.1 get_prompt

get_prompt使用PrefixEncoder类生成embedding

    def get_prompt(self, batch_size):
        prefix_tokens = self.prefix_tokens.unsqueeze(0).expand(batch_size, -1).to(self.roberta.device)
        past_key_values = self.prefix_encoder(prefix_tokens)
        past_key_values = past_key_values.view(
            batch_size,
            self.pre_seq_len,
            self.n_layer * 2, 
            self.n_head,
            self.n_embd
        )
        past_key_values = self.dropout(past_key_values)
        past_key_values = past_key_values.permute([2, 0, 3, 1, 4]).split(2)
        return past_key_values

prefix_encoder 用的只是最简单的embedding