P-Tuning v2: 深度提示调优提升通用性

硅谷秋水

于 2024-07-04 00:50:34 发布

阅读量694

点赞数 13

分类专栏：人工智能机器学习大模型文章标签：人工智能语言模型机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/139917973

版权

大模型同时被 3 个专栏收录

356 篇文章 1 订阅

订阅专栏

人工智能

183 篇文章 0 订阅

订阅专栏

机器学习

176 篇文章 1 订阅

订阅专栏

22年5月来自清华、北京智源AI研究院（BAAI）和上海期智研究院的论文“P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks“。

提示调优仅用冻结的语言模型调整连续提示，实质上减少了训练中每个任务的存储和内存使用量。然而，在自然语言理解（NLU）的环境中，先前的工作表明，对正常大小的预训练模型，提示调优效果不佳。现有的提示调优方法无法处理困难的序列标记任务，这表明其方法缺乏通用性。本文提出一个新的实证发现 - 适当优化的提示调整，在广泛的模型规模和NLU任务中是普遍有效的。其与微调的性能相匹配，同时只包含 0.1%- 3% 的调整参数。称为 P-Tuning v2 的方法是深度提示调优的实现（Li & Liang2021; Qin & Eisner 2021），专门针对NLU进行了优化和调整。

两个工作（Lester2021）和（Liu 2021)，已被证明在许多NLP应用中非常有效 (Wang 2021 a,b; Chen 2021; Cheng 2021; Min 2021)，但由于缺乏通用性仍然存在取代微调上的不足，包括两个方面：

1）缺乏跨规模的普遍性。（Lester2021）表明，当模型扩展到超过 100 亿个参数时，提示调整可以与微调相媲美。然而，对于广泛使用的中型模型（从100M到1B），提示调整的效果比微调要差得多。

2）缺乏跨任务的通用性。虽然（Lester2021）和（Liu2021）在一些 NLU 基准上表现出了优越性，但对困难的序列标记任务进行提示调整的有效性尚未得到验证。序列标记预测每个输入token的标签序列，这可能更难并且与发言者不兼容（Schick & Schütze，2020）。在文中实验看到，（Lester 2021）和（Liu2021）的方法与微调相比，在典型的序列标记任务上表现不佳。

考虑到这些挑战，P-tuning v2 采用深度提示调优（Li and Liang2021；Qin and Eisner2021）作为跨规模和 NLU 任务的通用解决方案。
在（Lester 2021）和（Liu 2021）中，连续提示仅插入到输入嵌入序列中，如图a所示。这带来两个挑战。首先，由于序列长度的限制，可调参数的数量受到限制。其次，输入嵌入对模型预测具有相对间接的影响。为了应对这些挑战，P-tuning v2 采用了深度提示调优的思想（Li & Liang，2021；Qin & Eisner，2021）。如图b所示，不同层中的提示被添加为前缀token。一方面，P-tuning v2 具有更多可调优的特定任务参数（从 0.01% 到 0.1%-3%），允许更多的各任务容量，同时保持参数效率；另一方面，添加到更深层次的提示对模型预测有更直接的影响。

添加图片注释，不超过 140 字（可选）

注意重参数化问题。之前的工作通常利用重参数化编码器，例如 MLP（Li & Liang，2021 ; Liu 2021 ），转换可训练的嵌入。但是，对于NLU，其可用性取决于任务和数据集。对于某些数据集（例如RTE和CoNLL04），MLP带来了一致的改进；对于其他数据集，MLP对结果的影响很小甚至负面效果（例如，BoolQ和CoNLL12）。

还有提示长度问题。提示长度在 P-Tuning v2 中起着关键作用。不同的NLU任务通常在不同的提示长度下达到最佳性能。通常，简单的分类任务更喜欢较短的提示（少于 20 个）；困难的序列标记任务更喜欢较长的提示（大约 100 个）。

以及多任务学习问题。在对单任务进行微调之前，多任务学习通过共享的连续提示联合优化多个任务。多任务对于P-Tuning v2是可选的，但可以提供更好的初始化来进一步提高性能（Gu2021）。

最后提一下分类头问题。用一个语言建模头来预测言语者（Schick&Schütze，2020）一直是提示调整的核心（Liu2021），但在完整的数据设置中没有必要这样做，并且也与序列标记不兼容。P-tuning v2将随机初始化的分类头应用于token，如BERT中所示（Devlin2018）。
为了阐明P-tuning v2的主要贡献，下表1对现有的提示调优方法进行了概念比较：KP-知识探测Knowledge Probe; SeqTag-S序列标记equence Tagging; Re-param.-重参数化Reparameterization; No verb.-无言语者No verbalizer。

添加图片注释，不超过 140 字（可选）

硅谷秋水

关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
P-Tuning v2: 深度提示调优提升通用性

22年5月来自清华、北京智源AI研究院（BAAI）和上海期智研究院的论文“P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks“。
复制链接

扫一扫

专栏目录