Prompt

东_東

已于 2022-12-16 17:03:21 修改

阅读量366

点赞数

文章标签：深度学习人工智能

于 2022-12-16 15:39:42 首次发布

本文链接：https://blog.csdn.net/weixin_45041346/article/details/128342676

版权

Prompt

Prompt是一种为下游任务设计的模板或范式，其目的是为了将下游任务和预训练任务统一起来。
其与Fine-tuning范式的区别如下：
Fine-tuning使用预训练模型去迁就我们的下游任务，也就是说根据具体的下游任务添加辅助loss然后反向梯度更新预训练模型中的参数，这样的话就不能很好的激发预训练模型的潜能；Prompting让我们的下游任务去迁就预训练模型，其实是尽量让下游任务和预训练相似，充分发挥预训练模型的潜能。
融入了Prompt的新模式大致可以归纳成”pre-train, prompt, and predict“，在该模式中，下游任务被重新调整成类似预训练任务的形式。例如，通常的预训练任务有Masked Language Model，在文本情感分类任务中，对于 “I love this movie.” 这句输入，可以在后面加上prompt “The movie is ___” 这样的形式，然后让PLM用表示情感的答案填空如 “great”、“fantastic” 等等，最后再将该答案转化成情感分类的标签，这样以来，通过选取合适的prompt，我们可以控制模型预测输出，从而一个完全无监督训练的PLM可以被用来解决各种各样的下游任务。

prompt定义

在这里插入图片描述
在实际的研究中，prompts应该有空位置来填充答案，这个位置一般在句中或者句末。如果在句中，一般称这种prompt为cloze prompt；如果在句末，一般称这种prompt为prefix prompt。[X]和[Z]的位置以及数量都可能对结果造成影响，因此可以根据需要灵活调整。

prompt设计

Prompt的形状主要指的是[X]和[Z]的位置和数量。上文提到cloze prompt和prefix prompt的区别，在实际应用过程中选择哪一种主要取决于任务的形式和模型的类别。cloze prompts和Masked Language Model的训练方式非常类似，因此对于使用MLM的任务来说cloze prompts更加合适；对于生成任务来说，或者使用自回归LM解决的任务，prefix prompts就会更加合适；Full text reconstruction models较为通用，因此两种prompt均适用。另外，对于文本对的分类，prompt模板通常要给输入预留两个空，[X1]和[X2]。

手工设计模板

Prompt最开始就是从手工设计模板开始的。手工设计一般基于人类的自然语言知识，力求得到语义流畅且高效的模板。例如，Petroni等人在著名的LAMA数据集中为知识探针任务手工设计了cloze templates；Brown等人为问答、翻译和探针等任务设计了prefix templates。手工设计模板的好处是较为直观，但缺点是需要很多实验、经验以及语言专业知识，代价较大。

自动学习模板

离散prompts

自动生成离散Prompts指的是自动生成由自然语言的词组成的Prompt，因此其搜索空间是离散的。目前大致可以分成下面几个方法。
(1)Prompt Mining. 该方法需要一个大的文本库支持，例如Wikipedia。给定输入x和输出y，要找到和之间的中间词或者依赖路径，然后选取出现频繁的中间词或依赖路径作为模板，即“[X] middle words [Z]”。
(2)Prompt Paraphrasing. Paraphrasing-based方法是基于释义的，主要采用现有的种子prompts(例如手动构造)，并将其转述成一组其他候选prompts，然后选择一个在目标任务上达到最好效果的。一般的做法有：将提示符翻译成另一种语言，然后再翻译回来；使用同义或近义短语来替换等。
（3）Gradient-based Search. 梯度下降搜索的方法是在单词候选集里选择词并组合成prompt，利用梯度下降的方式不断尝试组合，从而达到让PLM生成需要的词的目的。
（4）Prompt Generation. 既然Prompt也是一段文本，那是否可以用文本生成的方式来生成Prompt呢？该类方法就是将标准的自然语言生成的模型用于生成prompts了。例如，Gao等人将T5引入了模板搜索的过程，让T5生成模板词；Ben-David 等人提出了一种域自适应算法，训练T5为每个输入生成一种唯一的域相关特征，然后把输入和特征连接起来组成模板再用到下游任务中。
（5）Prompt Scoring. Davison等人在研究知识图谱补全任务的时候为三元组输入（头实体，关系，尾实体）设计了一种模板。首先人工制造一组模板候选，然后把相应的[X]和[Z]都填上成为prompts，并使用一个双向LM给这些prompts打分，最后选取其中的高分prompt。