预训练、提示和预测：NLP提示方法的综述

硅谷秋水

已于 2024-07-30 21:23:47 修改

阅读量312

点赞数 6

分类专栏：大模型机器学习人工智能文章标签：自然语言处理人工智能语言模型

于 2024-06-28 03:07:35 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/139892496

版权

大模型同时被 3 个专栏收录

431 篇文章 6 订阅

订阅专栏

机器学习

245 篇文章 2 订阅

订阅专栏

人工智能

225 篇文章 0 订阅

订阅专栏

23年1月来自CMU和国立新加坡大学ACM Computing Surveys发表的综述论文“Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing“。

本文对自然语言处理的一种新范式，称之为“基于提示的学习”，进行调查。与传统的监督学习不同，其训练一个模型接受输入x并将输出y预测为P（y|x），基于提示的学习基于语言模型，其直接对文本概率建模。为了用这些模型来执行预测任务，模板被用来将原始输入x修改为具有一些未填充区域的文本字符串提示x′，然后用语言模型来概率地填充未填充的信息，获得最终字符串，从中可以导出最终输出y。该框架功能强大且具有吸引力，原因有很多：它允许对大量原始文本进行语言模型的预训练，通过定义新的提示函数，该模型能够执行很少的搜索甚至零样本学习，适应很少或无标记数据的新场景。该文介绍了这种有前景范式的基础，描述了一套统一的数学符号，可以涵盖现有的各种工作，并沿着几个维度组织现有的工作。例如，选择预训练的语言模型、提示和调整策略。

如下表给出四个NLP范式： “engineering”栏代表了为构建强大系统而要进行的工程类型。“task relation”列显示语言模型（LM）和其他NLP任务之间的关系，另外 CLS=classification, TAG=sequence tagging, GEN=text generation。

添加图片注释，不超过 140 字（可选）

如图给出提示方法的分类：

添加图片注释，不超过 140 字（可选）

提示模板工程是创建提示函数f（x）的过程，该函数可在下游任务上获得最有效的性能。在之前的许多工作中，这涉及到人类工程师或算法为模型预期执行的每个任务寻找最佳模板。如图的“提示模板工程”部分所示，必须首先考虑提示形状，然后决定是采用手动还是自动方法来创建所需形状的提示。

与为提示方法设计适当输入的提示模板工程不同，提示答案工程旨在搜索答案空间Z和原始输出Y的映射，从而产生有效的预测模型。图中的“提示答案工程”部分说明了在执行提示答案工程时必须考虑的两个维度：决定答案形状和选择答案设计方法。

大量研究表明，使用多个提示可以进一步提高提示方法的效果，这些方法称为多提示学习方法。在实践中，有几种方法可以将单一提示学习扩展到使用多个提示，其具有多种动机。

下表给出提示方法相关的一些研究题目：

添加图片注释，不超过 140 字（可选）

最后提一下提示的标定问题：

标定[33]是指模型做出良好概率预测的能力。当用预训练的LMs（例如，BART）生成概率来预测答案时，需要小心，因为概率分布通常没有很好地标定。Jiang[51]观察到，预训练的LMs（如BART、T5和GPT-2）在QA任务中的概率得到了很好的标定。Zhao[151]确定了三个陷阱（多数标签偏见、最近度偏见和常见token偏见），这三个陷阱导致预训练的LMs在提供回答提示时倾向于某些答案。例如，如果最终回答的提示有一个正的标签，那么这将使模型倾向于预测正的单词。为了克服这些陷阱，Zhao[151]首先使用无上下文输入来获得初始概率分布P0，然后用真实的输入获得概率分布P1。最后，这两个分布可以用来获得标定的生成概率分布。然而，这种方法有两个缺点：（1）它带来了寻找合适上下文无关输入的开销（例如，是用“N/A”还是“None”）；（2）底层预训练LM的概率分布仍然没有标定。

尽管有一个标定的概率分布，但当假设一个输入只有一个黄金答案时，也需要小心。这是因为同一目标的所有表面形式都将争夺有限的概率质量[45]。为了解决这个问题，可以（i）执行提示答案工程，用释义方法构建一个全面的黄金答案集，或者（ii）根据单词在上下文中的先验似然来校准单词的概率[45]。