语言模型采用提示进行推理的方法综述

最新推荐文章于 2024-08-15 00:08:04 发布

三谷秋水

最新推荐文章于 2024-08-15 00:08:04 发布

阅读量1.3k

点赞数 22

分类专栏：大模型机器学习人工智能文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/yorkhunter/article/details/139077599

版权

大模型同时被 3 个专栏收录

737 篇文章

订阅专栏

机器学习

557 篇文章

订阅专栏

人工智能

426 篇文章

订阅专栏

介绍23年ACL（Association for Computational Linguistics）年会来自浙江大学、阿里巴巴和新加坡国立大学的论文“Reasoning with Language Model Prompting: A Survey”。

推理作为解决复杂问题的基本能力，可以为各种实际应用提供后端支持，例如医疗诊断、谈判等。本文对语言模型提示的推理前沿研究进行了全面调查，比较和总结介绍了研究成果，并提供了系统资源。还讨论了这种推理能力出现的潜在原因，并强调了未来的研究发展方向。

如图所示语言模型提示的推理：上下文例子和知识，作为提示去增强语言模型的推理。
请添加图片描述
如图是语言模型提示作为推理的类别。为了提升LM提示的推理能力，目前主要有两大研究分支。第一分支专注于优化带提示的推理策略，包括提示工程、流程优化和外部引擎，称为策略增强推理方法。对于提示工程，很多方法试图提高提示T的质量，称其为单步方法；而另一些方法则在每个推理阶段将每步ci附加到提示-回答对（T，Q）的上下文中或为每个推理步ci设计特定的提示Tci，称其为多步方法。注意，这里的一步指的是一个输入输出过程。对于过程优化，最简单的方法是在生成答案A时引入一个带有参数θ的优化器来校准推理C，称为自优化方法。其他一些方法试图获得多个过程来获得最终的答案组合。这些方法称为集成优化方法。此外，整个优化过程可以与对生成的询问-推理-答案三元组（Q，C，A）上的似然 pLM 进行微调迭代集成，这视为迭代优化方法。此外，一些工作利用外部推理引擎来生成提示 T ，直接执行推理 C 或在推理C 中植入工具 API 调用进行推理。第二个研究分支侧重于带有提示的知识增强，称为知识增强推理方法。请注意，LM 中丰富的隐式“模型边缘（modeledge）”（Han et al., 2021）可以生成知识或基本原理作为知识提示 T。同时，外部资源中的显性知识也可以被利用和检索为知识提示，以增强推理。
请添加图片描述
如图是策略增强推理的提示工程中的单步（左）和多部（右）方法。在每步中，一个问题（Q，虚线下方）将输入到 LM 中，该问题由几个包含推理步骤（C）的样本（虚线上方）提示。输出是推理步骤和答案（A）。
请添加图片描述
如图是策略增强推理的过程优化方法。自我优化应用优化器模块来标定单个推理过程。集成优化组装多个推理过程来标定答案。迭代优化通过迭代微调 LM 来标定推理过程。

如图是策略增强推理的外部引擎方法。外部引擎在推理过程中扮演提示生成器（物理模拟器）、推理执行器（代码解释器）或工具扩展器（工具学习）的角色。

请添加图片描述
如图是知识增强推理方法。提示由 LM（隐性知识）生成或从外部语料库（显性知识）检索。

请添加图片描述

下表列出了不同方法的四种比较范畴。
请添加图片描述
进一步，如图说明了不同规模的 LM 在 GSM8K（Cobbe et al., 2021）上的算术推理性能比较。

现有方法的提示来源主要有三种：1）手工构建的提示适用于基于模板的提示和小样本提示，提示并不复杂。2）LM 生成的提示弥补手工构建提示的不足。它可以为每个问题定制特定的合理性，并为提示提供足够的知识进行微调或自训练。3）基于检索的提示通常依赖于注释良好的外部资源（例如 Wikipedia）和消耗昂贵的信息检索，但它可以缓解生成的不稳定问题。

无论如何产生提示，CoT 提示只对大语言模型有效。较小的语言模型通过使用合理性进行微调来工作。结合 Ye 和 Durrett (2022) 中的经验结论，这些现象表明，输入上下文中包含的高质量推理合理性是使用语言模型提示进行推理的关键。尽管一些研究试图探索大语言模型的上下文学习能力 (Xie et al., 2022; Min et al., 2022; Akyürek et al., 2022)，但 CoT 提示能够成功的原因仍然不太清楚。一个可能的假设是，CoT 是代码训练的一个神奇的副产品，可以通过提示解锁。请注意，小样本提示中包含 CoT 的样本可以被看作是一种激发大语言模型中隐藏推理能力的指令。Chung et al. （2022）在指令微调中使用 CoT 验证了类似的结果，进一步提高模型性能。事实上，上下文学习（ICL）可以看作是从一般提示到人类可读指令的中间进化状态。按照这种趋势，提示可能会成为人机交互的重要界面。

下表是推理的一些基准和任务清单：
请添加图片描述