📖标题:Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework
🌐来源:arXiv, 2409.16146
摘要
🔸检索增强生成(RAG)已成为缓解大型语言模型幻觉问题的流行解决方案。然而,现有的关于RAG的研究很少解决预测不确定性的问题,即RAG模型的预测不正确的可能性有多大,从而导致现实世界应用中的不可控风险。
🔸在这项工作中,我们强调了风险控制的重要性,确保RAG模型主动拒绝回答低置信度的问题。我们的研究确定了影响RAG对其预测信心的两个关键潜在因素:检索结果的质量和使用这些结果的方式。为了指导RAG模型基于这两个潜在因素评估自己的信心,我们开发了一个反事实提示框架,诱导模型改变这些因素,并分析其对答案的影响。我们还引入了一个基准测试程序来收集答案,并可以选择弃权,从而促进了一系列实验。
🔸为了进行评估,我们引入了几个与风险相关的指标,实验结果证明了我们方法的有效性。我们的代码和基准数据集在https://github.com/ictbigdatalab/RC-RAG.
🛎️文章简介
🔸研究问题:检索增强生成(RAG)模型在面对噪声搜索结果时产生的不可靠答案。
🔸主要贡献:论文提出了一种新的反事实提示框架,用于评估RAG模型的预测不确定性,从而决定何时保留或丢弃生成的答案。
📝重点思路
🔺相关工作
🔸RAG:典型的RAG方法遵循先检索后生成,通过单轮或多轮对所有问题进行检索增强,但低质量的检索结果会损害生成性能,一种方案是根据内部知识边界确定何时检索。
🔸知识边界:衡量模型内部知识的边界,可以用来确定何时放弃未知问题,包括事前验证和事后自我反思,但存在过度自信。
🔸反事实思维:作为关联和干预之后因果阶梯的第三级,反事实通过改变因变量来反映因果关系,帮助模型更好的泛化和去偏差。
🔺论文方案
🔸提示生成模块:利用反事实思维,诱导模型在不同场景下重新生成答案。
🔸判断模块:根据不确定性评估,分析每个变化因素对答案的影响,如果答案保持不变说明置信度较高会保留,反之丢弃。
🔸融合模块:结合两个场景的判断结果,生成最终的决策。
🔎分析总结
🔸风险控制的有效性:反事实提示框架在风险控制方面比基线方法更有效,能够显著降低风险并保持谨慎性。
🔸LLM能力的影响:LLM的能力对风险控制效果有显著影响,较强的LLM在风险控制方面表现更好。
🔸QA任务难度的影响:QA任务的难度对风险控制能力有影响,较难的任务对风险控制提出了更高的要求。
🔸检索结果质量的影响:检索结果的质量对风险控制效果有显著影响,高质量的检索结果能够提高风险控制的效果。
🔸反事实提示的影响:两个反事实提示(质量提示和使用提示)分别对风险控制效果有不同的影响,质量提示在风险控制方面表现更好,而使用提示在覆盖率方面表现更好。
🔸可解释性:反事实提示框架具有一定的可解释性,能够解释风险控制决策的依据。
💡个人观点
论文的核心是通过提示让模型重新审视检索信息,根据输出置信度变化能判断检索内容是否可信,但个人觉得更换检索的关键要素看变化可能更好。