📖标题:MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models
🌐来源:arXiv, 2408.17072
摘要
🔸在现实世界的RAG系统中,当前的查询通常涉及对话上下文中的口语省略和模糊引用,因此需要重写查询以更好地描述用户的信息需求。然而,由于从查询重写到响应生成的漫长过程,传统的基于上下文的重写对下游生成任务的增强作用很小。一些研究人员试图利用带有生成反馈的强化学习来帮助重写者,但在大多数情况下,这种稀疏的奖励几乎没有提供任何指导,导致训练和生成结果不稳定。我们发现,用户的需求也反映在黄金文档、检索到的文档和地面真相中。因此,通过将这些多方面密集的奖励反馈给查询重写,可以获得更稳定和令人满意的响应。
🔸本文提出了一种新的查询重写方法MaFeRw,该方法通过整合检索过程和生成结果的多方面反馈来提高RAG性能。具体来说,我们首先使用手动数据来训练T5模型进行重写器初始化。接下来,我们设计了三个指标作为强化学习反馈:重写查询与黄金文档之间的相似性、排名指标以及生成与基本事实之间的ROUGE。受RLAIF的启发,我们为上述指标训练了三种奖励模型,以实现更有效的训练。最后,我们将这些奖励模型的得分作为反馈,并使用PPO算法探索最优查询重写策略。在两个会话RAG数据集上的实验结果表明,与基线相比,MaFeRw实现了更优的生成指标和更稳定的训练。
🛎️文章简介
🔸研究问题:在大语言模型(LLM)做检索增强生成(RAG)时,由于查询常包含口语化的省略和模糊的上下文引用,导致系统难以准确理解用户意图,从而影响检索和生成的准确性。
🔸主要贡献:论文提出了MaFeRw方法,通过集成多方面的反馈来改进查询重写,从而提升RAG系统的性能。
📝重点思路
🔺相关工作
🔸在对话系统中,用户的话语通常包含遗漏和模糊的引用,需要一个重写模型来解决当前查询中的这些歧义,并从上下文中恢复丢失的元素。
🔸目前查询重写的研究主要集中在会话搜索任务、会话QA任务和RAG任务上。
🔸一些研究尝试利用带有生成反馈的强化学习来协助重写器,但这种稀疏的奖励在大多数情况下几乎无法提供指导,从而导致训练和生成结果不稳定。
🔺论文方案
🔸步骤1-重写器初始化:使用手动重写的数据来训练一个T5模型。
🔸步骤2-构建三种反馈指标:重写查询与黄金文档的相似度,检索文档与真实文档的相似度排名指标,生成响应与真实文档的ROUGE分数。
🔸步骤3-训练奖励模型:根据上述指标收集数据,训练三种奖励模型。
🔸步骤4-构建反馈:将模型重写查询与手动重写查询的ROUGE分数作为第四种反馈,以衡量重写器的性能。
🔸步骤5-偏好训练:将三种奖励模型的分数与重写ROUGE分数结合,使用PPO算法探索最优的查询重写策略。
🔎分析总结
🔸MaFeRw在检索和生成性能上显著优于基线方法。
🔸MRR分数的提升伴随生成指标的提升。
🔸查询重写在处理话题转换对话时表现更好。
🔸MaFeRw在多文档对话QA任务中表现出色
💡个人观点
论文的核心在于集成多方面的反馈,从而改进查询重写。