📖标题:ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding
🌐来源:arXiv, 2501.07861
🌟摘要
🔸用于大型语言模型(LLM)的检索增强生成(RAG)系统在知识密集型任务中显示出前景,但它们的推理能力,特别是复杂的多步推理能力仍然有限。尽管最近的方法已经探索了将RAG与思维链推理相结合,或将测试时间搜索与过程奖励模型(PRM)相结合,但这些方法面临着几个不可靠的挑战,包括缺乏解释、PRM训练数据中的偏差、PRM分数中的早期偏差,以及忽视未能充分优化推理潜力的训练后。
🔸为了解决这些问题,我们提出了通过可信过程奖励进行检索增强推理(ReARTeR),这是一个通过训练后和测试时间扩展来增强RAG系统推理能力的框架。在测试时,ReARTeR通过用于精确标量评分的过程奖励模型和用于生成自然语言解释的过程解释模型(PEM)引入了值得信赖的过程奖励,从而实现了步骤细化。在训练后,我们利用蒙特卡洛树搜索在可信过程奖励的指导下收集高质量的步骤级偏好数据,通过迭代偏好优化来优化模型。
🔸ReARTeR解决了三个关键挑战:(1) PRM和PEM之间的不一致,通过非政策偏好学习来解决;(2) PRM训练数据中的偏差,通过平衡注释方法和对困难示例进行更强的注释来缓解;以及(3)PRM中的早期步骤偏差,通过基于时间差异的前瞻性搜索策略解决。多步推理基准的实验结果表明,ReARTeR显著提高了推理性能,突出了其提高RAG系统推理能力的潜力。
🛎️文章简介
🔸研究问题:检索增强生成(RAG)系统在多步推理任务中面临的推理能力不足、过程奖励模型(PRM)的可解释性差、训练数据偏差以及早期步骤偏差等问题。
🔸主要贡献:论文提出了ReARTeR框架,通过结合后训练和测试时扩展,显著提升了RAG系统的推理路径质量和生成器的细化能力。
📝重点思路
🔸可信过程奖励模型(PRM):通过蒙特卡洛方法生成过程监督信号,并使用交叉熵损失训练PRM,以准确评估推理步骤的奖励分数。
🔸过程解释模型(PEM):通过离线策略偏好学习(Off-policy Preference Learning)将PEM与PRM对齐,生成自然语言解释,帮助模型根据反馈改进推理步骤。
🔸减少早期步骤偏差:提出基于时间差分(TD)的前瞻搜索策略,通过模拟未来推理步骤来更新当前步骤的奖励估计,减少早期步骤的偏差。
🔸训练后扩展:采用蒙特卡洛树搜索(MCTS)生成高质量偏好数据,并通过离线强化学习优化模型,提升RAG系统的推理能力。
🔸测试时扩展:结合PRM和PEM的反馈,通过自我改进和搜索验证策略,提升推理性能。
🔎分析总结
🔸推理能力提升:ReARTeR在多个公开的多步推理RAG数据集上显著提升了推理能力,验证了通过后训练和测试时扩展增强RAG系统推理能力的可行性。
🔸组件有效性:实验结果表明,ReARTeR的各个组件(如PRM、PEM、TD前瞻搜索等)都对提升推理能力起到了重要作用,移除任何一个组件都会显著降低系统性能。
🔸后训练迭代效果:随着后训练迭代次数的增加,RAG系统在多步推理数据集上的性能显著提升,且算法在迭代过程中表现出稳定的性能改进。
🔸PEM和PRM对齐效果:对齐PEM和PRM后,系统在复杂多步推理任务中的准确率显著提升,验证了对齐策略的有效性。
💡个人观点
论文的核心在于过程监督及反馈生成,并通过训练和测试时扩展搜索路径来提升推理能力。
🧩附录