📖标题:MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning
🌐来源:arXiv, 2409.12147
摘要
🔸大型语言模型(LLM)的推理可以通过测试时聚合策略来改善,即生成多个样本并在生成的样本中进行投票。虽然这些策略可以提高性能,但它们通常会达到饱和点。细化提供了一种替代方法,即使用LLM生成的反馈来提高解决方案的质量。然而,细化引入了三个关键挑战:(1)过度细化:均匀细化所有实例可能会过度纠正并降低总体性能。(2)无法定位和解决错误:LLM的自我纠正能力有限,难以识别和纠正自己的错误。(3)细化不足:决定需要多少次细化迭代是不容易的,过早停止可能会导致错误未被解决。
🔸为了解决这些问题,我们提出了MAgICoRe,通过将问题难度分类为简单或困难,使用粗粒度聚合解决简单问题,使用细粒度和迭代的多智能体细化解决困难问题,从而避免过度细化。为了改善错误定位,我们结合外部逐步奖励模型(RM)分数。此外,为了确保有效的细化,我们采用了三个智能体的多智能体循环:求解器,评审员(根据逐步RM分数生成有针对性的反