📖标题:Reducing Tool Hallucination via Reliability Alignment
🌐来源:arXiv, 2412.04141
🌟摘要
🔸大型语言模型(LLM)已经将其功能扩展到语言生成之外,通过工具调用与外部系统进行交互,为现实世界的应用程序提供了强大的潜力。然而,当模型不正确地选择或误用工具时,会出现工具幻觉现象,这带来了严峻的挑战,可能导致任务执行有缺陷和运营成本增加。
🔸本文探讨了可靠工具调用的概念,并强调了解决工具幻觉的必要性。我们系统地将工具幻觉分为两种主要类型:工具选择幻觉和工具使用幻觉。为了缓解这些问题,我们提出了一个以可靠性为重点的对齐框架,该框架增强了模型准确评估工具相关性和使用情况的能力。
🔸通过提出一套评估指标并在StableToolBench上进行评估,我们进一步证明了我们的框架在减轻工具幻觉和提高LLM工具调用的整体系统可靠性方面的有效性。
🛎️文章简介
🔸研究问题:大语言模型(LLM)在调用外部工具时会出现工具幻觉,错导致误地选择或使用工具。
🔸主要贡献:论文提出了一个可靠工具调用的框架,系统地定义和分类了工具幻觉,并讨论了减少这些错误的策略,以提高LLM工具调用的可靠性。
📝重点思路
🔸系统地定义了工具幻觉,并将其分类为 ①工具选择幻觉,细分为工具类型幻觉和工具时间幻觉 ②工具使用幻觉,细分为工具格式幻觉和工具内容幻觉
🔸提出了工具幻觉率作为工具幻觉率的度量标准,用于捕捉在一组任务中幻觉工具调用的比例。
🔸引入了效益-成本效用和效益-成本比率两个度量标准,以评估任务执行的结果和工具使用的效率。
🔸提出了一个以可靠性为中心的对齐框架,包括不确定行动(如与用户对话或更换工具)和数据驱动的对齐算法,以减少幻觉。
🔸采用了联合训练策略,结合监督微调(SFT)和直接偏好优化(DPO),以提高模型的性能和稳定性。
🔎分析总结
🔸实施可靠性对齐框架显著降低了基线模型的工具幻觉率,特别是在处理缺失参数和工具不匹配的特殊情况下,并减少了每个任务所需的工具调用次数。
🔸结合SFT和DPO的模型在任务成功率和工具使用效率方面均有显著提升。
🔸通过引入不确定动作,模型能够更好地识别和避免幻觉决策,从而提高整体可靠性。
🔸论文提方法在效用和比率方面显著优于基线模型,尽管任务通过率略有下降,但工具幻觉和冗余工具调用的显著减少导致效用和比率显著提高,表明系统在处理复杂任务时更加可靠和高效。
💡个人观点
论文的核心是系统地定义了工具幻觉,并提出了可靠性作为对齐优化目标。
🧩附录