北大:偏好优化提升LLM在RAG的知识感知

在这里插入图片描述

📖标题:KaPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
🌐来源:arXiv, 2408.03297v1

🛎️文章简介

🔸研究问题:如何优化检索增强语言模型遇到的知识冲突,导致模型的响应混乱。
🔸主要贡献:论文提出了一种知识感知偏好优化框架KaPO,通过偏好优化方法避免上下文中的错误信号,增强了LLM的遵循能力和噪声鲁棒性。

📝重点思路

🔺相关工作

🔸知识冲突:LLM在知识冲突中,倾向于接受参数知识、忽略冲突的上下文信息,这种忽略的趋势受到模型的先验标记概率和冲突知识的偏差程度的强烈影响,现有方案包括知识感知微调 (KAFT) 、解码策略和复杂提示工程等。
🔸RAG:通过提示工程结合外部知识检索组件,实现更多的事实一致性,提高LLM响应的可靠性和可解释性。还可以通过预训练阶段获得的参数知识,生成中间上下文来改进检索和阅读框架。
🔸知识编辑:更新模型知识的一种经典方法,专注于识别模型如何存储事实知识,并设计有效的策略来更新存储在预训练模型中的参数知识。

🔺论文方案

🔸冲突构建:首先提取LLM预训练阶段获得的世界知识,然后构建反事实答案作为知识冲突,包括上下文过度包含和上下文无关的错误,最后基于不同类型的冲突构造上下文。
🔸指令微调:使用构建的冲突数据执行指令微调,让模型学会识别信息和问题的相关性,在不确定时回答“不知道”,以增强LLM的依从性能力和噪声鲁棒性。
🔸偏好对齐:利用构建的偏好数据进行DPO训练,平衡长度分布和错误类型,进一步提高LLM避免两种类型错误的能力,同时确保其最终响应符合用户偏好。

🔎分析总结

🔸分析发现,LLM在面对冲突上下文时,常常由于噪声鲁棒性不足或幻觉问题而使用不适当的信息。
🔸KaPO的在所有指标上都优于基线方法,对于分布外任务也有很好的泛化性。
🔸KaPO的每个阶段对性能提升都很重要,核心在于训练数据的正负样本要源自上下文且有明显区别。

💡个人观点

论文的核心在于构建高质量的冲突数据,通过偏好优化学习知识选择。

附录

在这里插入图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值