IBM:基于非结构化文本的LLM偏好对齐

在这里插入图片描述

📖标题:Value Alignment from Unstructured Text
🌐来源:arXiv, 2408.10392

摘要

🔸将大型语言模型(LLMs)与价值体系对齐已成为人工智能和自然语言处理领域内的一个重要研究领域。目前,这一对齐过程依赖于高质量的监督和偏好数据,而这些数据的筛选和注释都可能非常耗时和昂贵。
🔸本文提出了一种系统化的端到端方法,用于将LLMs与非结构化文本数据中所代表的隐含和显性价值对齐。我们提出的方法利用可扩展的合成数据生成技术,有效地将模型与非结构化数据中存在的价值对齐。通过两个不同的用例,我们展示了我们的方法在Mistral-7B-Instruct模型上的效率。我们的方法可信地将LLMs与文档中嵌入的价值对齐,并且在自动指标和胜率的衡量下表现出比其他方法更好的性能。

🛎️文章简介

🔸研究问题:大语言模型(LLM)价值对齐依赖高质量监督数据和偏好数据,如何降低整理或注释的成本?
🔸主要贡献:论文提出了一种新的方法,通过非结构化文本合成数据,并使用监督微调和偏好优化算法,使LLM与非结构化文本中的价值观对齐。

📝重点思路

🔺相关工作

🔸传统的价值对齐方法通常依赖于高质量的人工监督数据和偏好数据,这些数据的生产成本高昂且耗时。
🔸这些方法将模型与人类明确规定的价值对齐,可能会在训练过程中忽略细微的信息和上下文,并过度拟合大多数群体的偏好。
🔸也可以依赖于精心策划的一套规则或原则,但大多数实际用例的价值体系存在于非结构化文本中,不存在相应的规则集。

🔺论文方案

🔸文档分块:给定一个非结构化文档,分拆为若干块。
🔸价值判断:利用大型教师模型来评估给定块是否包含有关某些值的信息。
🔸数据合成:要求同一个教师模型根据过滤后的块生成一个相关问题,以及两个相应的响应。
🔸模型训练:使用生成的指令做监督微调(SFT),使用偏好数据做直接偏好优化(DPO)。

🔎分析总结

🔸文章训练的策略模型,在所有指标上均优于其他方法。
🔸监督微调和偏好优化都可以更进一步的提高表现,表明合成数据的有效性。
🔸尽管预期RAG的集成会提高性能,但实际上却导致了性能下降,这可能是由于参数记忆和非参数记忆之间的冲突。

💡个人观点

论文的核心是通过非结构化文本合成数据,实现无人工干预的监督微调和偏好优化。

附录

在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值