语言模型与人类反馈的深度融合:Chain of Hindsight技术

人工智能咨询培训老师叶梓 转载标明出处

语言模型在理解和执行指令方面取得了显著成功,但依赖人工标注数据的监督式微调需要大量标记数据,这不仅成本高昂,而且可能限制了模型识别和纠正负面属性或错误能力。另一方面,基于人类反馈的强化学习虽然能够从所有数据中学习,但需要学习一个奖励函数,这可能导致与人类价值观的不一致,并且优化过程极其复杂。来自加州大学伯克利分校的研究人员提出了一种名为Chain of Hindsight(CoH)的技术,旨在通过人类反馈进一步提升语言模型的性能,该方法超越了传统的监督式微调(SFT)和基于人类反馈的强化学习(RLHF)方法。图1为人类评估在摘要和对话任务中CoH与其他方法的成对比较。

论文链接:https://arxiv.org/pdf/2302.02676

项目链接:GitHub - forhaoliu/chain-of-hindsight: Chain-of-Hindsight, A Scalable RLHF Method

方法

Chain of Hindsight技术的核心思想是模仿人类如何通过语言形式的反馈进行学习。具体而言CoH技术将所有类型的反馈转化为句子序列,然后利用这些序列对模型进行微调,从而利用语言模型的理解能力。模型在训练时会考虑一系列模型生成的输出及其对应的反馈,通过这种方式,模型学会了基于反馈生成输出,同时学会识别和纠正负面属性或错误。

研究者们采用了一个标准的Transformer模型架构,该架构是因果关系和仅解码器(decoder-only)的,这与之前在注意力机制方面的研究工作是一致的。这意味着在每个时间步,模型只能关注到之前的时间和它自身。给定一个由标记表示的文本,标准的因果语言建模目标是最大化文本的对数似然,即。在CoH中,通过结合多个模型输出和反馈来构建x,然后将其用于指令微调。例如,当模型被提示向儿童解释神经网络时,它会生成多个响应,然后将这些响应组合成一个序列,并与基于人类评分的反馈指令配对。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值