语言模型与人类反馈的深度融合：Chain of Hindsight技术

人工智能大模型讲师培训咨询叶梓

已于 2024-11-03 21:48:29 修改

阅读量1k

点赞数 25

分类专栏：人工智能文章标签：语言模型人工智能自然语言处理微调性能优化语言模型微调人类反馈学习

于 2024-09-11 13:00:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/142056561

版权

人工智能咨询培训老师叶梓转载标明出处

语言模型在理解和执行指令方面取得了显著成功，但依赖人工标注数据的监督式微调需要大量标记数据，这不仅成本高昂，而且可能限制了模型识别和纠正负面属性或错误能力。另一方面，基于人类反馈的强化学习虽然能够从所有数据中学习，但需要学习一个奖励函数，这可能导致与人类价值观的不一致，并且优化过程极其复杂。来自加州大学伯克利分校的研究人员提出了一种名为Chain of Hindsight（CoH）的技术，旨在通过人类反馈进一步提升语言模型的性能，该方法超越了传统的监督式微调（SFT）和基于人类反馈的强化学习（RLHF）方法。图1为人类评估在摘要和对话任务中CoH与其他方法的成对比较。

论文链接：https://arxiv.org/pdf/2302.02676

项目链接：GitHub - forhaoliu/chain-of-hindsight: Chain-of-Hindsight, A Scalable RLHF Method

方法

Chain of Hindsight技术的核心思想是模仿人类如何通过语言形式的反馈进行学习。具体而言CoH技术将所有类型的反馈转化为句子序列，然后利用这些序列对模型进行微调，从而利用语言模型的理解能力。模型在训练时会考虑一系列模型生成的输出及其对应的反馈，通过这种方式，模型学会了基于反馈生成输出，同时学会识别和纠正负面属性或错误。

研究者们采用了一个标准的Transformer模型架构，该架构是因果关系和仅解码器（decoder-only）的，这与之前在注意力机制方面的研究工作是一致的。这意味着在每个时间步，模型只能关注到之前的时间和它自身。给定一个由标记表示的文本，标准的因果语言建模目标是最大化文本的对数似然，即。在CoH中，通过结合多个模型输出和反馈来构建x，然后将其用于指令微调。例如，当模型被提示向儿童解释神经网络时，它会生成多个响应，然后将这些响应组合成一个序列，并与基于人类评分的反馈指令配对。