人工智能咨询培训老师叶梓 转载标明出处
语言模型在理解和执行指令方面取得了显著成功,但依赖人工标注数据的监督式微调需要大量标记数据,这不仅成本高昂,而且可能限制了模型识别和纠正负面属性或错误能力。另一方面,基于人类反馈的强化学习虽然能够从所有数据中学习,但需要学习一个奖励函数,这可能导致与人类价值观的不一致,并且优化过程极其复杂。来自加州大学伯克利分校的研究人员提出了一种名为Chain of Hindsight(CoH)的技术,旨在通过人类反馈进一步提升语言模型的性能,该方法超越了传统的监督式微调(SFT)和基于人类反馈的强化学习(RLHF)方法。图1为人类评估在摘要和对话任务中CoH与其他方法的成对比较。
论文链接:https://arxiv.org/pdf/2302.02676
项目链接:GitHub - forhaoliu/chain-of-hindsight: Chain-of-Hindsight, A Scalable RLHF Method
方法
Chain of Hindsight技术的核心思想是模仿人类如何通过语言形式的反馈进行学习。具体而言CoH技术将所有类型的反馈转化为句子序列,然后利用这些序列对模型进行微调,从而利用语言模型的理解能力。模型在训练时会考虑一系列模型生成的输出及其对应的反馈,通过这种方式,模型学会了基于反馈生成输出,同时学会识别和纠正负面属性或错误。
研究者们采用了一个标准的Transformer模型架构,该架构是因果关系和仅解码器(decoder-only)的,这与之前在注意力机制方面的研究工作是一致的。这意味着在每个时间步,模型只能关注到之前的时间和它自身。给定一个由标记表示的文本,标准的因果语言建模目标是最大化文本的对数似然,即
。在CoH中,通过结合多个模型输出和反馈来构建x,然后将其用于指令微调。例如,当模型被提示向儿童解释神经网络时,它会生成多个响应,然后将这些响应组合成一个序列,并与基于人类评分的反馈指令配对。