📖标题:WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback
🌐来源:arXiv, 2408.15549
摘要
🔸随着大型语言模型(LLM)的不断发展,将这些模型与人类偏好相匹配已成为一项关键挑战。传统的对齐方法依赖于人工或LLM注释的数据集,受到其资源密集性、固有主观性和放大模型偏差的反馈循环风险的限制。
🔸为了克服这些局限性,我们引入了WILDFEDBACK,这是一个利用实时、现场用户交互创建偏好数据集的新框架,可以更准确地反映真实的人类价值观。WILDFEDBACK通过三个步骤进行操作:反馈信号识别、偏好数据构建和用户引导评估。我们将此框架应用于大量用户LLM对话语料库,从而生成了一个反映真实用户偏好的丰富偏好数据集。该数据集通过识别和分类自然对话中的反馈信号来捕捉用户偏好的细微差别,从而能够构建更具代表性和上下文敏感的对齐数据。
🔸我们广泛的实验表明,在WILDFEDBACK上微调的LLM与用户偏好的一致性显著提高,传统基准和我们提出的用户指导评估都证明了这一点。通过整合实际用户的实时反馈,WILDFEDBACK解决了困扰现有方法的可扩展性、主观性和偏见挑战,标志着朝着开发更能满足用户多样化和不断变化的需求的LLM迈出了重要的一步。总之,WILDFEDBACK提供了一个强大、可扩展的解决方案,使LLM与真正的人类价值观相一致,为以用户为中心的语言模型的开发和评估设定了新的标准。
🛎️文章简介
🔸研究问题:传统的对齐方法依赖于人类或大语言模型(LLM)注释的数据集,存在规模限制和主观性问题,且合成数据可能引入模型自身的偏见。
🔸主要贡献:论文提出了WILDFEEDBACK框架,通过实时、现场的用户反馈来构建更能反映实际人类价值的偏好数据集,提高了模型与用户偏好的对齐度。
📝重点思路
🔺相关工作
🔸LLM反馈学习:结合人类反馈是使LLM与人类偏好保持一致的有效策略,但人工注释成本高昂难以拓展且带有主观性,并且人群的偏好分布并不一致。现有研究引入了模型自监督和宪法人工智能,但这个反馈闭环会带来模型自身的偏见而偏离人类观点。
🔸LLM对齐数据:通常包括指令调优和偏好训练两个步骤,依赖人类专家手动注释或由模型生成的精选数据集,可能无法完全捕获现实世界用户交互的复杂性和多样性。
🔺论文方案
🔸识别反馈信号:使用9个SAT/DSAT评分标准,在多轮对话会话中有效识别包括感恩、学习等正面反馈和事实错误、不切实际等负面反馈。
🔸构建偏好数据:识别包含反馈信号的对话后,根据这些信号构建偏好数据集,由提示、用户偏好、首选响应和不首选响应四个部分组成。
🔸人工评估反馈:为了避免模型自我反馈的偏见问题,引入人工对相应进行注释
🔎分析总结
🔸经过WILDFEEDBACK微调的模型在自动化基准和用户引导评估框架中显示出与用户偏好更好的对齐。
🔸较大模型比较小模型更容易被控制,且大约70%的较大模型的首选响应与实时用户偏好一致,而较小模型只有约50%一致。
🔸即使在GPT-4评估中未提供用户偏好作为检查表,模型性能仍与现成版本相当或更好,表明训练方法的稳健性。
💡个人观点
论文的核心在于引入了实时用户反馈,实现了更真实和上下文敏感的LLM对齐。
附录