WorldPM: Scaling Human Preference Modeling
背景与动机
本文提出World Preference Modeling (WorldPM),旨在探索偏好建模中的扩展潜力。作者受语言建模中扩展规律的启发,发现类似规律存在于偏好建模领域。研究核心是从公共论坛收集偏好数据,通过大规模训练验证扩展规律,并探索WorldPM作为偏好微调基础模型的潜力。
研究方法
数据收集与准备
研究从StackExchange、Reddit和Quora等公共论坛收集数据,通过投票机制形成偏好对。分析不同数据源质量后,选择StackExchange作为主要数据源,因其展现出最佳泛化能力和跨领域迁移能力。共收集约1500万条训练样本,涵盖不同领域和主题。
模型训练与评估
使用参数规模从1.5B到72B的模型进行训练,保持学习率3e-6和批量大小10K等超参数一致。评估使用多个基准测试集,包括PPE、RMB、RM-Bench和RewardBench等,涵盖对抗性、客观和主观三类评估指标。
关键发现
-
对抗性评估:随着训练数据和模型规模增加,测试损失呈现幂律下降,表明模型识别错误回答的能力增强。
-
客观评估:大型模型在多个基准测试中展现出幂律下降趋势,小型模型改进有限,表明客观知识偏好建模需要大型模型。
-
主观评估:未观察到明显扩展趋势,可能因风格偏好(如偏好长回答)导致评估结果不稳定。
实验结果与分析
扩展趋势
-
对抗性评估:三个测试集均呈现幂律下降趋势,表明模型识别错误回答的能力随训练数据增加而增强。
-
客观评估:大型模型在多个基准测试中表现优于小型模型,表明某些能力仅在模型规模足够大时才出现。
-
主观评估:模型规模扩大并未带来性能提升,可能因人类主观偏好多样性导致。
风格影响分析
提出在评估中分离风格和内容,通过线性组合评分差异和风格差异形成最终评估指标。发现随着训练规模和模型规模增加,模型对风格特征的依赖减少,但主观评估中仍存在风格偏好。
对齐性能
使用WorldPM进行最佳选择采样对齐语言模型,在Alpaca Eval和Arena Hard基准测试中表现提升。发现模型规模扩大时,性能提升更显著,尤其在需要简洁回答的任务中。
偏好微调应用
实验设置
使用HelpSteer2、UltraFeedback和RLHFlow等人类偏好数据集进行实验,评估WorldPM作为初始化对偏好微调的影响。所有数据集至少训练两个周期,基于验证集最小损失选择最终模型。
评估结果
WorldPM初始化显著提升多个评估指标性能,尤其在客观和对抗性评估中。主观评估中部分指标略有下降,但整体表现提升。表明WorldPM学习到通用表示,有助于提升模型泛化能力。
训练规模影响
使用不同WorldPM检查点进行实验,发现5M样本阈值后性能显著提升。大规模WorldPM在微调中持续表现更好,验证扩展规律预测。
集成到RLHF流程
将WorldPM集成到内部RLHF流程,使用GRPO优化算法。在内部和开源基准测试中均观察到显著性能提升,表明WorldPM初始化能更好对齐人类偏好。
讨论与局限性
研究揭示客观和对抗性领域中参数数量和数据规模对性能改进的贡献,但在主观领域扩展趋势不明显,风格偏好是潜在限制因素。尽管WorldPM能减轻风格偏好,但主观人类评估中不可避免的风格偏好仍可能导致不当评估。
数据集规模相对较小,存在扩展偏好预训练数据的机会。主观评估中情绪偏好和文化倾向等影响因素尚未有效捕捉,主观评估的复杂性使得全面细致评估变得困难。