📖标题:From 1,000,000 Users to Every User:Scaling Up Personalized Preference for User-level Alignment
🌐来源:arXiv, 2503.15463
🌟摘要
🔸传统上,大型语言模型(LLM)通过一刀切的方法进行对齐,这些方法假设了统一的人类偏好,从根本上忽视了用户价值观和需求的多样性。
🔸本文介绍了一个用于LLM可扩展个性化对齐的综合框架。我们建立了一个表征心理和行为维度的系统偏好空间,以及在现实世界场景中进行稳健偏好推理的不同人物角色表示。在此基础上,我们引入了ALIGNX,这是一个包含130多万个个性化偏好示例的大规模数据集,并开发了两种互补的对齐方法:上下文对齐直接基于人物角色表示,偏好桥接对齐建模中间偏好分布。
🔸广泛的实验表明,与现有方法相比,该方法有了实质性的改进,在四个基准测试中平均准确率提高了17.06%,同时表现出对新偏好的强大适应能力、对有限用户数据的鲁棒性和精确的偏好可控性。这些结果验证了我们的框架的有效性,朝着真正的用户自适应人工智能系统迈进。详见https://github.com/JinaLeejnl/AlignX
🛎️文章简介
🔸研究问题:个性化对齐中如何有效捕捉和利用用户的独特偏好,以提升大规模用户交互的响应准确性和适应性
🔸主要贡献:论文提出了一种新的个性化对齐方法和一个包含130万个示例的ALIGNX数据集,促进了对个体偏好的理解和模型的个性化响应生成。
📝重点思路
🔸构建了一个90维的个性化偏好空间,通过整合心理学理论、当代对齐研究中的偏好维度以及社交平台的兴趣标签,形成了一个全面的个性化偏好表示框架。
🔸构建ALIGNX数据集,捕捉多样化的人格-偏好关系,支持个性化语言模型对齐的有效建模。
🔸提出两种互补的对齐方法:上下文对齐(ICA)和偏好桥接对齐(PBA),分别用于直接学习人格响应和可解释的基于偏好的生成。
🔎分析总结
🔸ALIGNXPERT在四个个性化对齐基准上表现优异,相较于最先进的对齐LLMs提高了17.06%的偏好对齐准确性。
🔸对未见偏好的强适应能力,展示了在新维度上的准确性提高1.91%。
🔸在有限用户数据情况下,保持54%的性能,而基线仅为51%(在16次交互下)。
🔸精确的偏好可控性,表明ALIGNXPERT在适应对立偏好时响应适应性提高了10.38%。
💡个人观点
论文的核心在于构建了个性化偏好空间和个性化对齐数据集。