蚂蚁：LLM实现用户级的个性化偏好对齐

最新推荐文章于 2025-05-09 16:30:00 发布

大模型任我行

最新推荐文章于 2025-05-09 16:30:00 发布

阅读量528

点赞数 8

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/146480979

版权

大模型-模型训练专栏收录该内容

267 篇文章

订阅专栏

在这里插入图片描述

📖标题：From 1,000,000 Users to Every User:Scaling Up Personalized Preference for User-level Alignment
🌐来源：arXiv, 2503.15463

🌟摘要

🔸传统上，大型语言模型（LLM）通过一刀切的方法进行对齐，这些方法假设了统一的人类偏好，从根本上忽视了用户价值观和需求的多样性。
🔸本文介绍了一个用于LLM可扩展个性化对齐的综合框架。我们建立了一个表征心理和行为维度的系统偏好空间，以及在现实世界场景中进行稳健偏好推理的不同人物角色表示。在此基础上，我们引入了ALIGNX，这是一个包含130多万个个性化偏好示例的大规模数据集，并开发了两种互补的对齐方法：上下文对齐直接基于人物角色表示，偏好桥接对齐建模中间偏好分布。
🔸广泛的实验表明，与现有方法相比，该方法有了实质性的改进，在四个基准测试中平均准确率提高了17.06%，同时表现出对新偏好的强大适应能力、对有限用户数据的鲁棒性和精确的偏好可控性。这些结果验证了我们的框架的有效性，朝着真正的用户自适应人工智能系统迈进。详见https://github.com/JinaLeejnl/AlignX

🛎️文章简介

🔸研究问题：个性化对齐中如何有效捕捉和利用用户的独特偏好，以提升大规模用户交互的响应准确性和适应性
🔸主要贡献：论文提出了一种新的个性化对齐方法和一个包含130万个示例的ALIGNX数据集，促进了对个体偏好的理解和模型的个性化响应生成。

📝重点思路

🔸构建了一个90维的个性化偏好空间，通过整合心理学理论、当代对齐研究中的偏好维度以及社交平台的兴趣标签，形成了一个全面的个性化偏好表示框架。
🔸构建ALIGNX数据集，捕捉多样化的人格-偏好关系，支持个性化语言模型对齐的有效建模。
🔸提出两种互补的对齐方法：上下文对齐（ICA）和偏好桥接对齐（PBA），分别用于直接学习人格响应和可解释的基于偏好的生成。

🔎分析总结

🔸ALIGNXPERT在四个个性化对齐基准上表现优异，相较于最先进的对齐LLMs提高了17.06%的偏好对齐准确性。
🔸对未见偏好的强适应能力，展示了在新维度上的准确性提高1.91%。
🔸在有限用户数据情况下，保持54%的性能，而基线仅为51%（在16次交互下）。
🔸精确的偏好可控性，表明ALIGNXPERT在适应对立偏好时响应适应性提高了10.38%。