腾讯:合成人物数据训练LLM角色扮演

在这里插入图片描述

📖标题:OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
🌐来源:arXiv, 2501.15427

🌟摘要

🔸大型语言模型(LLM)中的可定制角色扮演,也称为角色泛化,因其在开发和部署角色扮演对话代理方面的多功能性和成本效益而受到越来越多的关注。
🔸本研究探索了一种大规模数据合成方法,使LLM具备特征泛化能力。我们首先使用Persona Hub中的人物角色合成大规模角色档案,然后探索两种策略:反应重写和反应生成,以创建与角色一致的教学反应。为了验证我们的合成指令调优数据对字符泛化的有效性,我们使用LLaMA-3 8B模型进行了监督微调(SFT)。
🔸我们表现最佳的模型加强了原始的LLaMA-3 8B Instruct模型,并在角色扮演对话方面实现了与GPT-4o模型相当的性能。我们发布了我们的合成字符和指令调整对话,以支持公共研究。数据见https://huggingface.co/datasets/xywang1/OpenCharacter

🛎️文章简介

🔸研究问题:如何训练可定制的角色扮演大语言模型(LLM),以便在新的角色场景中实现出色的角色泛化能力?
🔸主要贡献:论文提出了一种基于大规模合成角色和对话的训练方法,显著提升了LLM在角色扮演对话中的表现。

🧲相关工作

🔸腾讯之前的论文,基于人物角色的数据合成方法,Scaling Synthetic Data Creation with 1,000,000,000 Personas

📝重点思路

🔸角色描述合成:利用Persona Hub中的合成角色生成丰富的角色资料。
🔸角色驱动的响应生成:通过两种策略进行指令响应生成,一是重写现有的指令响应(OpenCharacter-R),二是直接生成符合角色特征的新响应(OpenCharacter-G)。
🔸监督微调(SFT):使用合成对话数据对LLaMA-3 8B模型进行微调,以评估和改进角色扮演的表现。
🔸数据合成:构建大规模的合成训练集,以确保模型能够处理未见过的角色。

🔎分析总结

🔸使用合成角色和指令响应对进行微调的模型在角色扮演任务上表现优于原始模型,且在多个指标上超越了流行的现有模型。
🔸OpenCharacter-G策略在所有实验场景中表现优于OpenCharacter-R,表明直接生成响应在角色扮演任务中更具优势。
🔸增加合成角色的多样性和响应质量显著提升了模型的通用化能力,使其能够更好地适应用户自定义的角色。

💡个人观点

论文的核心在于利用大规模角色库,结合响应重写和生成策略,构建角色扮演训练数据。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值