腾讯:基于对话的LLM角色扮演训练框架

在这里插入图片描述

📖标题:BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model
🌐来源:arXiv, 2408.10903

摘要

🔸大语言模型的快速发展已经彻底改变了角色扮演,使得通用角色扮演模型的开发成为可能。然而,目前的角色扮演训练存在两个重要问题:(1)使用预定义的角色配置文件来提示特定场景的对话训练通常会导致对话与配置文件之间的不一致甚至冲突,从而导致训练偏见。(2)模型仅基于配置文件学习模仿角色,忽略了句子级别上的配置文件-对话对齐。
🔸在这项工作中,我们提出了一个简单而有效的框架,称为BEYOND DIALOGUE,旨在克服这些障碍。该框架创新地引入了“超越对话”任务,以基于每个特定场景的个人特质来对齐对话和配置文件,从而消除训练中的偏差。此外,通过采用一种生成推理结果进行训练的创新提示机制,该框架允许模型在句子级别上实现细粒度的配置文件-对话对齐。上述方法是完全自动化和低成本的。此外,自动化对话和客观评估方法的集成形成了一个全面的框架,为通用角色扮演铺平了道路。
🔸实验结果表明,我们的模型在坚持和反映各种角色配置文件的各个维度方面表现出色,优于大多数专有的通用和专业角色扮演基线。所有代码和数据集都可在https://github.com/yuyouyu32/BeyondDialogue上获得。

🛎️文章简介

🔸研究问题:角色扮演对话训练任务中,预定义的角色档案与特定场景中的训练对话之间存在偏差,导致模型无法准确反映角色档案
🔸主要贡献:论文提出了一个名为“BEYOND DIALOGUE”的通用角色扮演训练框架,通过使用大语言模型(LLM)的提示机制来对齐角色档案与场景特定对话,并引入了一种新的评估流程,将所有评估任务转换为客观任务,提高了评估的效率和可重复性。

📝重点思路

🔺相关工作

🔸通用角色扮演代理:重点是构建角色扮演数据集,主要通过手动管理、从小说中提取或使用GPT生成,很大程度上忽视了预定义配置文件和特定场景对话之间的偏差问题,因为预定义的配置文件通常不能在单个场景中完全呈现。
🔸角色扮演评估:首先要生成用于评估的对话,主要包括基于历史对话(范围窄)、基于手册对话(质量好但成本高昂)和LLM自动对话(成本低)三种生成方法。
🔸混合任务训练:微调LLM的关键方法,将摘要、文本生成和推理等任务纳入阅读理解中,可以显着提高模型的语言理解和QA能力。

🔺论文方案

🔸主要思想:角色配置文件针对每个场景进行对齐和调整,
🔸对话数据构建:对文本进行分割,并应用角色频率阈值来过滤块,应用GPT-4o进行对话提取和验证,确保对话连贯且不与角色配置文件发生冲突。
🔸角色资料对齐:应用GPT-4o在角色、风格、情感、关系和个性,合计五个维度对齐每个多轮对话。
🔸配置文件调整:根据对齐结果,动态调整每个对话的配置文件设置,以确保一致性。
🔸模型微调与评估:按比例混合数据进行训练,并引入了基于角色的多项选择评估型在多轮对话中的角色一致性。

🔎分析总结

🔸增强模型对对话和角色档案的对齐能力有效地提高了角色扮演能力。
🔸论文框架得到的完全增强的Qwen-2-7B模型在大多数维度上取得了最高分数,其人类相似性显著优于其他基线,且在五个维度上显示出统计学上的显著改进。
🔸添加个性数据不仅精调了对话和档案在这些五个维度上的对齐,还通过推理训练增强了模型的逻辑和上下文一致性能力。

💡个人观点

论文的核心在于动态调整角色配置文件确保和对话数据的细粒度对齐,并将评估任务转化为多项选择。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值