腾讯：可验证奖励优化LLM角色扮演-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/148068269

在这里插入图片描述

📖标题：RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward
🌐来源：arXiv, 2505.10218

🌟摘要

🔸角色扮演会话代理（RPCA）在保持角色一致性方面面临着持续的挑战。为了解决这个问题，我们提出了RAIDEN-R1，这是一种集成了可验证角色感知奖励（VRAR）的新型强化学习框架。该方法引入了奇异和多项挖掘策略，通过评估特定角色的密钥来生成可量化的奖励。此外，我们通过多LLM协作构建了一个高质量、角色感知的思维链数据集，并实施了实验来增强推理连贯性。
🔸RAIDEN基准测试的实验证明了RAIDEN-R1的优越性：我们的14B-GRPO模型在基于脚本的知识和会话内存指标上分别达到了88.04%和88.65%的准确率，在保持鲁棒性的同时优于基线模型。案例分析进一步揭示了该模型在解决冲突的语境线索和维持第一人称叙事一致性方面的增强能力。这项工作弥合了RPCA培训中的不可量化差距，并提供了对角色感知推理模式的见解，推动了RPCA的发展。

🛎️文章简介

🔸研究问题：如何在角色扮演对话代理（RPCA）中设计可量化的奖励机制，以提高其角色意识能力？
🔸主要贡献：论文提出了一种基于可验证奖励的框架（VRAR），并通过实验证明了其在提升角色意识能力方面的有效性。

📝重点思路

🔸采用了基于Group Relative Policy Optimization (GRPO)的强化学习方法，以提高角色扮演模型的角色意识能力。
🔸提出了VRAR框架，通过关键词驱动的奖励机制系统性地评估生成响应的角色一致性和上下文对齐。
🔸开发了两种数据生产工作流程：单一关键词验证（Single-Term Validation）和多关键词动态解析（Multi-Term Dynamic Parsing），以提高数据的准确性和多样性。
🔸进行了冷启动实验以复制DeepSeek-R1的多阶段训练策略，使得模型能快速学习角色意识的推理过程。