AI剧场的奥斯卡:语言模型角色扮演综述

24年7月来自香港科技大学广州分校的论文“The Oscars of AI Theater: A Survey on Role-Playing with Language Models”。

本综述探讨用语言模型进行角色扮演这一领域,重点关注其从早期基于角色的模型发展到由大语言模型 (LLM) 推动的高级角色驱动模拟。由于模型功能有限,角色扮演任务最初仅限于简单的角色一致性,现在已经扩展到包含角色一致性、行为一致性和整体吸引力的复杂角色刻画。对这些系统的关键设计组件进行分类,包括数据、模型和一致性、智体架构和评估。本综述概述当前的方法和挑战,例如管理动态个人资料和实现高级角色一致性,还提出未来研究的途径,提高角色扮演应用的深度和真实感。

如今,大语言模型 (LLM) (Brown,2020;Hu,2021;Zeng,2022;OpenAI,2023;Scao,2022) 都足以充当助手,但人类不断增长的欲望逐渐超越了这一角色。一个有帮助但严肃的助手并不是人类生活中的一切。越来越多的人指示 LLM 扮演他们想要的角色,例如电影明星、游戏角色,甚至是他们自己的亲戚。这种将 LLM 与特定人物或角色联系起来的做法通常被称为角色扮演 (Zhang,2018;Jiang;Chen,2023b;Qian,2021)。如果说 LLM 的标准助理角色满足了提高生产力的需求,那么角色扮演 LLM 则旨在满足人类在心理和娱乐层面的需求。这一活跃趋势凸显了 LLM 的多功能性以及人类想象力在AI领域的无限潜力。

使用语言模型进行角色扮演的要求与通用助理的要求有很大不同。对通用助理的主要期望是其有用性,这意味着 LLM 应该遵循用户的指示并提供所需的响应(Serban,2016;Lowe,2015;Thoppilan,2022;Miller,2017;You,2022)。这种期望也体现在此类模型的基准中:人们通常希望助手具有广泛的专业知识和强大的逻辑推理能力。

然而,当任务涉及角色扮演时,最重要的标准是 LLM 与特定角色或人物保持一致的能力 (Tu,2024、2023;Chen,2023b)。换句话说,人类期望 LLM 以符合特定角色的方式与他们互动。这种期望引入了一种迷人的动态性,有时会与传统的帮助概念相矛盾。例如,考虑一个场景,其中要扮演的角色是用户的对手或敌人。在这种情况下,有帮助就变成了一个矛盾的指标。模型越有帮助,它在角色扮演中就越不有效。

在以序列-到-序列学习(Shang,2015)为标志的时代,研究人员开始探索神经网络生成与给定上下文和所描绘角色一致的对话响应(Zhang,2018;Jiang;Dinan,2018)。例如,Zhang(2018)利用生成式配置文件记忆网络来生成个人响应。这一最初动机为以下角色扮演工作奠定了基础。尽管存在某些固有的局限性,但随着 BERT(Kenton & Toutanova,2019)等模型的引入,后续进展为语言模型在角色扮演中的应用带来了重大变革。在此期间,由于这些预训练语言模型 (PLM) 的生成能力有所改进但仍在发展中 (Liu, 2019; Raffel, 2020),角色扮演主要侧重于通过更简单、更直接的角色来实现角色一致性,通常称为基于人物的角色扮演。这在一定程度上是由于当时数据集中可用的个性化,这些信息通常简洁而稀疏,如 Persona-Chat 数据集 (Zhang, 2018) 等资源所示。PLM 在这些数据集上进行微调,以产生与提供有限个人信息相符的响应,力求在一致的理解和胜任的对话生成之间取得平衡。

随着该领域进入 LLM 时代(OpenAI,2023;Touvron,2023;Zeng,2022),这个范式发生了转变。LLM 增强的理解力和生成能力将角色扮演任务的范围扩大到简单的角色依附之外。当前角色扮演的研究不再局限于僵化的角色。相反,它深入研究角色扮演的更细微方面,例如角色一致性、行为一致性和角色描绘的整体吸引力(Chen,2023b;Shao,2023;Tu,2024),称为基于性格的角色扮演。这些维度旨在创建更具沉浸感和可信度的角色模拟,在交互过程中保持连续性并动态适应对话环境。LLM角色扮演的进步带动了学术研究和实际应用的快速发展,例如Character AI、Xingye 星野、Maopaoya 冒泡鸭等平台。

语言模型角色扮演的主要组件如图所示:包括数据、模型对齐、智体架构和评估等。

添加图片注释,不超过 140 字(可选)

数据

与传统的文本生成任务不同,角色扮演语言模型的能力主要由其所拟合的目标数据集决定。因此,数据集是训练、分类和测试不同角色扮演对话智体的最关键前提。通常,角色扮演数据集包含两个重要组成部分:交互和角色相关信息。值得注意的是,用“交互”一词,而不是常用的“对话”或“对话”。这是因为角色扮演的本质在于模仿任何场景中角色的行为,而不仅仅是对话。目前大多数研究局限于对话层面的原因是,与其他场景相比,对话中用户的行为是最容易获得的。

根据目标数据集的不同目的,角色扮演应用分为两类:基于人物的角色扮演(P-RP)和基于性格的角色扮演(C-RP)。通常,P-RP 表示数据集包含粗粒度的角色相关信息,而构建 C-RP 则需要细粒度的角色相关信息。粗粒度或细粒度的分类主要取决于角色相关信息是否包括角色级别特定的背景细节。缺少此类细节的数据集被视为粗粒度的,而包含此类细节的数据集则被视为细粒度的。

进一步强调二者差异。在角色扮演研究不断发展的领域中,基于人物角色的角色扮演 (P-RP) 被视为基于性格的角色扮演 (C-RP) 更广泛领域中的一个特定子集。目前,人们越来越关注 C-RP,这反映了一种向更复杂、更细致入微的场景的转变,这种场景能够利用当前 LLM 的复杂功能。这一趋势凸显了人们对开发提供丰富、角色驱动体验的角色扮演互动的兴趣日益浓厚。如图所示根据交互集合对不同的数据集进行分类,并在下表中展示现有角色扮演数据集的概述。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

模型和对齐

如图给出“模型和对齐”技术的整个内容分类:其他综述论文已经有详细分析,故忽略

添加图片注释,不超过 140 字(可选)

智体架构

角色扮演语言智体 (RPLA) 以用大语言模型角色扮演为基础,通过结合交互和自主行为 (Wang,2023g;Park,2023;Tang,2024;Xi,2023) 将这一概念进一步发展。这些智体不仅扮演特定的角色,还会参与复杂的场景,做出决策并以符合其指定角色的方式做出反应。此类 RPLA 用于解决不同且具有挑战性但有趣的任务,不仅限于原始对话响应生成。例如,Chen (2024b) 提出了 HOLLMWOOD,它设计了作家、编辑和演员 RPLA,模拟人类的编剧任务创作过程。

RPLA 的整个架构通常涉及多个协同工作的模块。构建性能良好的 RPLA,需要基础响应功能,之外还有三个重要模块:记忆、规划和行动,如图所示:

添加图片注释,不超过 140 字(可选)

这部分的内容框架分类如下图所示:其他综述也有类似分析

添加图片注释,不超过 140 字(可选)

记忆的来源包括两个,智体-用户交互和智体-智体交互;将记忆集成到RPLA的方法包括两个,基于检索和基于压缩。

在 RPLA 领域,虽然基础对话能力至关重要,但某些场景需要额外的能力,例如高级规划。让 LLM 模拟虚拟环境中的人类行为可能是一个典型的例子,其中战略规划显著增强了角色扮演体验(Wang,2023g;Park,2023)。通常,RPLA 中的规划包括两个阶段:规划的制定和规划的反思。

智体行动是事先规划、记忆利用和交互的结果。虽然最容易识别的动作形式是生成与角色扮演相一致的响应,但 RPLA 中的动作不仅限于对话。工具使用(Schick,2024)是角色扮演操作的另一个关键组成部分,同时简要讨论了角色扮演场景中具身动作的潜力。例如,搜索相关 API 等工具(Salemi,2024;Wang,2023b;Zhao,2023a)使 RPLA 能够获取相关角色知识并将其纳入其响应中,从而通过上下文适当的内容丰富对话。这在需要深度领域知识或历史准确性的场景中尤为重要,在这些场景中,工具可以提供必要的数据来准确支持智体的角色。

角色扮演动作中一个领域是具身动作,即智体在其环境中进行更切实的交互。这涉及虚拟或增强现实中的物理交互,代表着开发更具沉浸感角色扮演体验的有希望前沿。尽管当前的角色扮演应用主要侧重于对话和工具使用,但融入具身动作的潜力为 RPLA 交互性和真实感的未来发展提供了令人兴奋的前景。

评估

评估角色扮演模型对于确保其在模拟环境中的有效性和真实性至关重要。与传统的聊天机器人或 NLP 任务不同,角色扮演需要一套更复杂的评估维度和指标,因为它们具有根据特定角色和情境模拟类似人类的交互的独特能力。几种主流的评估方法,主要是基于参考、基于人类和基于 LLM 的方法。

使用语言模型进行角色扮演的主要目的是,促进不仅与上下文相关而且可以定制反映特定角色或角色的互动。因此,评估此类模型涉及多个维度,这些维度共同评估这些智体执行其预期角色的能力。这些维度包括:对话能力、角色-角色一致性、角色-行为一致性和角色扮演吸引力。

如图所示是这部分内容的分类框架图:

添加图片注释,不超过 140 字(可选)

基于参考评估的测试集输出(真值)代表了用户对模型输出的期望,本质上反映了最真实的用户需求。因此,基于“模型输出与参考越相似,模型表现越好”的假设,研究者开始使用一些基于参考的指标来评估模型输出与测试集的一致性。这通常与困惑度(PPL)(Zhang et al.,2018)、BLUE(Papineni et al.,2002)和ROUGE(Lin,2004)等指标相关。

基于人类的评估,这对于评估角色扮演模型至关重要,因为自动指标通常无法捕捉到反应的细微差别,而这些细微差别对于逼真且引人入胜的角色模拟至关重要。因此,人工评估被认为是全面评估性能的最有效方法之一。

在工业应用领域,人工评估是最关键的(即使不是唯一可靠的)评估方法。这主要是因为只有人类才能真实地复制其他人类用户的体验,从而提供对实际用户体验的洞察。

从理论上讲,基于参考的评估,所有视角都可以由人工注释者评估,但通常由于成本和注释者能力的限制,建议将多个维度集成为一个维度进行评估。在实施方面,人工评估通常包括两种方法:打分和排序。

鉴于上述人工评估的问题,一些研究人员已经开始尝试使用 LLM 作为角色扮演任务的注释器 (Chen et al., 2023b; Yu et al., 2024)。毫无疑问,使用 LLM 作为注释器可以在一定程度上缓解偏见和成本问题。然而,这种方法引发了一个新问题:LLM 是否足以胜任角色扮演任务的注释器?(Wang et al., 2023c)

在实践中,基于 LLM 的评估涉及详细的说明,包括评估维度和阈值,这些说明通常与人工评估中使用的标准一致 (Chen, 2023b, 2024c)。为了指导 LLM 进行更准确的评估,通常会提供几个相关的评分示例,并以预定义的格式制定,以方便直接汇总和分析结果。总体而言,基于 LLM 的评估减少了对大量人工注释者训练和协调的需求,为访问模型有效性提供了可扩展的选项。尽管速度快且物流开销减少,但基于 LLM 的评估在实现与人类判断的一致性方面往往面临挑战。当 LLM 负责评估它们不熟悉的角色时,评估的准确性可能会受到影响。也存在一些普遍的缺点,例如 LLM 在评分时对顺序很敏感,通常会给排名靠前的答案更高的排名。此外,LLM 倾向于给较长的答案分配更高的排名。最后,LLM 通常很难准确评估那些拥有比自己更出色的角色扮演能力的模型。例如,基于 ChatGPT 的奖励模型将无法准确评估基于 GPT-4 的角色扮演模型的能力。在这种情况下,如果目标是训练一个超越最先进性能的角色扮演模型,那么使用基于 LLM 的评估就变得不合适。

挑战和方向

更多基于参考的角色扮演评估指标。当前基于参考的角色扮演评估指标主要侧重于语言准确性和连贯性,这不足以评估需要角色一致性和叙事参与度的角色扮演能力(Chen,2023b)。到目前为止,还没有现成的方法可以直接评估分配的角色和生成的输出之间的一致性。

基于 LLM 的评估中的敏感性。基于 LLM 的评估在实现与人类判断的一致性方面通常面临挑战。当 LLM 被要求评估他们不熟悉的角色时,评估的准确性可能会受到影响。还有一些普遍的缺点,例如 LLM 在评分时对顺序很敏感,通常会给排名靠前的答案更高的排名。此外,LLM 倾向于为较长的答案分配更高的排名。最后,LLM 通常很难准确评估拥有比自己更出色的角色扮演能力的模型。

基于人类评估中的不平衡、偏见和成本。虽然人工评估对于捕捉角色扮演互动的细微差别和复杂性非常有价值,但它耗费资源且难以标准化。首先,注释者可能会在评估中表现出偏见,例如位置偏见、对冗长和复杂响应的偏好(Pandey,2022;Santurkar,2023)。另一方面,训练评估者一致地评估角色扮演表现具有挑战性,特别是在处理对角色和叙事的主观解释时(Chen,2023b)。例如,验证模型扮演哈利波特的表现,需要人类评估者熟悉魔法世界,以及不同故事情节中角色与哈利的关系。此外,平衡和对齐人类判断以确保在不同场景中的可靠性又增加了一层复杂性(Ethayarajh & Jurafsky,2022)。开发更结构化的评估框架和训练协议可以帮助缓解这些问题(Prassl & Risak,2017;Clark,2021)。

缺乏更深层次的角色特定对齐方法。将语言模型与特定角色对齐,尤其是使用 LLM,会带来重大挑战。当前的方法主要将角色和交互上下文直接集成到输入提示或指令中(Tu,2023 ;Zhou ,2023 )。然而,这些方法往往缺乏对角色复杂性的深度建模,例如角色之间的关系、他们的心理状态或整个交互过程中不断变化的动态(Chen,2023b)。这种表面适应不允许模型学习和适应定义叙述中角色的细微交互,从而限制了模型提供沉浸式和情境丰富的交互能力。 Ahn (2024) 证明,理解和复制角色的情绪反应如何因另一个角色的行为或环境变化而演变是很少深入探索的领域。未来的研究需要专注于开发技术,使角色扮演语言模型能够内化和动态地表示人物的人际关系和心理状态。这可能涉及复杂的训练方案,包括动态角色场景、心理分析和关系映射。这些进步将增强角色扮演的真实感和参与度,使其更有效地应用于游戏、训练模拟和交互式故事讲述,其中准确和动态的角色描绘对于增强用户体验至关重要。

其他还有:安全保证、幻觉、记忆使用、多模态集成和终身学习者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值