24年2月韩国两所大学的论文“CloChat: Understanding How People Customize, Interact, and Experience Personas in Large Language Models”。
大语言模型(LLM)在生成会话智体方面取得了重大进展,实现了跨不同主题的无缝、上下文相关的对话。然而,现有的LLM驱动的会话智体具有固定的个性和功能,限制了它们对个人用户需求的适应性。创建具有独特专业知识或特征的个性化智体角色(Persona)可以解决这个问题。尽管如此,对人们如何定制和与智体角色交互仍然缺乏了解。该研究调查用户如何定制智体角色,以及对交互质量、多样性和动态性的影响。为此,开发CloChat,一个支持在LLM中轻松准确地定制智体角色的界面。
如图所示:CloChat支持用户创建定制的智体角色并与之交互。使用CloChat,用户可以通过交互式定制人物角色的特征(B)来实现他们心目中的人物角色(A)。基于用户自定义,CloChat自动生成智体角色。然后,用户可以自由地与创建的智体人物角色(C)进行对话。研究表明,使用CloChat定制的智体人物角色(1)显著增强了参与者的会话体验,(2)与通用ChatGPT相比,显著增加了对话的多样性,(3)促进了用户与其会话智体之间更深的情感联系和信任。
LLM是专门为理解、生成和与人类语言交互而设计的,在转换会话智体方面起着关键作用[11]。他们扩展的架构[32]、扩展的文本数据集和人类反馈的结合[101]使他们能够超越早期的模型。LLM,如基于OpenAI GPT的ChatGPT[62],擅长在广泛的主题中生成真实、实时的人类交互[30,58,95]。他们在上下文识别和保持语言连续性方面的熟练程度引起了学术界和工业界的关注[47]。
尽管LLM做出了承诺,但它们面临着重大挑战。准确性和可靠性问题很突出,这些模型经常产生事实不正确或上下文不恰当的内容,这种现象被称为“幻觉”[96],通常是由于训练数据的限制或算法缺陷。此外,LLM可以反映和放大其训练数据中存在的偏见,导致潜在的不公平或歧视性结果[84]。LLM的“黑盒子”性质也引起了人们的担忧,因为其内部机制缺乏透明度,使得用户很难完全信任其输出[28]。LLM的道德含义越来越重要[35],尤其是它们创造现实和有说服力文本的能力,在创造虚假信息的欺骗性内容(如deepfakes)时带来了滥用的风险。这些问题突出了对LLM进行细致改进的必要性,重点是更严格地解决以用户为中心的问题。
LLM的一个显著的用户体验问题是为个人用户定制基于LLM的会话智体。ChatGPT和Bard等服务通常为具有通用、统一个性的智体提供服务,为用户的问题提供标准回答。虽然效率很高,但这往往无法满足不同用户偏好的复杂要求[20,89]。用户越来越多地寻求符合其个人需求的个性化对话体验。尽管用户可以通过复杂的文本提示来定义智体的个性或角色,但大多数不熟悉此类技术的用户最终都会进行简单的一次性交互,而没有更深的参与度。为了解决这一问题,引入了像角色自定义这样的实现,允许用户通过特定任务的“充当(Act As)”提示[1]来指示ChatGPT,反映出对自定义的需求。OpenAI最近推出的自定义ChatGPT版本,即GPT[6],进一步肯定了行业对这些用户特定需求的认可。
当然,在ChatGPT之前,将人物角色整合到交流系统中被认为是增强个性化和用户参与对话体验的关键[54,77]。通过使用定制的人物角色,会话系统可以以更个性化和相关的方式与用户进行交互。LLM的技术进步大大拓宽了在对话系统中实现更加多样化和灵活的人物角色范围[24]。因此,用户通常期望LLM生成的结果反映某些任务的特定视角或细节,但确定确切的焦点可能有些困难[92]。尽管如此,用户在寻求帮助时可能会知道他们的智体需要什么样的角色或特征。
然而,目前关于将人物角色与LLM集成的研究仍处于起步阶段,主要集中在固定或特定领域的人物角色[13]。这一研究差距需要探索用户偏好、对话倾向和智体角色的直观界面设计。对这些元素的更深入理解将有助于创建高度适应性和上下文一致的智体程序,增强用户体验并推进会话智体技术。
最近的研究大大有助于我们理解智体角色和用户之间的互动[39]。Lessio&Morris[49]的研究表明,精心设计的PC可以与用户产生更深的情感共鸣,并促进信任。Zhang[99]证实了复杂的人物角色驱动对话的有效性,而Chaves&Gerosa[19]表明,融入人物角色的智体表现出增强的社会智能,从而巩固了用户信任并增加了服务价值[52]。Yu[98]发现,用户定制的会话系统可以实现更好的用户参与度。因此,强调对话智体与个人需求和偏好的一致性对于提高用户参与度和对话质量至关重要。
尽管有大量关于会话智体角色的文献,但在最终用户参与个性化设计方面仍存在研究空白[68]。以前的研究在很大程度上是规定性的,提供了设计指南,而没有深入探讨用户和特定情况的定制偏好。此外,将人物角色集成到智体设计中往往更多地受到研究假设的影响,而不是经验数据[18],这可能会导致设计特征和用户需求之间的不匹配。
目前,基于LLM的会话智体主要关注预定义的任务和事实信息[20],忽略了人类会话中专门用于社交、个人兴趣和随意聊天的重要方面[27]。因此,这些智体通常参与简单的信息交换,而没有完全了解用户的不同需求和情况[89]。这不仅限制了智体参与复杂和创造性媒体的能力,还反映了用户对这些智体的典型使用,他们主要寻求简单的任务和信息检索,而不是细致入微的互动。这种情况表明,对话主体在更广泛的背景下参与更丰富、更有意义的对话的潜力存在差距。
各种研究工作都集中在用户如何有效地定制和配置会话智体的人物角色,以符合他们的个人偏好和需求。先前的工作采用了基于智体人物角色特征对其进行分类的框架[10,43,49,72,87,94]。例如,“Big Five”模型概括了五个核心人格特征:外向、认同、认真、神经质和开放[55]。然而,Völkel[86]质疑该模型的全面性,促使人们对其他框架进行进一步调查[29,64],如Myers-Briggs类型指标(MBTI)。然而,这些研究主要集中在研究人员确定的固定或特定领域的人物特征上,导致对真实用户如何在各种情况下会话智体调整和个性化缺乏更深入、更广泛的了解。
除了个性特征外,智体角色定制还考虑了人口统计、外表和语言风格等因素。Sheng[78]强调性取向是人物角色的一个重要方面,研究了异性恋、双性恋和同性恋等主流取向。Deshpande[24]探索了使用穆罕默德·阿里和史蒂夫·乔布斯等历史人物塑造人物角色的方法。将这些不同的元素结合到智体角色定制中可以显著影响用户体验,从智体的视觉表示到对话中的多样性。
同时,虽然这些研究旨在将一系列因素纳入智体角色定制,但它们也强调了伦理问题。值得注意的是,在用于训练语言模型的数据中,存在对特定群体偏见表示的风险[91]。这就需要在人物角色定制中保持谨慎,以避免刻板印象或偏见的长期存在。此外,对隐私的关注不仅限于公众人物,也包括普通个人。在实际应用中,人物角色不仅可以模仿名人,还可以模仿熟人,这给隐私和道德带来了重大挑战。尽管这些实践具有潜在的影响,但缺乏针对这些伦理方面的系统和深入的研究。
CloChat旨在为用户提供独特的对话体验,帮助用户自定义对话智体角色的各个方面,包括个性属性、交流风格和响应机制。
CloChat包括两个主要组件:CloChat设计实验室和CloChat房室。在CloChat设计实验室中,用户有机会自定义和保存智体角色的各种特征。一旦用户定义并输入了这些角色特征,CloChat就会自动生成智体角色,准确地反映指定的特征。随后,用户可以通过CloChat房室中提供的聊天界面与这个定制的角色进行对话。
如图所示是CloChat的技术架构。(步骤1)给定CloChat设计实验室的非视觉特征,首先将它们转换为JSON规范(紫色填充框)。(步骤2)用GPT-4将JSON规范转换为描述人物角色的系统消息(橙色背景的文本)。(步骤3)将系统消息注入GPT-4,使其从智体角色的角度(浅绿色背景的文本)回答用户的消息。
如图所示是CloChat设计实验室的外观特征及其技术架构。当用户设置智体角色的特征时,还可以为该智体创建概述图像。CloChat根据用户的选择生成图像,用户可以选择最适合他们设置的角色图像。此外,用户还可以通过直接输入文本来进一步自定义智体的配置文件图像。(步骤1)一旦从设计实验室收到用朝鲜语书写的图像提示(浅绿色背景的文本),CloChat首先使用GPT-4将提示翻译成英语(橙色背景的文字)。(步骤2)将图像提示注入DALL-E2,生成四个候选图像。然后,生成的图像通过设计实验室呈现给用户,用户可以选择其中一个作为最终视觉表示(红边图像)。
CloChat是作为一个基于web的应用程序开发的。在前端,采用了React.js的动态和响应用户界面功能。后端由Flask框架提供支持,该框架以其在智体web应用程序请求方面的简单性和灵活性而闻名。为了满足数据库需求,使用了SQLite,其与服务器的集成由SQLAlchemy ORM(目标-关系映射)库有效管理。此外,CloChat通过OpenAI提供的API与GPT-4和DALL-E2无缝对接,使高级会话和图像生成功能能够集成到应用程序中。
作者用CloChat和ChatGPT(使用GPT-4)进行了一项全面的用户研究。此外,旨在评估CloChat在用户构建自定义人物角色并与之交互方面的有效性。
如图所示是实验的过程。在参与者(a)签署同意书和(b)参加初步访谈后,他们使用(c)ChatGPT和(d)CloChat与会话智体进行互动。一半的参与者首先与ChatGPT进行互动,另一半的参与者先与CloChat进行互动,然后与ChatGPT进行互动(未显示)。(e)研究以事后访谈结束。
最后如图所示是CloChat设计实验室中智体角色的定制过程。参与者在CloChat的设计实验室中定制智体角色以适应每种场景。他们调整了从(a)人口统计线索到(d)视觉外观的选项。此外,预览功能(b)允许他们预览角色的响应。定制完成后,参与者前往CloChat房室(e)与他们的个性化智体进行对话。