虚拟数字人详解|有个性、有情感的对话技术探索

文章探讨了虚拟数字人的发展层次,分为能说会动、真情实感和能思会想三层。重点讲述了第二层,即如何赋予虚拟人性格与情感,包括共情、个性化和人设一致的能力。通过预训练模型和常识知识图谱的结合,提升对话系统的共情能力和逻辑合理性,同时介绍了个性模块,通过行为关系图谱确保对话的一致性和个性化。
摘要由CSDN通过智能技术生成

文 | 蔡华/华院计算

元宇宙是当前流行的的技术和商业热点,而其背后的核心技术是数字人。近日,华院计算算法研究员蔡华博士就虚拟数字人“有个性、有情感的对话技术”的话题进行了讲解。以下内容为蔡华博士的演讲内容节选。

虚拟数字人的三重“境界”11dd3f6ab7ddceada93f832bd0fa6620.jpeg

关于虚拟数字人的发展层次,华院计算认为有三重境界。第一层,能说会动,指的是数字人具备特定的相貌,可以用语言、动作进行表达;第二层,真情实感,是让数字人成为一个具备性格特征的独特个体,并且具有情感表达的能力;第三层,能思会想,数字人能感知其内部世界,形成主动学习和持续学习的能力。第一重境界:能说会动华院计算选择了一种比较智能的驱动方式,即基于文字和语音等表达内容的进行动作驱动。

第二重境界:性格与情绪

虚拟人的第二个境界是性格与情绪,也是这次主要分享的主题。我们赋予虚拟人性格与情感,使其呈现独特的个性化行为。981d811e8bc7fa95ba9d52c0f0efc855.jpeg用户发出一个意图或动作,系统对用户的行为或意图进行识别感知,然后进入分析决策模块,知识库提供相关知识,辅助对话模型生成回复,最后输入人物表达模块合成个性化的表情与动作。对话交互模块输出包括情感和人设等个性化特征,能够使虚拟人具有特定的性格和情绪,使其呈现独特的个性化行为。711bd5990916874dc030fab7e3ff7915.jpeg目前的对话交互还主要是基于文本语义信息。对话交互主要包括任务型和开放域对话。任务型对话,如手机助手和客服机器人, 完成查天气,定机票等任务;开放域对话,即聊天机器人,涉及情感陪伴和社交等。有人将任务型对话比作人的智商,开放域对话比作人的情商,如果要让开放域中对话机器人具有更高的情商,使对话系统具备共情能力,以及个性化人设一致能力则变得尤为重要。

共情

指的是能设身处地地体验他人处境,从而达到感受和理解他人情感的能力,也就是能感同身受。

个性化

指在与人交流时,系统可以以个性化的方式与用户进行交互。

人设一致

实际上是对对话系统本身而言的,只是描述的对象不同,可以认为是对话系统的个性一致。

如果一个智能系统具有共情能力,能够与个性化用户进行不同的互动,或者系统本身体现一致的个性,就像我们每个人都有独特的、辨识度高的个性特征一样,则这个系统更值得信任,能够进行更有效的社交。

开放域对话技术框架

开放域的对话框架,一般是编码器-解码器结构。编码器把对话历史编码成特征向量,接着解码器把这些特征解码成文字输出,生成回复。而编码器和解码器现在一般用预训练语言模型来搭建。50420438ff0c3e6ecbd4d35376035fef.jpeg上图右边是当前一些预训练模型,我们可以看到无论是模型参数量还是使用的训练数据,它们在大小上都是几何倍数的增长。

中文对话预训练模型,比如百度的 PLATO 和智源(智源人工智能研究院)的 EVA 达到了几十亿的参数规模。像英文对话预训练模型,Google 的 Meena 和 Meta 的 Blender 也都是几十亿级别的参数规模。

当然还有更大参数的预训练模型,如谷歌1.6万亿的 Switch Transformer,智源的1.75万亿大模型“悟道2.0”,这些大模型可以同时支撑更多的应用,实现更加通用的智能。有了预训练的大模型,在对话生成的通顺和流畅性方面取得了很好的效果。可是没有知识的加入,也会有违背常识或者前后逻辑不一致的对话出现。

常识知识推理

3ff28433221b3adbad84f13455c3eb42.jpeg我们来看一个例子,上图是 Google 的对话预训练模型 Meena 的对话结果。一个人说,“我喜欢奶牛的可爱。”最后机器人会回复说:“我听说他们上大学了”,会出现奶牛上大学的情况,这对人来说是违背常识的。

这里可能是模型认为只要是“聪明”这个词出现了,那么上大学的概率就是最高的。因为对话机器人还缺乏推理能力,只倾向于表面上最佳的匹配,进而产生逻辑不正确或者不符合常识的回复。ce0e9ce5dc03ff3f68a121eefa801b91.jpeg我们再看现实中两个人对话的例子:一个人说我现在很渴,另一个人说前面有个超市。实际上双方有很多假设。第二个人在试图给第一个人解决问题,而第一个人可以理解第二个人说的话。

为什么呢?因为人类是具有推理能力的,双方都知道喝水可以解渴、超市可以买水。经过这样逻辑链条的推理过程,我们就知道第二个人的意图是给第一个人解决口渴的问题。人和人的交流,很多东西都是隐含在文字之外的。我们交流的一个基本假设是交流的双方具有共同的知识,相似的生活环境。如果想让机器自然、合理的理解人类的这些对话,机器也需要具有这些对话之外的常识和推理能力。于是,我们希望在对话中融入常识知识,即常识知识图谱

知识图谱

90e03faf22bbfd9f188f371fced15b96.jpeg知识图谱由两个点和连接这两个点的一条边,组成一个基本知识单位,比如姚明的妻子是叶莉。那么两个点分别是姚明和叶莉,一条边则代表他们之间的配偶关系,如果一个库中包含很多这样的两点一线的基本单位,那么就组成了一个知识图谱。

常识知识图谱

992c253d9eb5235f91ad1bfdc5509328.jpeg常识知识图谱也是由两个点和连接它们的一条边这样的基本单位构成,不过这两个点可能会代表一个事件。这里我以常识图谱中的一个事件为例进行介绍。例如,李雷去看电影,原因之一很可能是因为他在和其他人约会,看电影之后电影觉得电影很不错,要给五星好评,看电影需要电影票,电影票可以充当支付凭证……

这个图谱中主要包含三类常识:

社交常识:社会交常识有助于衡量人们的意图和目的,预测与情境相关的人类反应和行为。

以事件为中心的常识:关于事件互动的常识有助于理解世界上事件的可能原因和影响。

物理实体常识:这样的物理常识对于与世界互动至关重要:让我们能够区分危险、操纵的物体和解决问题(例如“火烧的很痛”、“头盔保护头部”等)。

最后,由上百万条这样的知识(三元组),形成了我们的常识知识图谱。

常识知识:社交常识

d419db51fe563068cd847b20f695fc6f.jpeg

为了增强我们系统的共情能力,我们在交互对话中加入了社交常识。

对于每一个事件,比如对于李雷向韩梅梅求婚这个事件,常识图谱都会为参与事件的人【李雷】推断出六种常识关系:发生事件所需的东西(xNeed)、事件对人的影响(xEffect)等。

由这几种关系,可以推断出尾实体或者事件,比如李雷向韩梅梅求婚,需要找到一个合适的时机,或者需要买一枚戒指。李雷求婚的目的是,他想与韩梅梅结婚了,求婚之后,他想开启新的生活。

同时,根根参与事件的另一个人【韩梅梅】三种常识关系推断出尾实体。oEffect 是表示事件对韩梅梅的影响,韩梅梅可能会答应求婚,或者向所有人展示戒指,当然她也可能拒绝求婚。

常识的引入也会带来一些挑战:

挑战一:常识图谱中有多种关系,出现关系冗余,聊天机器人很难选择使用哪种关系,以产生一致的回复。

挑战二:尾实体冗余,即存在多个尾实体,这会误导聊天机器人去推断事件背后的具体原因。

对话交互框架:具有常识和情感

dedf159e639889b7d3c3555e00314e79.jpeg于是,我们提出了一个具有常识和情感的对话交互框架,该框架基于预训练语言模型BART,主要分为三个模块:第一个是上下文编码模块,该模块将对话历史进行和常识知识进行编码,通过常识知识增强对话理解;第二个模块是工作空间模块,这个模块通过竞争和广播两个机制使得对话历史和情感的语境一致,并且在迭代的过程中动态地选择常识知识,自适应地修改说话者的认知处境。然后将选择出的知识融合到第三个模块,知识感知的解码器中,生成共情回复。d7e42cb20d115486b7ea943b4d5ab8bd.jpeg我们接下来看模型生成的一个例子,这个例子的语境是“一个人在网上给他儿子定了生日礼物”,并且情感很“期待”。如果没有共情能力,系统的回复是“你买的是什么?”。我们系统的回复是“我相信,你儿子一定会非常喜欢”,说明系统能理解用户的处境和期待的心情,并产生具有一定的共情能力的回复。我们的对话框架会根据我们提供的社交常识关系推理出系统所需要的知识,即动态迭代选择出语境下影响最大的知识,我们也把这一过程称为模型的认知过程。这个认知过程对模型生成的回复还具有一定的解释性。

个性

前面介绍完情绪, 接下来介绍一下个性模块。个性,可以看作是一个人内在的情感和行为驱动,包含人的内在性格和属性爱好,一个人的属性爱好可以更直观的体现在人设上面。将个性化模块加入到对话交互系统,也会遇到一些困难。dd562c715d495a675b872ee805caf8f4.jpeg这是一段由中文对话预训练大模型 EVA 2.0产生的一段对话示例,我们会看到对话前后矛盾的地方,前面出现喜欢北方,后面又回复不喜欢北方。而且同一句回复中也出现了矛盾的兴趣爱好“我不喜欢运动,但我喜欢游泳”。

所以,我们在想能否通过一种方式使得对话机器人具有内在一致性,同时能给对话者更多的分维信息,个性的行为。我们于是引入了行为关系图谱,不仅可以体现用户行为差异,而且行为之间具有一定的联系。1466a592abf5ee736d4cce048f79b296.jpeg关于人类行为的概率性知识图谱,华院计算有着长期的研究,我们通过不同的方法对人类的行为及它们之间的关系进行建模,形成了一张具有5000多个行为特征节点的概率性知识图谱。

这张图谱中的每个节点代表着一种行为,每个节点通过边与其他节点连接起来。每条边上具有一个数值,这个数值在0到1之间,反映了两个行为之间的联系紧密程度。1代表两个行为高度相关,0代表两个行为之间没有关系。

我们可以从一个最初的行为节点开始,比如爱吃零食,这个行为图谱会展示与他最相关的几个行为节点,我们发现爱吃零食的人也容易得手机依赖症。我们可以不断沿着节点展开下去,从而得到一张相关行为的网络。dc84cee08bf01781087f5e05237cf782.jpeg通过行为的概率性知识图谱,我们就可以在交互中对虚拟人的行为模式进行控制,赋予虚拟人一致的内在性格。比如喜欢蓝调音乐的人,可能更喜欢一些新鲜的事物,比如跳伞。256efa4273a052f2f82c57569d8b8f9a.jpeg同时,虚拟人也可以在与用户交互的过程中,发现用户的偏好,从而更懂用户。比如,用户说自己爱吃零食,则可能会有手机依赖症,那么机器人会推断用户的一些行为,因而回复“你拿着手机的时候才有安全感”。116dad5d35d418c68f11bf61b92744fa.jpeg具备情感和个性,虚拟数字人会更像人,能理解他人的感受和情感,能读懂人,那么它也一定会成为有温度的虚拟数字人,只要我们数字人能具备这些特征,未来一定会成为我们更知心的朋友。我们相信,不久的将来,数字人不仅会具备更加逼真的外形,具有与人一样的性格情感,并且也会拥有自我思考和主动学习的能力。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值