论文精度MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation

#MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation
##MISC:整合COMET的混合策略意识模型
数据集ESConv
文件夹20230301(已演示)

MISC:整合COMET的混合策略意识模型
将现有的方法应用于情感支持对话——为有需要的人提供了有价值的帮助——有两个主要的局限性:(1)它们通常采用对话级的情感标签,粒度太粗,无法捕捉用户的即时心理状态;(b)大多数都专注于在回应中表达同理心,而不是逐步减少用户的痛苦。为了解决这些问题,我们提出了一种新的模型MISC,该模型首先推断出用户的细粒度情绪状态,然后使用混合策略进行巧妙的响应。在基准数据集上的实验结果证明了我们的方法的有效性,并揭示了细粒度情感理解和混合策略建模的好处。我们的代码和数据可以在中找到。
同理心是一种感知他人感受、换位思考并做出恰当反应的能力。赋予机器共情能力具有广泛的应用场景,包括自动心理治疗师、智能客户服务、共情会话代理等(Fitzpatrick et al., 2017;Shin等人,2019;Ma等人,2020年)。
在这项工作中,我们关注一种特殊的人机共情对话,即情感支持对话(Liu et al., 2021)。
情感支持对话发生在寻求者和支持者之间,支持者的目标是随着对话的进行逐渐减少寻求者的痛苦。这使得现有的方法不适合我们的环境,至少有两个原因。首先,现有的情感聊天工作学会了使用对话级别的情感标签来预测用户的情绪,这是粗粒度和静态的会话上下文(拉什金等人,2019;林等人,2019c;Li等人,2020a)。然而,情绪是复杂的,在对话的发展过程中,用户的情绪强度会发生变化(Liu et al., 2021)。因此,有必要在每句话语中都要告诉探求者细致的精神状态。其次,大多数有同理心的聊天机器人都经过训练,按照预测的粗粒度情感类进行情感响应,而没有考虑如何解决探索者的情感问题(De Graaf et al., 2012;Majumder等人,2020年;谢和朴,2021年)。因此,他们缺乏申请情感支持对话的能力,而情感支持对话的目的是帮助他人度过他们所面临的挑战。
为了解决这些问题,我们提出了一种新的方法MISC,即混合策略感知模型集成COMET用于情感支持对话。针对第一个问题,我们引入了一种预训练生成常识推理模型COMET (Bosselut等人,2019a),并设计了一种注意机制,选择性地采用COMET知识元组进行细粒度的情感理解。如图1所示,这允许我们使用不同的COMET元组捕获搜索者的瞬时精神状态。此外,我们建议在生成第二个问题的共情反应时也考虑反应策略。而不是将响应策略建模为单一热点指标,我们将其制定为策略码本上的概率分布,并使用混合策略指导响应生成。最后,我们的MISC基于comet增强的心理信息和分布式策略表征产生支持性反应。混合策略的独特设计,不仅有助于增加表达的共情,还有助于学习长反应中的渐进过渡,如图1中的最后一句话,从而使对话更加流畅。
为了评估我们的模型,我们在ESConv基准上进行了广泛的实验(Liu等人,2021年),并与5个最先进的同理心聊天机器人进行了比较。基于自动度量和人工判断,我们证明由模型MISC生成的响应更相关和更有同理心。此外,进一步的实验分析揭示了响应策略建模的重要性,揭示了如何学习合适的响应策略以及响应策略如何影响聊天机器人的共情。
简单地说,我们的贡献如下:(1)我们提出了一个Seq2Seq模型MISC,它将常识知识和混合反应策略融入到情感支持对话中;(2)在ESConv数据集上进行了实验,并通过与其他SOTA方法的比较,验证了所提MISC方法的有效性。(3)采用不同的策略建模方法,对策略意识的情感支持对话进行了提示。
2相关工作
2.1情感感知的反应生成
Liu等人(2021)提出,情感感知对话系统可分为三类:情感聊天、同理心回应和情感支持对话。早期工作以情感聊天为目标,依赖情感信号(Li et al., 2017;周等,2018a;魏等,2019;周和王,2018;宋等人,2019)。后来,一些研究人员将注意力转移到激发用户的特定情感上(Lubis et al., 2018;Li等人,2020b)。最近的研究开始纳入额外的信息,用于更深层次的情感理解和同理心反应(Lin等人,2020;Li等,2020a;Roller等人,2021年)。Li等人(2021a)和Zhong等人(2021)利用ConceptNet来增强生成反应的情感推理。
与他们不同的是,我们的工作利用了生成常识性模型COMET (Bosselut et al., 2019b),它使我们能够捕捉寻求者的精神状态,并促进情感支持对话中的策略预测。
2.2自然语言处理常识
最近,有大量文献将常识性知识注入到各种NLP任务中,包括分类(Chen等人,2019;保罗和弗兰克,2019),问题回答(米哈伊洛夫和弗兰克,2018;鲍尔等人,2018;Lin等人,2019a),故事和语言生成(Guan等人,2019;Ji等人,2020),以及对话系统(Zhou等人,2018b;张等,2020;李等,2021a;钟等人,2021)。这些对话系统通常使用ConceptNet (Speer等人,2017),旨在用物理知识补充对话话语。与ConceptNet不同,A TOMIC (Sap等人,2019)涵盖了社会知识,包括以事件为中心的原因和结果以及与人相关的精神状态。为此,TOMIC有望有助于情感理解和反应共情。在这项工作中,我们利用COMET (Bosselut等人,2019b),这是一种通过TOMIC训练的用于情感支持对话的常识推理模型。
2.3具有策略意识的会话建模
会话策略可以从不同的角度用不同的概念来定义。大多数研究工作都是在对话行为的概念下进行的,其中创建了大量的对话行为方案(Mezza等人,2018;保罗等人,2019;yu和yu, 2021)。对话行为在面向任务的对话系统和开放域社交聊天机器人中都得到了经验验证(赵等人,2017;徐等,2018;彭等,2020;Li等人,2020c)。同理心对话中,对话策略通常使用回应意图或沟通策略的概念来定义,其灵感来自心理学和神经科学中的同理心理论(Lubis et al., 2019;Li et al., 2021b)。Welivita和Pu(2020)定义了15种反应意图的分类,通过这些反应意图,人类可以与他人产生同理心,Liu等人(2021)定义了一套8种支持策略,人类可以利用这些策略来减少他人的情绪困扰。
这部分揭示了反应策略是复杂的,这促使我们在产生支持性反应时采用混合策略。
3 Preliminaries
3.1 ESConv Dataset
3.1 ESConv数据集在本文中,我们使用了情绪支持对话数据集ESConv (Liu等人,2021)。
在对话开始之前,寻求者应该确定自己的情绪类型,并告诉支持者他们正在处理的情况。此外,每个支持者的话语策略都是有标记的,这对我们的工作是最重要的。总共有8种策略,而且几乎是均匀分布的。详情见附录。
对于一般对话响应生成,目标是估计数据集D = {c(i), r(i)}Ni=1的概率分布p(r|c),其中c(i) = (u(i) 1, u(i) 2,…, u(i)ni)由对话历史中的ni话语序列组成,r(i)为目标响应。为了简洁起见,当在剩下的部分中指出一个例子时,我们省略上标(i)。
在情感支持对话的设置中,寻求者的处境被视为额外的输入,以自由形式的文本描述寻求者的问题。我们还将寻道者的最后一篇文章(话语)表示为x。因此,目标变为估计概率分布p(r|c, s, x)。
我们的方法的概述如图2所示。
基于blenderbot-small (Roller等人,2021年),我们的模型MISC由三个主要组件组成:(1)精神状态增强编码器(Bosselut等人,2019a);(2)混合策略学习模块;(3)多因子感知解码器。
根据通常的做法,我们首先使用编码器E表示上下文:
其中CLS是开始标记,EOS是两个语句之间的分离标记。
为了更好地理解探索者的情况,我们利用COMET (Bosselut等人,2019a),这是一个常识知识生成器,提供与对话相关的心理状态信息。具体地说,我们把情况当作一个事件
Bs = Nr[j=1 COMET(relj, s)(2),其中Nr为COMET中预定义关系的个数,relj为第j个具体关系,如xAttr和xReact.1注意,给定某个事件关系对,COMET能够生成多个形式自由的精神状态信息“尾巴”,Bs是一组Ns个精神状态块,即Bs = {bsj}Nsj=1。类似地,我们可以使用探索者的最后一个帖子x来获得一组心理状态块Bx。
然后,所有的自由形式的块将转换成密集的向量使用我们的编码器E: Hs = [hs1,1, hs2,1,…, hsNst,1] hsj = E(bsj)(3),每个块的第一个令牌的隐藏状态将被用来表示对应的块。
后来,由于COMET块的噪声,很多都与上下文无关。我们创造性地采用注意方法对强相关块进行细化。该运算可以表示为Z = softmax(Hs·CT)·C Hs = LN(Hs + Z)(4),其中LN为LayerNorm模块(Ba et al., 2016)。类似地,我们可以用s到Hs的相同方法将x转化为Hx。最后,我们得到了探索者心理状态Hs和Hx的会话级和话语级表征,这些表征被常识信息强化。
预测响应策略的一种直接方法是根据Eq.(1)中的上下文表示C的CLS状态训练分类器:pg = MLP(C1)(5),其中MLP是多层感知器,pg记录每种策略被使用的概率。
为了像前面讨论的那样对响应策略的复杂性进行建模,我们建议使用分布pg和对策略的混合建模反应生成。在这里,我们熟练地学习了VQ-V AE的码本来表示策略的想法(Oord等人,2017)。策略码本T∈Rm×d表示m个策略潜在向量(这里m = 8),维数为d。通过使用pg对T进行加权,我们可以得到一个全面的策略表示hg hg = pg·T(6)我们的基于码本的方法有两个好处:(1)当需要长时间的回答来巧妙地减少寻求者在情感支持对话中常见的痛苦时,它是有益的。(2)学习灵活。直观地说,如果一种策略在pg中有更高的概率,它应该在引导支持对话中发挥更大的作用。在急剧分布的极端情况下,单一策略将接管控制权。
剩下的就是如何正确地利用推断出的心理状态和策略表示。为了通知解码器这些信息,我们将骨干交叉注意模块修改为:Ac = cross - att (O, H) as = cross - att (O, Hs) Ax = cross - att (O, Hx) Ag = cross - att (O, hg) O 0 = LN(Ac + as + Ax + Ag + O)(7),其中cross - att表示骨干交叉注意模块,O为的隐藏状态解码器,它通过与多个因素相互作用产生最终响应。
基于blenderor -small (Roller et al., 2021),我们联合训练模型来预测策略并产生响应:Lr =−nrX t=1 log(p(rt|rj
我们在数据集ESConv上评估了我们的方法和比较的方法(Liu等人,2021)。为了进行预处理,我们每10个话语截断一次对话示例,并以8:1:1的比例将数据集随机分成训练、有效、测试三个部分。统计数据见表1。
分类训练开发测试#对话14117 1764 1764平均每句话#单词17.25 17.09 17.11平均每个对话#匝数7.61 7.58 7.49平均每个对话#单词148.46 146.66 145.17表1:ESConv数据集处理后的统计数据。
5.2评估指标我们采用一套自动和人工的评估指标来评估模型的性能:自动指标。(1)取策略预测精度ACC。作为一个基本的度量。更高的ACC。说明该模型具有较好的响应策略选择能力。(2)然后,我们获得了传统的PPL(困惑度)、B-2 (blue -2)、B-4 (blue -4) (Papineni等人,2002)、R-L (rudy - l) (Lin, 2004)和M (Meteor) (Denkowski和Lavie, 2014)指标,以评估生成的回答的词汇和语义方面。(3)对于响应多样性,我们报告了D-1 (Distinct-1)和D-2 (Distinct-2)数字,这评估了生成的响应中唯一n-g的比例(Li等人,2016)。
人类的判断。继See等人(2019)之后,我们还招募了3名具有语言学和心理学背景的专业注释者,并请他们根据流畅性、知识和共情方面对生成的回答进行评级,级别为{0,1,2}。为了进行公平的比较,专家注释人员不知道响应来自哪个模型。
请注意,这3个作者是付费的,结果由另外一个人进行验证。
Transformer是基于MLE损失训练的普通Seq2Seq模型(V aswani et al., 2017)。
MT Transformer是一种多任务转换器,它将情感预测视为一项额外的学习任务(Rashkin等人,2018)。具体来说,我们使用ESConv中提供的会话级情感标签来学习情感预测。
MoEL将来自多个监听器(解码器)的输出状态轻柔地组合在一起,以增强对不同情绪的反应共情(Lin等人,2019b)。
MIME考虑了基于极性的情绪集群和情感模仿来产生同理心反应(Majumder等人,2020年)。
BlenderBot-Joint是ESConv数据集上的SOTA模型,它在响应语句之前添加了一个特殊的策略令牌(Liu等人,2021年)。
我们使用词汇表的默认大小和隐藏状态,基于blenderbotsmall (Roller et al., 2021)实现了我们的方法。对于最后的帖子x和情况s,我们将检索到的COMET块的最大数量分别设置为30和20。推断出的COMET块将是发送到编码器最多10个单词。
为了与Liu等人(2021)的SOTA模型相比较,我们利用特斯拉- v100 GPU对基于混合机器人的MISC进行了微调,该混合机器人的参数大小为90M。培训和评估的批数分别为20和50。我们初始化学习率为2e-5,并在训练过程中使用120个热身步骤的线性热身来改变它。我们使用AdamW作为优化器(Loshchilov和Hutter, 2018), β1=0.9, β2=0.999和?=1e8。训练8课时后,选取验证集上困惑度最低的检查点进行测试。接下来(Liu et al., 2021),我们也采用了Top-p和Top-k采样的解码算法,p=0.3, k=30,温度τ=0.7,重复惩罚1.03。我们将发布源代码以促进未来的工作。
5.5实验结果如表2所示,vanilla Transformer的PPL、BLEU-n和distinct-n得分较低,表现最差。这并不令人惊讶,因为它没有任何其他特定的优化目标来学习共情能力,而且据观察,它在捕获ESConv数据集中的长上下文方面存在缺陷。
MT Transformer, MoEL和MIME的表现也令人失望。尽管三者都具有情感预测和整体倾听等共情目标,但它们都是建立在会话级静态情感标签的基础上,不适合细粒度的情感理解。更重要的是,这三种共情模式在情感支持对话的情境下缺乏对寻求者的战略性安慰能力。
通过与SOTA模型BlenderBotJoint的比较,可以看出我们的模型MISC更有效,特别是在预测更准确的响应策略方面。尽管BlenderBot-Joint在第一个解码步骤预测单一策略,但我们的方法MISC使用策略码本建模混合响应策略,并允许解码器学习平稳过渡,更自然地展示共情。比较结果表明,将反应策略作为一项额外任务进行预测,并考虑情绪支持会话的策略复杂性,有利于情绪支持会话的预测。
表3中的人工评价结果与自动评价结果一致。感谢前经过训练的LM blenderbot-small(拉什金等人,2018年)、BlenderBot-Joint和我们的MISC在流畅性方面显著优于其他模型。值得注意的是,我们的MISC获得了最高的知识分数,这表明我们的方法生成的响应包含了与上下文相关的更具体的信息。我们推测我们的多因素感知解码器成功地学习利用COMET的精神状态知识和混合预测策略。
总体来说,MISC在几乎所有指标上都表现最好。它有力地证明了我们方法的有效性,并强调了细粒度精神状态建模和混合响应策略合并的重要性。
我们的MISC方法有两个新颖的设计:考虑细粒度的心理状态和结合混合反应策略。为了进一步研究,我们进行了额外的实验,分析结果为我们如何开发更好的情感支持会话代理提供了线索。
6.1烧蚀研究为了验证每个增加的部件(g, s, x)所带来的改善,我们将这三个部件从MISC中去掉,检查性能变化。如表4所示,当g出现时,所有指标的分数都急剧下降。因此,我们认为策略注意对于引导响应的语义是至关重要的。此外,当我们去掉情境s和搜索者的最后一个查询x时,分数也会下降。通过以上的实验,MISC的各个主要部分都被证明是有效的。
在表5中,用一个例子来比较MISC和其他模型产生的响应。比较的模型中出现了许多问题,如不一致、重复、矛盾等。直观地说,我们的模型在对比中获得了最佳性能。此外,我们在图4中展示了一个可视化图,以解释在COMET块和混合策略的联合作用下,MISC如何组织响应。
如前所述,以前的方法的一个局限性是,它们仅仅依赖于对话级别的情感标签,这种标签过于粗糙,无法指导聊天机器人有策略地做出回应,无法帮助情感对话健康地进行。为了解决这个问题,我们利用常识知识生成器COMET来补充探索者精神状态的细粒度信息。
为了公平地检验不同情绪信息的影响,我们摒弃了COMET块,实现了我们的方法MISE的变体,也就是集成情绪的混合策略感知模型,其中一个额外的情绪分类目标被添加到主架构中,如Rashkin等人(2018)所述。表6总结了我们的完整模型MISC与其变体MISE之间的比较结果。显然,所有的指标
当用粗粒度的情感标签替换细粒度的心理信息时下降。
为了描述细粒度的精神状态信息的优势,我们将表5中示例的彗星块可视化。如图4所示,我们的聊天机器人MISC非常关注那些有利于细粒度情感理解和策略感知共情反应的推断知识。
更具体地说,参与的COMET块(xReact, hurt)和(xAttr, sad)允许我们的聊天机器人MISC说出“这是痛苦的”这句话,这反映了它理解探索者的感受。
此外,请注意,白色背景的COMET块是使用情况信息s检索的,灰色的块是使用探索者的最后一个帖子x收集的。尽管有一些重叠,但白色和灰色参加的块确实包含不同的和关键的精神状态知识。这部分验证了s和x是互补的,它们是情感支持对话的有用信息。
同时,混合反应策略在情感支持对话中也起着至关重要的作用。通过对上述案例的深入分析,我们发现了一些线索,为什么我们的对话策略模型更适合于情感支持对话的设置。
提示1:混合策略有利于平稳的情绪支持。在图4中,我们可视化了预测的策略表示和表5中生成的支持响应。在了解了寻求者的分手情况和悲伤情绪后,我们的MISC认为,在情感上回应和有效地安慰寻求者的情绪时,使用自我表露、感受反映的策略可能是合适的。然后,MISC通过首先揭示“它”有相似的经历,知道喜欢的感觉来组织回答。此外,聊天机器人还补充了从一段关系中继续前进的详细信息,暗示生活将继续下去。这些叠加词可以看作是使用了Information或Others的策略,有助于将对话顺利地过渡到下一步。这个案例生动地展示了混合策略是如何引导响应生成的,以及我们的聊天机器人MISC是如何熟练的。
提示2:混合策略比单一策略更有效。除了案例研究,我们还试图定量评估混合策略建模的好处。为此,我们实现了聊天机器人Single的另一个变体,其中混合表示替换为单一表示。通常,我们选取概率值最大的策略维度作为单热输出。对比结果见表7。尽管单一策略变体的distinct-n得分略高,但在词汇和语义方面却远远落后分数。
回想一下,SOTA模型BlenderBotJoint (Liu等人,2021)也可以被视为单策略模型,其中在响应生成的开始首先解码一个特殊的策略令牌。然后将他们的策略建模方法与我们的混合策略表示方法进行比较。如图5所示,我们的MISC的top-k策略预测精度始终优于BlenderBot-Joint,模型的top-5精度达到80%以上。这再次证明了我们的策略建模的成功。
策略D-1↑B-2↑R-L↑M(%)↑混合4.41 7.31 17.91 11.05单一4.79 6.30 17.01 10.22表7:不同策略建模比较
提示3:混合策略适用于ESC框架。数据集ESConv中的情感支持对话受ESC框架的指导,这表明情感支持通常遵循一定的策略流顺序。
与(Liu et al., 2021)类似,这里我们也将从不同模型中学习到的策略分布可视化,并将其与原始数据集中的“ground-truth”策略分布进行比较。作为如图3所示,我们可以发现:(1)将我们的模型与SOTA模型BlenderBot-Joint进行比较,我们的MISC可以更好地模拟情绪支持对话中的策略采用技能。(2)与BlenderBotJoint相比,在对话的几乎所有阶段,我们的模型都不太可能预测Others的策略(灰色部分)。这说明我们的模型获得的策略比BlenderBot-Joint获得的策略更具辨别力。(3)总体而言,我们模型中的策略分布与ground-truth分布具有非常相似的模式。这意味着我们的策略学习建模方法适用于ESC框架。
在本文中,我们提出了一种新的情感支持对话框架MISC,该框架引入COMET来捕获用户的即时精神状态,并设计了一个混合策略感知解码器来生成支持响应。通过大量的实验,证明了该模型的优越性和合理性。未来,我们计划以动态的方式学习混合应对策略。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值