阅读《Unsupervised Evaluation of Interactive Dialog with DialoGPT》

本文介绍了一种名为FED的无监督对话评估方法,该方法利用DialoGPT模型来评估18个细粒度的对话质量,而无需真实响应或训练数据。FED数据集包含了对人-系统和人-人对话的注释,用于度量的性能基准。实验结果显示,FED度量与人类判断在中等到高度相关,证明了预训练模型在对话质量评估中的潜力。
摘要由CSDN通过智能技术生成
Unsupervised Evaluation of Interactive Dialog with DialoGPT

Abstract

为开放域对话研究定义有意义和可解释的自动评估指标是很重要的。标准语言生成指标对于对话是无效的。本文介绍了FED度量(细粒度对话评估),这是一个使用DialoGPT的自动评估度量,没有任何微调或监督。它还引入了FED数据集,该数据集是通过注释一组具有18个细粒度对话质量的人-系统和人-人对话来构建的。FED度量(1)不依赖于真实的响应,(2)不需要训练数据,(3)在回合和整个对话级别上测量细粒度的对话质量。FED在这两个层面上都与人类判断具有中度到强的相关性。
 

1 Introduction

评价指标通常定义了一个领域的研究方向。随着对话系统开始展示人类水平的表现,开发和采用有意义和可解释的自动评估措施是必要的(Zhang等,2019;Adiwardana等人,2020年)。因为标准指标(如BLEU, METEOR)已被证明对对话无效(Deriu等,2019;Liu et al., 2016),经常使用人的评价。然而,由于成本高昂,它通常只用作最终评估。在开发过程中,系统通常会针对关联性较差的自动指标进行优化,这可能导致低于标准的性能(Dinan等人,2019)。自动度量必须是有意义的和可解释的,这样它们才能用于比较对话系统,理解它们各自的优缺点,并有效地指导对话研究。
 
对话评估之所以困难,有以下几个原因:(1)对话的一对多性质(Zhao等。)使得单词重叠度量对偏离事实的有效回答无效(Liu et al., 2016;Gupta等人,2019年)。(2)对话质量本质上是多方面的(Walker et al., 1997;见等人,2019年)和可解释的指标应该衡量几个质量(例如,有趣,相关,流利)。(3)对话系统已开始在交互式环境中进行评估(Ram等,2018;Adiwardana等人,2020年),其中一个真正的用户与一个系统有一个来回的对话。交互式评估不局限于静态语料库,可以更好地捕获现实环境中的系统性能。然而,现有的自动度量标准与真实的响应相比,使得它们不适合评估交互式对话。为了解决这三个问题,本文提出了FED度量(对话的细粒度评估),该度量在不依赖参考响应的情况下评估18种对话质量。
 
首先,为人类系统(Meena和Mitsuku)和Adiwardana等人(2020)发布的人类对话收集人类质量注释数据集。对话在回合关卡和对话关卡中都有18个细粒度对话质量的注释。这个FED数据集可以用于相对于人类判断的自动度量的性能基准。对这些数据的分析提供了对人类注释者最重要的对话质量的洞察。因此,它突出了在对话研究中应该注意的品质
 
FED数据集仅用于评估相对于人类判断的自动度量。它不包含任何训练数据。因此,本文致力于开发一种自动评估指标(1)不与参考反应相比,(2)评估18种不同的对话质量,(3)不依赖于培训数据或监督。这是第一篇论文据我们所知,来解决这个重要而富有挑战性的问题。
 
这里描述的美联储指标利用了一个大规模预培训模型DialoGPT (Zhang等人,2019),该模型可以产生实际上是人类水平的响应。Kocijan等人(2019)认为,预先训练的模型隐式捕获世界知识,因此可以执行常识推理。类似地,我们假设DialoGPT已经隐式地捕获了对话质量的一些概念,因此可以用于对话评估。Eskenazi等人(2019年)通过查看以下用户响应,评估了交互式环境下系统话语的质量。建议的评估指标基于同样的直觉。给定一个系统响应,它的质量是通过计算DialoGPT用一个特定的后续语句响应它的可能性来衡量的(例如,这真的很有趣!)。DialoGPT更可能以这种方式响应它认为是有趣的系统响应。我们为这18种品质中的每一种构建了一组后续话语,并用这些后续话语的可能性来衡量对话质量
 
在没有任何训练数据或ground-truth响应的情况下,FED度量与回合级和对话级评价的人类判断获得中度到强相关性。本文中的分析表明,通过大规模的预培训,DialoGPT已经隐含地捕获了对话质量的一些概念。这些结果表明,预先训练的模型可以进一步改善对话评价。
 
本文的主要贡献如下:(1)收集了FED数据集1用于交互式对话的精细评价,并在对话级和对话级分别对18个对话质量进行了注解。(2)对FED数据集的分析确定了对人类注释者最重要的对话质量。(3) DialoGPT隐含地获取了对对话质量的理解。(4) FED指标2通过利用DialoGPT与人的判断具有中度到强的相关性,而没有培训数据或参考反应。
 

2 Related Work

2.1 Automatic Dialog Evaluation

语言生成的标准自动度量与人类对对话的判断关系不大(Liu et al., 2016;Lowe等人,2017;Gupta等人,2019年)。这种糟糕的表现很大程度上可以解释为对话的一对多本质(Zhao等人,2017)。为了避免与单个参考文献进行比较,一些作者提出使用多个参考文献。通过检索模型可以获得多个参考响应(Galley et al., 2015;Sordoni等人,2015)或通过数据收集(Gupta等人,2019)。这些多参考指标显示了性能的改善,但完全覆盖所有潜在响应的空间是不可行的。美联储的衡量标准并不依赖于一个真实的反应。
 
Lowe等人(2017)训练ADEM生成一个基于对话上下文、参考反应和生成反应的质量分数。Venkatesh等人(2018)提出了一个评估Alexa奖励对话的框架,该框架与用户评分具有适度的相关性。这两种方法都经过显式质量注释的训练。相比之下,美联储在这里提出的指标不需要监管。
 
Mehri和Eskenazi(2020)引入了USR,一种用于对话生成的无监督和无参考的评估指标。与FED类似,USR使用预先训练的模型来评估一些对话质量。然而,他们被限制在五个质量手工设计的模型和无监督任务的每一个质量。相比之下,FED更一般,包含18个对话特性。
 

2.2 Dialog Qualities

人在对话中的评价通常仅限于衡量整体质量或回应的适当性。然而,对话质量是多方面的,不应该简化为单一的衡量标准。
 
PARADISE (Walker等人,1997年)是最早的对话评估框架之一,它测量了对话的几种不同属性,并将它们结合起来评估用户满意度。看到et al。(2019)在对话中使用了多种人类判断,包括趣味性、意义、避免重复、流畅性、倾听和好奇。参见等人(2019),强调了在评估对话系统时衡量多重质量的重要性。有几个人类评价多种对话质量的例子。Gopalakrishnan等人(2019)使用:有趣的、可理解的、主题上的和知识的使用来注释系统响应。Shin等人(2019)测量同理心、流畅性和相关性。Zhang等人(2019)使用相关性、信息量和人类相似性来评估回答。Adiwardana等人(2020)利用特异性和敏感性在静态和交互式环境中进行评估。
 

2.3 Pre-trained Dialog Models

预训练语言模型的成功(Radford et al., 2018;Devlin等人,2018)最近已经扩展到对话领域。Zhang等人(2019)在Reddit上对DialoGPT进行训练,并在反应生成任务上达到人类水平的表现。本文采用开源的DialoGPT模型构造FED度量。(Adiwardana等人,2020)同样在一个未指定的大型会话数据集上预先训练了他们的Meena对话系统。
 

3 Data Collection

收集了人类质量注释数据集,通过测量与人类判断的相关性来评估自动度量。Adiwardana等人(2020年)收集了一组人类与两个开放域对话系统Meena (Adiwardana等人,2020年)和Mitsuku4之间的对话。此外,他们还发布了在同一环境中收集的人与人的对话,其中一个人被选中来扮演系统的角色。我们用人工质量判断注释了这些对话的子集,以创建FED数据集。
 
亚马逊Mechanical Turk (AMT)上的工人注释了40个Human-Meena对话,44个Human-Mitsuku对话和40个HumanHuman对话。对于每个对话,手动选择三个系统响应,在回合级别上进行注释,并依次呈现给工作者。然后向工人显示整个对话,并在对话级别上进行注释。五名工人为每段对话做注释。他们不知道对话中涉及的是哪个系统,因为所有提到系统名的地方都被替换成了“系统”这个词。
 
因为对话质量本质上是多方面的,所以衡量不同的对话质量是很重要的。在FED数据集中测量了18个细粒度的对话质量:8个在回合级别,10个在对话级别。
 

3.1 Turn-Level Annotation

给定一个对话上下文和一个系统响应,工作人员根据八个细粒度的度量以及总体质量评估响应。回合级措施列表如表1所示。每种细粒度特性的选项是:不,多少,是,无( No , Somewhat , Yes , N/A)。
For under standable,与之前的工作类似,没有提供 Somewhat选项(Gopalakrishnan等人,2019)。回复-需要书面解释。总体印象问题采用李克特5分制进行测量。
 
对于表1中列出的每个问题,工作人员都得到了详细的说明和示例。这些说明在补充材料中提供。
 

3.2 Dialog-Level Annotation

对于对话级注释,工作人员被要求在整个对话期间标记系统的质量。表2中列出的对话级别问题涵盖了10个细粒度对话质量和一个关于整体印象的附加问题。每种细粒度质量的可用选项是No, Somewhat, Yes, N/A。对于一致性,没有提供多少选项,因为不一致的存在是二进制的。总体印象是用李克特5分量表测量的。
 

3.3 Dataset Statistics

总共有124个对话被注释(40个Meena, 44个Mitsuku, 40个Human)。五个不同的员工看了每段对话(HIT)。每个对话都有一个对话级注释和三个回合级注释,用于从对话中随机抽取的系统响应。回合级注释有9个问题,对话级注释有11个问题。FED数据集总共包括3348个回合级数据点和1364个对话级数据点,共计4712个。这个数据集仅用于度量的评估,因为带注释的对话的数量不足以同时容纳培训和测试。
 

3.4 Data Processing

考虑到4712个数据点被5个标注器标记,通过去除离群值来提高数据质量。给定一个问题的5个注释,如果离均值的距离大于5个注释标准差的一半,那么离均值最远的标签将被删除。
 

4 Data Analysis

FED数据集的细粒度特性是进行丰富分析的基础。首先,对所有对话质量评估内部注释者协议。接下来,数据集被用来更好地理解三个系统(Mitsuku, Meena, Human)的比较优势和劣势。最后,对数据的详细分析提供了对注释者总体印象贡献最大的细粒度特性的洞察。
 

4.1 Inter-Annotator Agreement

为了计算注释者之间的一致性,每个注释与同一问题的5个(或4个,移除离群值后)注释的平均值之间的相关性被测量。每个回合级别和对话级别问题的Spearman相关性如表3所示
 
所有对话质量的注释者之间的一致性都很高,这表明所有的注释者都能很好地理解并且是相关的,说明消除了任务中的许多歧义。两种可理解且一致的品质相关性较低,在0.5 - 0.6范围内。这些品质并没有包含“多少”作为答案。这可能促成了较低的内部注释者协议。
 

4.2 System Performance

Adiwardana等人(2020)对Mitsuku、Meena和Humans在互动环境中的表现进行了比较,但他们的评价只使用了两种品质:特异性和敏感性。相比之下,FED数据集有18个细粒度的特性,因此提供了关于每个系统优缺点的更多信息。
 
每个系统的细粒度性能如表4所示。在所有回合关卡质量方面,Meena的表现都优于Mitsuku和Human。Meena的优势在于它的趣味性、吸引力和特殊性。
 
然而,回合级别的质量不足以评估对话系统。对话是一种多回合互动。因此,在某些情况下,次优系统响应可能会导致更好的长期对话。在对话级别上,人类的表现明显优于这两种系统。Meena和Mitsuku之间的差异在对话关卡中非常明显,在整体得分上有1分的差异。分数差异越大,人类对话的表现越好,说明对话级别的评估比回合级别的更可靠。米纳的乐谱表明,它是相当连贯、理解和灵活的。然而,它在多样性、话题深度和讨喜方面遇到了困难。
 

4.3 Fine-Grained Quality Analysis

FED数据集可以通过衡量其对整体印象的贡献来检验每个细粒度对话质量的相对重要性。对于回合级和对话级,我们都训练回归来预测作为输入的细粒度质量的总体分数。回归权重提供了对人工注释器所标记的对总体印象贡献最大的细粒度质量的洞察。在回归权重上计算softmax,以确定每个细粒度对话质量的相对贡献。对话质量越高,权重越大,对人的整体印象越好。结果如表5所示。
 
最重要的回合关卡品质是有趣、相关和流畅。这表明开发一个始终有趣、相关和流畅的系统将会在用户的整体印象中得到最大的改善。对话关卡质量的重要性差异要小于回合关卡质量,这可能是因为质量之间的意义重叠较少,所有对话关卡质量似乎都很重要。对话级别最重要的品质是连贯、可爱和理解。因此,提高系统的连贯性、理解用户及其亲和力是最可能提高对话系统整体印象的方法。
 

5 Methods

FED(对话的细粒度评估)度量是对话的自动评估度量,它(1)不需要与参考响应进行比较,(2)度量18个细粒度的对话质量,(3)不使用训练数据。在没有监督的情况下获取不同的细粒度质量集合是一个特别具有挑战性的问题。
 
FED指标的发展是由先前工作的两个领域推动的:(1)预先训练的语言模型及其能力,以及(2)后续话语作为评价手段的使用.
 

5.1 DialoGPT

Zhang等人(2019)扩展GPT-2 (Radford等人,2018),以训练DialoGPT对Reddit上的147M类对话互动进行训练。根据他们的评估,DialoGPT在产生相关、有趣和类人反应方面比人类表现得更好。
 
Kocijan等人(2019)表明,预先训练的语言模型,特别是BERT (Devlin等人,2018),隐式捕获世界知识,因此可以执行常识推理。根据BERT,通过计算哪个答案会产生更可能的句子,它们在Winograd模式挑战上的表现明显优于其他方法(Levesque等人,2012)。
 
正如BERT已经被证明能够获取世界知识一样,我们假设DialoGPT已经隐含地获取了对话质量的一些概念。特定对话上下文的质量(例如,有趣的、相关的、信息丰富的)可能会通知DialoGPT的响应,因此,模型必须捕获。如果有18个对话质量的训练数据,这个假设可以通过对对话评估任务的DialoGPT进行微调来验证。然而,在没有训练数据的情况下,挑战是设计一种无监督的机制来提取DialoGPT捕获的质量信息。
 

5.2 Follow-Up Utterance for Evaluation

Eskenazi等人(2019)通过查看以下用户响应来评估互动环境下系统话语的质量。当用户与系统对话时,他们对给定系统话语的响应可能隐式或显式地为系统提供反馈。例如,如果用户在系统话语之后说“That’s not very interesting”,他们提供的是关于系统话语质量的信息。
 
FED数据集中的对话是在交互式设置中收集的。因此,后续话语的使用是一个有效的选择。即使用户始终如一地提供反馈,在没有培训数据的情况下也很难解释。
 

5.3 Evaluating with DialoGPT

提出的FED指标的动机是:(1)DialoGPT已经隐含地学会了揭示对话质量的直觉,(2)后续的话语可以提供有关系统响应的有价值的信息。为了衡量系统反应的质量,我们计算模型产生各种后续话语的可能性(例如,哇!很有趣。)在对s. DialoGPT的回答中,如果事先给出一个更好的(例如,更有趣/相关/流利)的系统话语,那么他们更有可能在后面用肯定的话语做出回应。
 
对于这18个细粒度对话品质中的每一个,我们都构建了一组积极的后续话语p和一组消极的后续话语n。具体来说,给定一个对话框上下文c、一个系统响应r和一个计算DialoGPT生成特定响应的对数似然值的函数D,对话框质量的预测分数计算如下:
 
 
通过将系统响应r从等式中移除,我们可以修改这个等式来预测对话级别质量的分数。
 
如果DialoGPT(充当用户)更有可能在回应后用积极的话语(例如,哇!非常有趣),而不是贬义词(例如,That’s really boring)。对于这18种品质中的每一种,都有一些积极和消极的话语是手写的,并在数据集中的一个小子集(10次对话)上最小限度地调整。每个品质的后续表达在补充材料中提供。
 
一般来说,消极的后续话语比积极的后续话语更有意义。例如,如果一个系统反应是不相关的,那么接下来的That’s not relevant就是合理的。然而,承认系统响应的相关性是不太可能的。因此,DialoGPT产生的对数似然将会更嘈杂,信息量更少。每个对话质量的积极话语的数量在0到4之间,消极话语的数量在1到4之间。虽然细粒度质量是以这种方式计算的,但整体印象分数则是以回合关卡或对话关卡质量的平均分数计算的。
 

6 Results

6.1 Experimental Setup

使用预先训练的DialoGPT模型的四个变体来评估FED度量。预先训练的DialoGPT模型可以是中型:345M或大型:762M。它们要么是经过GPT-2微调(Radford et al., 2018),要么是从头开始训练的。后续的话语是手写的,并使用762米微调模型对10个对话进行最低限度的调整。由于Zhang等人(2019)证明了小(117M) DialoGPT模型的性能不佳,因此没有使用该模型。
 
大多数回合级别的质量都是使用最后一个系统响应作为上下文进行评分。对于相关的、正确的和对话级别的度量,整个对话被用作上下文。
 
6.2 Correlation with Human Judgement
 
预测质量分数和标注分数的平均值之间的Spearman相关性被测量。所有对话质量和底层DialoGPT模型的所有四种变体的相关性如表6所示。
最佳的整体回合水平相关性为0.209,最佳的整体对话水平相关性为0.443。据我们所知,目前没有任何其他指标在没有真实响应的情况下运行,因此这些结果不能直接与任何现有指标进行比较。然而,之前关于对话评价的研究显示出大致类似的相关性。对话的多参考评估实现了0.10 - 0.27范围内的相关性(Gupta等人,2019年),而ADEM实现了0.28 - 0.42范围内的相关性(Lowe等人,2017年)。由于既没有训练数据,也没有ground-truth响应,相对于之前的工作,FED度量执行具有竞争性。
 

6.3 Discussion

对于某些对话质量,FED指标更有效。这是因为DialoGPT是在Reddit上接受培训的。它更有可能捕捉到了Reddit展示的某些对话品质。例如,DialoGPT更可能学会衡量诸如有趣和吸引人的品质,而不是可理解和一致的品质。在Reddit的训练数据中,前两个品质比后一个表现出更多的变化。例如,有有趣的话语和无趣的话语,但Reddit上的大多数话语通常是可以理解的。前两个品质也更有可能影响系统的响应。相反,后两种品质不太可能在回应中得到承认。例如,由于Reddit是一个多人论坛,而不是一对一的对话,对话历史中的不一致不太可能反映在回应中。因此,这种方法很难衡量对话的一致性也就不足为奇了。
 
一个最优生成模型(例如,人)应该表现出组合性,并能够产生从未被观察到的话语。例如,即使“这是不一致的”从未出现在训练数据中,一个组合模型将能够生成它。不同对话质量间的表现差异表明DialoGPT表现出了某种程度的组合性,正如它能够组合一些在Reddit数据中不常见的后续话语(例如,你真的不知道很多?),然而,它仍然会在由较少观察到的概念(例如,一致的,可理解的)组成的后续话语中遇到困难。
 
DialoGPT可以用来更好地衡量这些质量,通过微调来自Reddit以外的其他会话数据,或在训练集上注释了人类的质量判断。然而,即使没有额外的微调,FED也能有效地衡量许多品质。
 
本文对三个开放域会话代理Meena、Mitsuku和Human的FED度量进行了评估。由于这三个系统在本质上是不同的,并且FED在所有系统中都表现出与人类判断的强相关性,我们相信FED的性能将适用于其他开放域对话系统,而不会局限于特定类型的模型或特定的数据集。然而FED数据集只包含开放域的闲聊对话。因此,需要未来的工作来确定FED度量是否将推广到面向目标的对话。由于DialoGPT还没有观察到目标导向的训练数据,因此可能有必要在新领域中使用自我监督的微调(Mehri和Eskenazi, 2020)。
 
与所有自动化指标一样,有可能利用FED指标人为地获得高分,特别是通过一个模型产生可能导致特定后续话语的反应。为此,美联储的度量不能取代人类的评估。相反,它是用于验证和模型调优目的的一种度量对话框质量的方法。
 
FED指标是(1)无监督的,(2)不依赖参考响应,(3)可用于评估许多对话质量。通过让DialoGPT扮演用户的角色,并为后续话语分配概率,我们设计了一种无需任何监督就可以提取对话质量信息的机制。这种机制是通用的,可以潜在地扩展到其他对话质量。
 

7 Conclusion

本文介绍了FED数据集和FED度量。FED数据集是通过注释一组具有18个细粒度对话质量的交互式对话来构建的。FED指标可以用于衡量对话的细粒度质量,而无需与真实响应进行比较。通过让DialoGPT扮演用户的角色并计算后续话语的可能性,FED度量在不使用任何训练数据的情况下获得了与人类判断的中度到强相关性。FED指标天生具有通用性和通用性,这使得它适用于其他对话质量、域或任务。FED数据集和FED度量的代码将在接受本文后发布。
 
本文为今后工作的几个方向奠定了基础。(1) FED数据集可用于衡量18个细粒度对话质量的自动评估指标。(2)在本文的基础上,未来的工作可以确定进一步利用预先训练模型进行对话评价的机制。(3)未来的工作可以探索将FED度量从开放域的闲聊会话扩展到目标导向对话的策略。(4) FED度量可以用来评估、分析和改进对话系统。
 
 
 
 
 
 
 
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值