《MultiWOZ 2.3》MultiWOZ数据集的新版本

MultiWOZ2.3通过修正对话行为和对话状态的标注问题,引入共指特征并重新评估了对话状态跟踪和自然语言理解模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

标题

《MultiWOZ 2.3: A multi-domain task-oriented dataset enhanced with annotation corrections and co-reference annotation》

时间:2020年10月

关键词:co-reference features

内容:老版本数据集的问题,1、dialogue state annotations导致
dialogue act annotations untouched. 2、the critical co-reference and ellipsis feature prevalent in the human utterance is not in presence.

贡献:

1、根据dialogue states,区分出dialogue acts标注错误;将 dialogue acts 和 dialogue states 的标注统一起来确认一致性,提出新版本数据集。

2、引入co-reference features(共指特征,互引用特征) 来增强对话系统的性能

3、重新基准话若干个 SOTA的DST/NLU模型,并在新数据集上进行了公平比较。

标注修正

(1)dialogue act修正

使用两个规则相继修正 “dialog_act” 标签:

1、we use customized filters to select credible predictions generated from a MultiWOZ 2.1 pre-trained BERTNLU model (Zhu et al., 2020b) and merge them with original “dialog act” annotations;

2、we use assorted regular expressions to further clean “dialog act” annotations from the previous step.

即先用2.1版本数据集上SOTA模型对自己生成伪标签,再用各式正则表达式清洗。

dialog act标注的变化,会导致mismatches in paired span indices(与span索引对不匹配),所以我们在修正dialog acts时也修正了相应的异常 “span_info” 标签

【按:这里参见index-based copy】

(2)Dialogue State修正

使用两个规则来引导 “dialog_state” 标签的更新:

1、Slot Value Normalization:槽值正则化

老版本数据集里很多槽值对是mismatch between given utterances and ontology,例如“16:00” and “4 PM”。这是因为这些槽值没有正则化

2、Consistent Tracking Strategy:跟踪策略的不一致性

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qZokkZTZ-1602985942591)(C:\Users\66820\AppData\Roaming\Typora\typora-user-images\image-20201017224333266.png)]

如图3,同样是系统推荐了一个item,但belief state一个更新,一个没更新。这即是跟踪策略的不一致性。在对话系统中,用户需求是从那些 informed by the user, recommended by the system, and implicitly agreed by the user的槽值跟踪的. 我们使用2个子规则来解决隐式共识:1、如果用户向系统传递了 informing action,这个 informed values 传递到下一轮对话状态中;2、如果系统向用户传递了informing/recommending action,当且仅当one item is included,这个 informed or recommended values传递到下一轮对话状态中,而多个items则被认为是无效的。

Enrich Dataset with Co-referencing

MultiWOZ包含大量的共指(co-reference)和省略( ellipsis). 如表3,在cross-domain dialogues中,co-reference频繁发生。 The lack of co-reference annotations导致了现有DST模型的低性能。过去已经有非常多的数据集和模型针对这个共指省略问题进行了研究,例如覆写utterances以覆盖co-referred and omitted 信息等。在MultiWOZ中,co-reference现象出现还是挺多的,表明了向数据集增加共指标注的重要性。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ebVjFKnK-1602985942593)(C:\Users\66820\AppData\Roaming\Typora\typora-user-images\image-20201017223609066.png)]

(1)共指标注的添加

在这里插入图片描述

图4给出了一个例子,如果当前turn-sample存在至少两个共指关系,我们把所有标注收集起来放在"corefernce"key下。

标注的添加规则:略。

【按:其实论文这里所说的共指关系,就是TRADE里提过的跨领域槽值共享。经统计,most common co-referencing relationship is from “Taxi-Dest/Depart” and “xxx-Area”, followed by “Day”, “Price”, “People” and “Arrive”,符合直觉。】

基准、实验结果、分析与总结

(1)NLU:BERTNLU

(2)DST:TRADE、SUMBT

这几节就省略了。。总之推荐用最新版本的MultiWOZ就是了,以及attract more alike research works to
improve the quality of MultiWOZ datasets further.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值