MultiWOZ 2.4最新版本:通过改良标注提升DST

伦敦大学的研究者针对MultiWOZ2.1版本的大量标注噪声,提出改进策略,修正测试验证集,保留训练集噪声,以促进鲁棒模型训练。他们识别并纠正了10种标注错误类型,如复数值和时间处理值,通过细致的标注流程提升了数据质量。研究还评估了8种模型在新旧数据集上的性能,聚焦于改善模型评估的正确性和公平性。
摘要由CSDN通过智能技术生成

标题:《MultiWOZ 2.4: A Multi-Domain Task-Oriented Dialogue Dataset with Essential Annotation Corrections to Improve State Tracking Evaluation》

作者:伦敦大学
时间:2021年4月
中文:《MultiWOZ2.4版本,通过改良标注提升DST》

内容:作者关注2.1版本的标注中噪声非常多导致各种DST模型在测试集上joint accuracy总是卡在55%以下的问题,决心花大力气对数据集进行纠正。具体地,作者以2.1版本的测试、验证集为底做了refine的新版本。训练集部分的标注保持不动以鼓励鲁棒的、 noise-resilient的模型训练。作者详细复盘了他们修正标签的过程,讲了一些有意思的想法。最后使用若干个baselines模型在新老测试集/验证集上进行了评测。

【按:我很早就梦想把MultiWOZ数据集里的脏标签清洗干净,这回终于有人替我把这活干了】
【按:文章中大部分描述是老生常谈不太重要的,本note就略过了,只记录作者新的提法。】

1 Introduction

作者的主要目的: improve the correctness and fairness of model evaluation
所以作者只修正测试验证部分,训练集部分的标注保持不动。毕竟,一个noisy的训练集对于训练鲁棒的、 noise-resilient的模型还是有它的价值的,也就是所谓noisy label learning问题。

2 Annotation Refinement

指导思想: it is impractical to ensure that the state annotations obtained via a crowdsourcing process are consistent and noise-free。

Annotation Error Types

作者识别了10种标注错误/标注不一致(inconsistent annotations)。分别是:
错误value;缺失value;多余value;复数value(multiple-values);别称value(Typo);时间处理型value;正确value错误slot(Slot mismatch);不完备value;延迟value;可有可无value(私以为只有这个是核心)。
错误种类及对应例子如图1:
在这里插入图片描述

这里我讲一下我的理解:
1、前3种错误不必赘述,就是单纯的标注人员搞错了。后面几种错误则涉及填槽规则不统一的问题,等于是annotationors必须在开始标数据前划定一个基准。
2、复数value很有意思,展开来讲可以细分为“and”逻辑关系与“or”逻辑关系,MultiWOZ里用竖线(|)来表达or关系。
3、别称value、不完备value、正确value错误slot:这仨其实就算法设计而言不是个大问题,可以靠统一标注规则来解决。
4、时间处理型value,图1给的例子是把“十点钟之后“这个用户inform的信息如何填槽的问题。转化为“10:00”就是直接copy输入;转化为"10:15"则是系统做一个加减15分钟的时间处理。
5、延迟value:其实,我私以为这不是一个大问题,就是单纯的标注人员搞错了
6、可有可无value:核心错误。这指的是value在对话话语文本中显式出现,但是在需不需要填槽上存在争议的情况。as different annotators have different opinions on whether to annotate these slots or not。这些values一般都是系统所inform的,例如respond to previous user requests或provide supplementary information。这些value对更新query constraints没有任何帮助,所以我们把它们都删掉了。只有一个是意外,那就是name-related slots,毕竟它和锁定目标实体有关,这样的slot是需要标注的。

Annotation Refinement Procedure:

1、参考carryover的思想,关注每一个turn中的turn-active slots,即直接由当前回合的对话文本决定,不继承自previous turns的slots。作者统计发现这种slots的数量是平均每轮1.16、1.18个。
2、value normalization:(1)对于name-related slot values,因为会有各种别名或变体,作者选取了整个dataset里频率最高的那个作为official name(正名),然后把全部变体都标准化为正名。(2)对于time-related slot values,全部更新成24:00 format。
【按:然后作者发现value-change ratio最高的就是name-related slot。。。】

3 Benchmark Evaluation

作者选取了8种模型来做评测
【按:这才半年呀,最前沿的模型我就都不认识了。。。幸喜SOM-DST依然是SOTA,呵呵。。】
在这里插入图片描述

遗留问题:

1、需要把STAR、SAVN、PIN看一看
《Parallel interactive networks for multidomain dialogue state generation.》
《Slot selfattentive dialogue state tracking》
《Slot attention with value normalization for multi-domain dialogue state tracking》
2、noisy label learning问题的相关论文
《A survey of label-noise representation learning: Past, present and future》 2020
《Learning from noisy labels with deep neural networks: A survey.》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>