论文分享《一个大型的中文跨域任务导向对话数据集》

文章介绍了一种名为crossWOZ的大规模中文多领域任务导向对话数据集,包含6K个对话,102K句,涉及景点、餐厅等5领域,强调了对话复杂性和多领域选择的影响。数据集标注全面,可用于NLU、DST等任务研究,展示了跨领域约束的挑战性。
摘要由CSDN通过智能技术生成

文章中针对中文多域对话任务数据集短缺的问题,提出了一个大型的中文跨域任务导向对话的数据集crossWOZ

5个大领域:分别为景点,餐厅,酒店,地铁,出租车 

相比较于之前的中文对话数据集,crossWOZ有以下几个特点:

1.在对话中,用户在某个领域的选择可能会影响到与之相关的领域的选择。

2.这是第一个中文大规模多领域任务导向对话数据集,包含6K个对话,102K个句子,涉及5个领域,平均每个对话涉及3.2个领域,远超过之前的多领域对话数据集,增添了对话管理的难度。

3.标注信息全面,可用于研究任务导向对话系统中的各个方面。

这篇文章主要介绍了对话信息收集的过程,并对语料库进行了详细的数据分析,统计数据表明,我们的跨领域对话是复杂的。

根据对话代理是人还是机器,可以将现有的面向任务的对话数据集的收集方法分为以下三类,第一类就是人与人之间的对话;第二类是人与机器的对话,这就需要一个对话系统来与人类进行对话,还有就是机器对机器

数据的收集过程

收集数据时模拟的对话场景是一名游客向系统咨询北京的旅游信息,分为以下几个步骤:

1领域数据库构建:网络爬取

2.用户目标生成:通过随机采样的方式生成各领域的目标

3.对话数据收集:雇佣人员在线匹配进行实时对话

4.数据处理:使用一些规则根据用户和系统的状态推到出对话意图

数据统计

将对话分为5中类型,单领域S,多领域M,多领域加交通M+T,跨领域CM,跨领域加交通CM+T。交通代表了地铁和出租领域,M和CM的区别是有没有跨领域的约束。

基线模型

由于丰富的标注信息,CrossWOZ数据集可用于多种任务的研究。在该论文中提供了NLU、DST、Policy、NLG的基线模型。实验说明跨领域的约束对于各个任务都有挑战性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值