论文分享《一个大型的中文跨域任务导向对话数据集》

最新推荐文章于 2024-08-28 00:08:28 发布

W_Yeee

最新推荐文章于 2024-08-28 00:08:28 发布

阅读量205

点赞数

文章标签：深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48592695/article/details/125970945

版权

文章介绍了一种名为crossWOZ的大规模中文多领域任务导向对话数据集，包含6K个对话，102K句，涉及景点、餐厅等5领域，强调了对话复杂性和多领域选择的影响。数据集标注全面，可用于NLU、DST等任务研究，展示了跨领域约束的挑战性。

摘要由CSDN通过智能技术生成

文章中针对中文多域对话任务数据集短缺的问题，提出了一个大型的中文跨域任务导向对话的数据集crossWOZ

5个大领域：分别为景点，餐厅，酒店，地铁，出租车

相比较于之前的中文对话数据集，crossWOZ有以下几个特点：

1.在对话中，用户在某个领域的选择可能会影响到与之相关的领域的选择。

2.这是第一个中文大规模多领域任务导向对话数据集，包含6K个对话，102K个句子，涉及5个领域，平均每个对话涉及3.2个领域，远超过之前的多领域对话数据集，增添了对话管理的难度。

3.标注信息全面，可用于研究任务导向对话系统中的各个方面。

这篇文章主要介绍了对话信息收集的过程，并对语料库进行了详细的数据分析，统计数据表明，我们的跨领域对话是复杂的。

根据对话代理是人还是机器，可以将现有的面向任务的对话数据集的收集方法分为以下三类，第一类就是人与人之间的对话；第二类是人与机器的对话，这就需要一个对话系统来与人类进行对话，还有就是机器对机器

数据的收集过程

收集数据时模拟的对话场景是一名游客向系统咨询北京的旅游信息，分为以下几个步骤：

1领域数据库构建：网络爬取

2.用户目标生成：通过随机采样的方式生成各领域的目标

3.对话数据收集：雇佣人员在线匹配进行实时对话

4.数据处理：使用一些规则根据用户和系统的状态推到出对话意图

数据统计

将对话分为5中类型，单领域S，多领域M，多领域加交通M+T，跨领域CM，跨领域加交通CM+T。交通代表了地铁和出租领域，M和CM的区别是有没有跨领域的约束。

基线模型

由于丰富的标注信息，CrossWOZ数据集可用于多种任务的研究。在该论文中提供了NLU、DST、Policy、NLG的基线模型。实验说明跨领域的约束对于各个任务都有挑战性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。