文章中针对中文多域对话任务数据集短缺的问题,提出了一个大型的中文跨域任务导向对话的数据集crossWOZ
5个大领域:分别为景点,餐厅,酒店,地铁,出租车
相比较于之前的中文对话数据集,crossWOZ有以下几个特点:
1.在对话中,用户在某个领域的选择可能会影响到与之相关的领域的选择。
2.这是第一个中文大规模多领域任务导向对话数据集,包含6K个对话,102K个句子,涉及5个领域,平均每个对话涉及3.2个领域,远超过之前的多领域对话数据集,增添了对话管理的难度。
3.标注信息全面,可用于研究任务导向对话系统中的各个方面。
这篇文章主要介绍了对话信息收集的过程,并对语料库进行了详细的数据分析,统计数据表明,我们的跨领域对话是复杂的。
根据对话代理是人还是机器,可以将现有的面向任务的对话数据集的收集方法分为以下三类,第一类就是人与人之间的对话;第二类是人与机器的对话,这就需要一个对话系统来与人类进行对话,还有就是机器对机器
数据的收集过程
收集数据时模拟的对话场景是一名游客向系统咨询北京的旅游信息,分为以下几个步骤:
1领域数据库构建:网络爬取
2.用户目标生成:通过随机采样的方式生成各领域的目标
3.对话数据收集:雇佣人员在线匹配进行实时对话
4.数据处理:使用一些规则根据用户和系统的状态推到出对话意图
数据统计
将对话分为5中类型,单领域S,多领域M,多领域加交通M+T,跨领域CM,跨领域加交通CM+T。交通代表了地铁和出租领域,M和CM的区别是有没有跨领域的约束。
基线模型
由于丰富的标注信息,CrossWOZ数据集可用于多种任务的研究。在该论文中提供了NLU、DST、Policy、NLG的基线模型。实验说明跨领域的约束对于各个任务都有挑战性。