论文分享 | 科大讯飞研究院获颁ACL 2022人机交互研讨会最佳论文

最新推荐文章于 2023-05-22 12:15:55 发布

语音之家

最新推荐文章于 2023-05-22 12:15:55 发布

阅读量499

点赞数 2

文章标签：语音识别人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s/_zaiU8hZ02nm7VAUi9YeJQ

版权

由国际计算语言学学会主办的ACL（Annual Meeting of the Association for Computational Linguistics）国际会议，是全世界规模最大、最全面的计算语言学及其应用方面的顶级会议，在自然语言处理领域享有国际性的学术影响力。

本年度ACL 2022会议上举办的第二届基于文档对话和对话式问答研讨会（DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering）是对话系统领域的知名前沿课题研讨会，吸引了来自卡内基梅隆大学、华盛顿大学、哥伦比亚大学等国内外研究机构，以及谷歌、微软、亚马逊等国内外公司的学者们的深度参与，共同探讨包括基于文档的对话系统、对话式问答等一系列人机交互领域前沿技术课题。

科大讯飞研究院和中国科学技术大学等相关团队面向对话的层级化语言模型工作，获得本次研讨会最佳论文奖。

标题：

Conversation- and Tree-Structure Losses for Dialogue Disentanglement

作者：

Tianda Li, Jia-Chen Gu, Zhen-Hua Ling, Quan Liu

背景介绍

人机交互领域的对话解纠缠（Dialogue Disentanglement）任务，其目的是能够在多人对话场景下，将一个完整且复杂的对话从数据流中分离为多条基于相似主题的线程，以便每条单独的线程都与特定主题有关。

在对话场景中，如下面的例子，不同颜色标记的对话纠缠在一起，而对话解纠缠旨在通过对话分隔聊天流，帮助更好的理解多方复杂对话。

目前，大多数现有方法采用一种两阶段的方法框架。

在第一阶段中，通过模型来确定两条消息之间的匹配关系。在第二阶段中，采用聚类算法将这些消息分配至不同的会话簇中。这种方法的主要缺点是给定了整个对话的每条消息的父节点关系，而该信息仅在训练阶段可用。

为了解决推理阶段缺少每条消息的父节点关系的问题，存在一些改进工作，例如根据消息对之间的预测关系来构造用于表示父节点关系的伪标签。然而当模型无法在相关数据集上实现较优的预测性能时，这种构造伪标签的方式无法引入可靠的对话结构信息。

创新方法

在这项工作中，我们提出了一种面向对话的层级化语言模型，即DialBERT。

模型结构

首先，在消息对层级，DialBERT采用了当前在很多自然语言理解任务中取得较优性能的BERT模型，用来捕获每个消息对中的匹配信息。

紧接着，在上下文层级，DialBERT采用了BiLSTM来进一步整理和融合对话历史中的上下文信息。

进一步，通过建模对话历史消息和目标消息之间的高阶推理信息，得到两者之间的交互矩阵。

最后计算每个消息对的匹配分数来衡量每个消息对的语义相似度，通过分类器将对话历史中取得最大匹配分数的候选上下文消息作为当前目标消息的父节点消息，并将这两条消息分配至同一个会话簇中。

学习目标

为了鼓励模型根据对话上下文的一致性找到目标消息的父节点消息，我们旨在模型的训练过程中充分利用对话结构来帮助DialBERT进行学习并做出决策。除了交叉熵损失之外，模型在学习过程中还引入了对话结构损失（conversation-structure loss）和树结构损失（tree-structure loss）。

具体地，对话结构损失的目的是鼓励模型从同一对话的消息中选择目标消息的父节点消息。为了进一步利用对话结构，我们提出了树结构损失。直观地说，在对话结构中，目标消息的父节点消息与目标消息最相关，因为目标消息可以被视为对其父节点消息的回复，或作为父节点消息中讨论主题的扩展。所以树结构损失的目的是帮助模型进一步缩小候选范围，鼓励模型从同一对话的所有父节点消息中选择目标消息的父节点消息。

通过这种学习方式，DialBERT可以隐式地学习和利用对话结构，并且不会在推理阶段因缺乏对话结构信息而受到影响。直观地说，对话结构损失和树结构损失都可以鼓励模型选择最相关的消息作为父节点消息。

相比现有方法，本工作对先前研究中都未能充分利用的会话结构信息进行建模，使得尽管不同的对话纠缠在一起，仍能尽量保持每个主题线程本身的语义连贯性和衔接性。

DialBERT模型整体结构图

实验结果

我们在 Ubuntu和Reddit两个大型数据集上评估我们的方法。

前者是基于Ubuntu系统论坛中的回复关系进行标注的数据集，训练集/验证集/测试集中分别包含3,825/250/280个完整对话，以及67,463/2,500/5,000条消息。后者是基于Reddit主题论坛中的回复关系进行标注的数据集，训练集/验证集/测试集中分别包含20,178/2,098/4,133个完整对话，以及468,679/37,300/72,933条消息。