最新模型-SUMBT【slot-utterance matching belief tracker】

最新推荐文章于 2022-04-01 14:03:58 发布

CharpYu

最新推荐文章于 2022-04-01 14:03:58 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44385551/article/details/103673022

版权

深度学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

论文名称：SUMBT: Slot-Utterance Matching for Universal and Scalable Belief Tracking

Abstract

本文的模型叫做SUMBT，全称slot-utterance matching belief tracker，槽-话语匹配的对话状态跟踪器。

根据多领域DST简史的调研，SUMBT属于fixed-vocabulary based DST方法，这种方法说白了就是基于预定义的本体和候选槽值列表，寻找合适的value。那么SUMBT好在哪呢？

以往的方法，建模的跟踪器都是领域/槽位依赖的，所以欠缺领域本体设置的灵活性。

本文把这些以往的方法统称为slot-dependent methods。

而根据这篇论文的题目，可以看出这个模型自我标榜的就是Universal 和Scalable。

SUMBT模型的思想简单归纳为两点：

通过基于上下文语义向量(contextual semantic vectors)的注意力机制学习出现在话语中的domain-slot-types与slot-values之间的关系。
模型以一种非参数(non-parametric)的方式预测slot-value标签

好下面进入具体内容。

一些名词：

utterance：话语。包括用户话语与系统话语。

Introduction

fixed-vocabulary based DST方法的一个优化方向，就是解决Scalable(可扩展性)问题，即灵活地追加新domain、slot或value的问题。

传统的基于统计学的DST（statistical belief trackers），对lexical and morphological variations(词汇和词形变化)很脆弱，因为它们依赖与人手动构造的语义字典。

后来深度学习兴起，基于神经的DST（neural belief trackers）即NBT出现了，它们通过学习神经语义词表示大幅提高了性能。

但是，可扩展性调整依然没有被解决。以往的方法，要么对每一个domain/slot分别建模，要么难以集成本体中未定义的新value。

本文的模型标榜的就是Universal 和Scalable，所有domain和slot类型都靠一个跟踪器处理，从而实现了所谓的domain and slot-independent。

本文吸收了机器阅读理解方面的成果，把domain-slot type看做问题，把slot-value pair看做回答，从用户与系统的话语中寻找合适的回答（假定话语中存在）。

用户与系统的话语通过BERT编码，此处BERT提供了句子们的上下文语义表示(contextualized semantic representation of sentences)。

domain-slot type和把slot-values也通过BERT编码。

然后，SUMBT学习the way where to attend（啥意思？）。

模型基于一个特定指标以一种非参数方式预测slot-value label，这使得模型的结构是domain and slot-independent的。

最后，一个单一的SUMBT就能处理任何domain-slot type和把slot-values，并且使用了多领域多槽位之间共享的信息。

在这里插入图片描述

SUMBT

这一部分详细介绍本文DST的结构。

SUMBT的结构如图1。红字是一个对话例子，问题是restaurant-food，回答是modern European。 $U_t$ 、 $q^s$ 、 $y^v_t$ 是编码器输出向量，

由图1可看出SUMBT分成四个部分：

BERT encoders：灰色（BERT_sv_）和蓝色部分(BERT)，把所有该encode的东西（话语和本体）encode。
a slot-utterance matching network：红色方框，多头注意力机制
a belief tracker：黄色方框
a nonparametric discriminator：顶部虚线

Encoders

此处的编码器，学名Contextual Semantic Encoders，因为它们提供了句子们的上下文语义表示(contextualized semantic representation of sentences)，而不是简单的静态词向量。

考虑domain-slot-types s，轮次t下的slot-values $v_t$ ，输出向量分别是 $x^s$ 和 $x^v_t$ 编码输出成 $q^s$ 、 $y^v_t$ 。在训练中固定BERT_sv_的权重，以确保输出上下文向量的domain and slot-independence，从而能够对新领域scalable。