最新模型：COMER【Conditional Memory Relation Network】

最新推荐文章于 2023-11-03 14:07:38 发布

CharpYu

最新推荐文章于 2023-11-03 14:07:38 发布

阅读量877

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44385551/article/details/103672984

版权

深度学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

论文名称：Scalable and Accurate Dialogue State Tracking via Hierarchical Sequence Generation

Abstract

本文的模型叫做COMER，全称Conditional Memory Relation Network，条件记忆关系网络

COMER是继TRADE后的又一个种多领域open-vocabulary based DST方法，只不过TRADE是上半年的，COMER是下半年的。COMER关注了predifned ontology based DST的一个缺陷，即计算复杂度问题，需要跟踪的预定义slots数量多，计算越复杂，所以难以适应多领域问答(slots数量极多)。

本文研究如何抛开预定义本体，用生成式方法实现DST。主要的工作是用一个hierarchical encoder-decoder structure来生成状态序列，使得即使slots很多，计算复杂度也不会剧增。

听摘要也没什么感觉，啥是hierarchical encoder-decoder structure？怎么就计算复杂了？和TRADE是啥关系？带着这些疑问进入下文。

TRADE模型体现了encoder-decoder framework的潜力，但在计算上效率不高，因为它在每一turn为全部slots生成values。COMER模型通过使用hierarchical decoder，一定上解决了TRADE的上述缺陷。hierarchical decoder，层次堆叠的解码器，以分层的方法解码domains, slots, and values，把当前轮对话状态本身生成为target sequence。此外，它们第一次提出了ICT的概念，以衡量不同DST模型对话状态预测的efficiency。COMER同样在slot values子集上生成，但是没有利用上一轮的对话状态信息。

本文的挑战：看第2节Motivation

一些名词：

utterance：话语。包括用户话语与系统话语。system utterances + user utterances/responses = dialogue history 。

hierarchical structure：层级结构，文中指domian-slot-value的三元表示

共享知识=传递知识：增加可扩展性

解码=生成

Introduction

在Multiwoz等多领域问答数据集中，对话状态的表示由domian-slot-value的三级hierarchical structure来组成，这意味着本体的复杂。

然后就是例行地把predifned ontology based DST批判一番，这些老式的方法主要问题就是预定义本体的不可获取性，具体地比如candidate slot-value pairs并不是总能全部枚举的(在大型动态知识库上,见SpanPtr)。然后，研究人员针对这个问题打过一些补丁，比如建立一个定长的候选集(fixed-length candidate set)，让这个候选集在对话的发展过程中动态地更新（但是没有举例子，也许没啥用？）。

ITC

本文，为了衡量在相同本体复杂性下，DST模型的运行效率，我们提出了推断时间复杂度(inference time complexity,ITC)的概念，以衡量不同DST模型对话状态预测的效率。ITC指的是完成一次对话状态预测，需要inference多少次。显然ITC是越小越好。下图是各种模型的ITC复杂度对比。注意此处的slot指combined slot。
在这里插入图片描述

插句题外话，SOM-DST继承并改良了ITC的思想，把ITC分成了best case和worst case来考虑，因为SOM-DST的一个贡献就是研究在slots的一个子集上跑槽值预测这件事的，所以要论证它们如何降低“平均”的ITC。

COMER简要说明

我们的模型COMER是生成式DST，把DST任务建模为一个序列生成问题(sequence generation problem)，模型可扩展性和准确性都很好，且ITC更稳定。

具体地，我们模型：

以encoder-decoder网络为骨架，不过使用的是hierarchically stacked decoder，首先在对话状态中生成slot sequences，然后对每个slot生成相应的value sequences。
所有decoders共享参数，以在对话状态的hierarchical structure的深度上呈现更好的可扩展性。
应用BERT与BPE进行序列的encode，确保unseen words的词表示独一无二。用于序列生成任务的词向量通过BERT静态生成。

Motivation

belief state representing

众所周知多领域DST的用户目标通过domain-slot-value三元表示，有人通过层级嵌套的结构，先domain-slot再slot-value；有人采用把领域名称和槽位名称拼接成combined slot的方法，用combined slot-value pair表示状态，等于是省略了领域与槽位的从属关系。

在本文中，我们采用逐层排序再拼接的方法。具体地，考虑到slot value pairs是无序的集合，我们对其进行一番处理。先把sequence of domain按训练集中出现的频率进行排序，然后在一个domain里按slot出现的频率对slot value pairs排序。这样，我们把对话状态表示成这样的范式：(Domain1- Slot1, Value1;Slot2, Value2; … Domain2- Slot1, Value1; …)。这样的表示更加简洁。

single value assumption

single value assumption是过去的一种错误假设，指的是，在一个turn里，对话状态slot最多仅与一个value相映射。但是事实上这是一种过度简化。用户可能会说：
在这里插入图片描述
如果基于single value假设，系统就只能回答“我们这没有海鲜餐厅”，浪费用户的时间和精力。DST应该精确地捕捉到“先在DB中检索海鲜餐厅，然后再检索中餐厅”这一意图。这样，就要有输出值序列的思想，对话状态不是slot-value pair，而是slot-suquenceOfValues pair，这个很关键。既然如此，我们建立的DST模型就应该有能力生成structured sequences。

Hierarchical Sequence Generation for DST

以往的方法：multi-label state prediction

COMER：通过Seq2Seq把DST任务转换成序列生成问题

在这里插入图片描述

如图是Hierarchical Sequence Generation Network的一般结构。我们的解码器是特别定制的CMR decoder（下文简记为CMRD）。CMR=Conditional Memory Relation，条件记忆关系（就是COMER这个名字的来历）。白色是编码部分(system encoder, user encoder，belief encoder)，灰色的三个CMRD层级堆叠、参数共享，是解码部分。当前轮下encoders把用户话语、以往的系统动作、以往的对话状态编码进一个embedding space，复制三份送入三个CMRD，解码输出构成新的对话状态。

第一个CMRD用一个zero vector作为它的条件输入 $c$ ，输出领域序列 $D$ 和领域的隐藏表示 $H_D$ ;

第二个CMRD对 $D$ 中每个 $d$ ，利用对应的 $h_d$ 作为条件输入，生成它的槽位序列 $S_d$ 和槽位的隐藏表示 $H_{S,d}$ ，全部 $S_d$ 拼接成矩阵 $S$ ；

第三个CMRD对 $S$ 中每个 $s$ ，利用对应的 $h_{s,d}$ 作为条件输入，生成它的值序列 $V_{d,s}$ ，全部 $V_d$ 拼接成矩阵 $V$ ；

于是我们得到D、S、V，相当于一坨新的 $d,(s_d,V_{d,s}))$ pairs，更新对话状态，如是进行直到对话结束。

由于我们的槽值是生成出来的，所以只和具体的对话内容有关，而与预定义本体无关。

下面，依次说明我们的encoder与decoder。

Encoding Module

（1）考虑word的序列： $\left\{\omega_1,...,\omega_T\right\}$ ;

加入两个标志符变为： $\left\{[CLS],\omega_1,...,\omega_T,[SEP]\right\}$ ;

上述序列送入一个BERT模型得到上下文嵌入 $E_X$ (方式：BERT所有层的输出取平均);

（2）训练集中的每一个domain/slot，映射为一个静态嵌入(static embedding)，以便于generate a domain/slot as a whole instead of a token at each time step of domain/slot sequence decoding.(?)。我们同时构建一个静态词汇表 $E$ 。

（3）将用户话语(user utterance)、系统动作/话语(system action)以及上一轮对话状态(previous belief sate)的嵌入向量喂入Bi-LSTM：

$h_{a_t}=BiLSTM(E_{X_{a_t}}, h_{a_{t-1}})$

$h_{u_t}=BiLSTM(E_{X_{u_t}}, h_{u_{t-1}})$

$h_{b_t}=BiLSTM(E_{X_{b_t}}, h_{b_{t-1}})$

$h_{a_0}=h_{u_0}=h_{b_o}=c_0$

在这里插入图片描述

总结：Encoders的作用，一个是生成一个静态嵌入表，一个是将三种东西，以相同方式分别编码，生成三个contextual嵌入矩阵H。

CMRD

CMRD的思想受RDN(Residual Dense Network)， End-to-End Memory Networks 和Relation Networks这三种网络启发。

CMRD的功能可以用下面的公式概括：

$s,h_s = CMRD(e_x,c,H_B,H_a,H_u)$

输入：三种encoded信息来源 $H$ ，一个token的embedding $e_x$ ,一个条件 $c$ ；

输出：the next token $s$ 与hidden representation向量 $h_s$

三个 $H$ 体现了hierarchical memory，而 $c$ 体现了关系推理。

最后全部生成的 $s$ 和 $h_s$ 分别沿着sequence length dimension拼接成矩阵 $S$ ， $H_S$ ∈ $R^{l_s×d_m}$ 。 $l_s$ 是生成序列的长度， $d_m/2$ 是Bi-LSTM的hidden size。

此时回过头看COMER网络结构图会更加明了：下一个CMRD会用到上一个CMRD输出的隐藏表示作为它的 $c$ ，三个堆叠的CMRD生成的输出矩阵依次为domain D、slot S、value V，联合构成新的对话状态。

注意CMRD是支持额外的记忆的（通过残差链接和注意力block），但是这里我们仅展示三个信息源的情况，三个信息源分别是：

belief state representation ( $H_B$ ),
system transcript representation ( $H_a$ ),
user utterance representation ( $H_u$ )。

由于我们对所有decoder共享参数，所以CMRD事实上是一个关于状态生成与序列生成任务的二维自回归模型(2-dimensional auto-regressive model)。

CMRD的结构图如下所示：
在这里插入图片描述

decoder上一个时间步的输出 $s$ （例如food），重新装入LSTM以解码下一个时间步。

公式细节

第一步：对当前token的嵌入用LSTM编码成隐藏表示 $h_0$

回忆encoding中构建的固定的token嵌入词表 $E$ ∈ $R^{d_e×d_v}$ 。其中 $d_e$ 是embedding的长度， $d_{v}$ 是vocabulary的长度。

在时间步 $t$ ，CMRD用 $E$ 把token $x_t$ 嵌入成向量 $e_{x_t}$ ，再用一个LSTM编码(LSTM的隐藏状态为 $q_t$ )，输出hidden representation $h_0$ （初始的token $x_0$ 是[CLS]， $q_0$ 是三个encoders隐藏状态的平均）。

在这里插入图片描述

第二步：用注意力模块获取working memory $r_0$

$h_0$ 与 $c$ (逐元素)相加，按如下公式所示计算working memory for relation reasoning $r_0$ ：
在这里插入图片描述
$h_1$ ：（1）喂入注意力模块；（2）用于残差连接。最后所有的 $h_i$ 们拼接。

此处的注意力模块 $A t t n$ 的内容：以向量 $h$ 和矩阵 $H$ 为输入，输出一个向量 $h_a$ 。具体看原文：
在这里插入图片描述

注意：注意力模块的顺序是凭经验决定的。现实中人们倾向于先记忆最近的信息，再记忆老信息，这种内在的记忆处理顺序启发我们设计了system-user-belief_state的注意力模块顺序。

所有参数在注意力模块间共享。

第三步：用多层感知机获取下一个token的隐藏表示 $h_k$

将上一步得到的working memory $r_0$ 喂入一个四层的多层感知机(MLP)：

在这里插入图片描述

MLP的层数是根据grid search(网格搜索)确定的。输出下一个token的隐藏表示 $h_k$ 。

第四步：生成下一个token $s$

将上一步得到的 $h_k$ 喂入一个dropout 层，然后作为一个表示向量从decoder发出，并喂入一个线性层来生成下一个token：

在这里插入图片描述

由于embedding size $d_e$ 是与vocabulary size独立的，所以我们的CMRD可以在动态的词表上做预测，并且内在支持unseen words的生成。 $p_s$ 是输出概率，取概率最大的作为下一个token。

在训练过程中，目标函数就是 $p_s$ 与所给labels的交叉熵。

总结：

domain-slot-value是三元，所以我们的decoder也有三个。decoder部分的公式有些多，但是目标函数很简单。

Experiments

我们基于单领域数据集Woz和多领域数据集MultiWOZ进行实验。

Metrics

我们提出了一个理论上可以衡量可扩展性的指标 $K$ ：推理时间倍数(Inference Time Multiplier, ITM)，指当一个模型从Woz(记为 $d_1$ )上换到MultiWOZ(记为 $d_2$ )上时，速度将慢多少倍。

在这里插入图片描述

看原文的描述，就是ITC的量化，复杂度随着槽位、槽值数量的增长而增长的程度。

此外我们还用了时髦的多领域DST指标：联合准确率，表示对话状态完全预测成功的概率，具体地，就是模型预测的belief dictionary与labels完全匹配的概率。

我们还做了一个简单的后处理(post-processing)，在生成的domain-slot-value三元组中，把那些含有空值的都移除了。

Details

Encoding中编码模型为 $BERT_{large}$ ；

所有的LSTMs都是两层，最后一层的输出作为隐藏表示；

激活函数$\sigma $都用ReLU；

模型的超参数：

dropout rate $p$ ：0.5
model size $d_m$ ：512
embedding size $d_e$ ：1024

对于WoZ 2.0，batch size=32，epochs=150，ADAM优化器；

对于MultiWOZ，batch size=16，epochs=15，AMSGrad优化器。

学习率=0.0005，gradien clip=2.0

用Kaiming初始化权重，用零值初始化偏置；

GPU：NVIDIA GTX 1080Ti

Results

ITM：

我们评估了最好表现模型在woz和MultiWOZ上的验证集上的运行时间；

验证中，我们设置batch size=1，以避免数据并行性和序列填充（data parallelism and sequence padding）的影响。

运行5次取平均。

结果在woz上运行65.6秒，在MultiWOZ上运行853.2秒。

考虑到MultiWOZ的验证集比woz的验证集大5倍。

所以真实ITM=853.2/65.6/5 =2.54，与理论ITM(2.15)大致相等，说明我们的模型确实有O(1)的ITC，对预定义本体槽值数量有充分的可扩展性。

联合准确率：

在这里插入图片描述

当然SOTA，不过看起来比起TRADE也就零点一二个点？卖点主要在ITC？

Ablation Study

我们的CMRD结构是提升性能的关键。

（1）WoZ 2.0
在这里插入图片描述

在移除残差连接、注意力模块的层级堆叠之后，联合准确率下降，这证明我们的层级注意力设计的有效的。

在移除MLP后联合准确率也下降了，这是因为可训练参数减少了，不过这也能说明，MLP中堆叠更多的层，有利于关系推理。

（2）MultiWOZ

考虑对domain,slot,value层层递进地衡量准确率。分别定义联合领域准确率（joint domain accuracy，简记为JD ACC.）、联合域-槽准确率（joint domain-slot accuracy，简记为JDS ACC.）和联合目标准确率（joint goal accuracy，简记为JG ACC.）。JD ACC.表示所有领域预测正确的概率，JDS ACC.表示所有领域及槽位预测正确的概率，JG ACC表示所有领域、槽位及值预测正确的概率
那么，给定正确领域，slots被正确预测的概率就是 $\dfrac {JDS\ ACC.}{JD\ ACC.}$

同理，给定正确(领域和)槽位，values被正确预测的概率就是 $\dfrac {JG\ ACC.}{JDS\ ACC.}$
上述指标可以用于衡量DST模型domain prediction、slot prediction和value prediction的能力。

结果如下：
在这里插入图片描述

分析：

我们的COMER模型的domain prediction(95.52%)和value prediction(87.42%)都非常优秀了，但是slot prediction(58.43)不尽人意。我们猜测这是因为我们仅仅利用了上一个对话状态来代表对话历史，上下文信息受限，损害了slot prediction的跨轮次推理(inter-turn reasoning)能力，所以，准确率的受损应归因于TRADE中提到的多轮映射问题(multi-turn mapping problem)。

此外，我们看到当把三元组表示从嵌套结构换成拼接结构之后，JDS Acc.下降了5.48%，这是因为我们的层级序列生成拥有捕捉到domain与slot的从属关系的能力，但是这种关系在拼接结构中消失了。

Qualitative Analysis

在这里插入图片描述
上图是我们模型在MultiWOZ测试集上的一个预测例子。左侧是对话过程，右侧是CMRD中对话状态、系统话语和用户话语的可视化。每一行对应train领域下某个特定槽位的生成步骤的注意力分数。

上图：系统注意力。由于是第一个注意力模块，尚未拥有任何上下文信息。

中图：用户注意力。

下图：状态注意力。

Related Work

（1）TRADE:

TRADE为value序列生成应用copy机制，取得了MultiWOZ上的优秀性能。

TRADE是将以domain和slot的combine结构作为输入，所以ITC是 O(n).

TRADE达到的性能提升，主要归因于copy机制，它能在name slot上提高准确率，这种槽位依赖于从话语中拷贝。

（2）DSTreader：

DSTreader对每个combined slot寻找answer span，所以ITC是O(n).

这个方法的痛点是生成词表局限于对话历史中出现的词，而且需要用另一个联合状态跟踪模块手工合并策略来达到更好效果。

（3）Contextualized Word Embedding (CWE)：上下文词嵌入

CharpYu

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
最新模型：COMER【Conditional Memory Relation Network】

论文名称：Scalable and Accurate Dialogue State Tracking via Hierarchical Sequence GenerationAbstract本文的模型叫做COMER，全称Conditional Memory Relation Network，条件记忆关系网络COMER是继TRADE后的又一个种多领域open-vocabulary based ...
复制链接

扫一扫