任务导向型对话

最新推荐文章于 2024-07-14 10:30:00 发布

weixin_44179676

最新推荐文章于 2024-07-14 10:30:00 发布

阅读量1.1k

点赞数

分类专栏：任务导向型对话任务型对话文章标签：自然语言处理 pytorch

本文链接：https://blog.csdn.net/weixin_44179676/article/details/106068326

版权

任务导向型对话同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

任务型对话

1 篇文章 0 订阅

订阅专栏

由于之前一直在关注闲聊型对话，对任务型不是很了解，突然看到了一个非常不错的文章，在这里记录一下，同时附上此神仙的链接https://zhuanlan.zhihu.com/p/83825070

任务型对话

1.对话动作

用户通过按钮或自然语言的方式发出了类似的指令，比如”帮我找下附近的椰子鸡“，那么用户发出的这个蕴含在自然语言中的命令就称为用户动作user action。显然用户动作就可以看作是用户输入的语义表示。因此，将用户动作从用户的自然语言文本甚至语音信号中解析出来的过程就称为自然语音理解（NLU）或口语理解（SLU）。

那么这里的对话动作在计算机中怎么表示呢？一种简单的想法就是把每个action表示成全局唯一的id。然而action与action之间经常存在很深的耦合关系，比如”预定附近的椰子鸡“与”预定椰子鸡“之间是上下位关系，”预定西二旗附近的椰子鸡“与”预定西三旗附近的椰子鸡“有一个共同的”父action“——预定椰子鸡，显然将所有的action打平成平级的表示肯定是不合理的，但是要完全建模也非常不容易，因此一种折中的方式就是表示成“意图+槽位”，即使用意图来表示一个模糊的目标，使用该意图预定义的一系列槽位来限制这个模糊目标，使得目标具体化。

例如，预定西二旗附近的椰子鸡就可以表示成
{
意图: 订餐
槽位: {
地点: 西二旗,
餐厅名: 椰子鸡
}
}
“订餐”就是预定义的一堆意图中的一个，这个意图下预定义了一堆槽位及其可能的取值，其中“地点”和“餐厅名”就是预定义的槽位之二，当然啦，很可能还预定义了其他槽位，比如“就餐人数”，“菜系”，“联系方式”等，只不过在这个case中的取值统统都是None了。

而完成这个自然语言输入到用户动作这种结构化语义表示（frame）的过程就称为自然语言理解（NLU）。当然啦，实际产品中的意图和槽位设计可能要复杂的多，比如有的槽位是不可枚举的（比如时间），槽位有冲突，甚至槽位内要嵌套槽位等，这些就要具体情况具体分析了，有兴趣进一步了解的小伙伴可以看一个PM写的这篇文章[13]。

2.理解用户输入

理论上用户的一句话可以包含多个意图，比如“我想一会儿去食宝街吃好吃的然后去看电影”，然而实际现在的人工智障发展水平来说，还是很难有闲情逸致处理这种情况的╮(￣▽￣"")╭所以就默认大部分用户还是脑回路比较直白的，一句话最多包含一个意图，因此NLU任务中的意图识别其实可以简单的看作一个文本分类任务。

当对话系统cover的领域很多时，可能意图会多达成百上千，这时候意图识别模型的决策空间变得过大，且各个意图共享同一个模型，每增加一个新意图就要重训模型，导致其他意图也受影响了。不仅导致意图识别模型难训，而且会导致系统变得难以维护。因此一种更好的办法是在意图识别之前再加一级领域分类（domain classification）。

显然意图往往是繁多而且极其不均衡的（在百度地图的小度助手，用户唤醒它导航的意图要远远多于让它播放音乐），而且对于大部分意图来说，也很难从互联网上找到现成的标注语料。因此意图识别虽然是个分类问题，但是同时也是一个小样本学习问题。因此近年来也有不少focus意图识别的小样本学习的工作[38,39]。

虽然对于一个对话session，用户的意图往往只有一个，但是如前所述，一个意图中往往包含很多个槽位。因此可以很自然的将槽位解析任务建模为序列标注任务[14, 15]或者干脆简化为文本多标签分类任务（一个slot-value pair是一个类别）。

而意图识别跟槽位解析任务又明显息息相关的，甚至说高度互相依赖的，因此这两个任务joint training再自然不过了。事实上这个想法在2013年就已经被实践过了，并且确实work[14]。上图。
在这里插入图片描述
当时deep learning刚兴起不久，大家对深度学习的认知普遍还是CNN、RNN甚至RBM、DBN之类的，所以这里没有太复杂的网络结构，也没有什么深度可言，这里仅使用一层卷积来encoding文本，得到文本中每个词位的编码了局部上下文信息的特征向量（卷积得到的特征图），而后便可以接CRF来进行序列标注从而得到每个位置的槽位信息（没有槽位信息的词位就标为O，有槽位信息的就标上相应的槽位tag）而后接全局池化来得到整个句子的特征向量。当然这篇论文还使用了Tri-CRF作为槽位解析的输出层，来进一步增强槽位和意图之间的交互。

之后由于LSTM的流行和attention的兴起，joint training的backbone自然也要升级换代了，有兴趣的小伙伴看这篇paper[15]。

如今的意图识别与槽位解析的SOTA方法应该就是百度对话团队的DGU[9]了，基于ERNIE2.0+处理多轮对话的精巧tricks刷爆了绝大多数对话任务，包括前面提到的对话匹配问题和后面将要讲的DST和DP问题。

3.记录对话状态

显然我们要完成帮用户订餐这个目标的话，很难通过一轮对话就把所有的必选槽位填满（想象一下用户一句话填满所有槽位的场景：“我想预定本周二晚上6点的北京市海淀区中关村大街上的椰子鸡的4人桌并且预订人的名字是小多以及我的联系电话是10086”。

因此为了摸清楚用户的具体意图（把该填的槽填上，该解决的取值冲突解决掉），往往要像上一章末尾那样有个小本本来记下对话的关键信息，以供上一节提到的对话策略模块使用，帮助进行每一轮的决策。这里的这个小本本就称为对话状态（dialogue state），完成这个小本本更新的过程就称为对话状态追踪（dialogue state tracking，DST，也叫belief tracking）。

这里的关键信息主要就是意图和对应的槽位取值，当然啦，如果你的对话策略模块还要依赖更多从稀奇古怪的地方搜集到的当前时刻的状态（比如监测到了用户位置），你也可以丢进DST模块进行追踪。总之，DST是个小本本，负责记录整个对话全过程积累下来的重要信息。

那么这个对话状态该怎么描述呢？显然最容易想到的就是前面”理解用户输入“小节中提到的用这种frame的方式来描述。而这种结构化的表示并不是在对话记录中显式存在的，很难通过大规模数据驱动的方法来学习记录对话状态的DST模型。

3.1 规则方法

不过，既然我们已经有了NLU模块，那么很容易想到一种策略就是直接把NLU的输出结果（意图、槽位的概率分布）离散化一下（比如直接取概率最高的意图、槽值作为本轮的用户动作），然后更新到DST模块里面（本轮的解析结果有新的意图或新的槽位取值的话）。这种简单的基于规则的方法很适合用来进行DST的冷启动。

显而易见的是，这种直接离散化最高概率的规则方法实现的DST会高度依赖NLU的准确性，而且简单的规则只能处理简单的情况，在进行DST更新时完全忽略了已经积累的对话状态，显然这种过于简单粗暴的假设无法建模复杂的状态转移关系。虽然也出现了一些更加复杂的规则方法[16]，但是规则系统都非常难以应对输入中的噪声，而无论是语音识别（ASR）系统还是语义理解NLU模块，都非常容易被不规范的输入攻陷，两者级联后噪声更是被进一步放大。因此使用统计方法来建模ASR和NLU输出的不确定性是非常有必要的。

3.2 统计方法

虽然人工造DST数据集代价昂贵，但是总有舍得花钱的

假如历经千辛万苦，DST数据集造好了，那么一系列有监督学习的操作就可以进行了。比如传统的定义特征然后+最大熵/SVM等分类器。再比如Willaim等人将DST问题建模为有监督的序列标注问题[10]，让模型根据NLU若干轮输出的slot-value概率分布来预测当前轮的真实slot-value。

但是这样明显有一个问题。显然DST学习到的函数映射是基于SLU输出的概率分布的，因此一旦我们为了各种花式的借口更新了NLU（比如一个攻城狮说NLU的准确率上升了0.1个点，墙裂要求更新NLU！），那么就会导致DST所熟悉的输入分布发生巨大改变，导致性能大打折扣（相当于你买了一台中英翻译机，但是突然有一天你开始跟它说法语，那翻译机当然就不干了）。

因此很自然的想法是让NLU和DST从pipeline结构变成端到端结构，即让用户自然语言输入直接连接到对话状态上，因此就可以将DST问题建模成“多轮分类”问题啦。

DGU解决DST问题也是根据这种多轮分类的思路来做的，将问题建模成多轮分类问题，然后直接刷爆相关benchmark。总之只要能把DST问题建模成有监督学习问题，一切都好说，后续各种花式无脑炼丹的工作就不展开讲了。

当然了，后续也有工作摆脱了将DST建模成有监督学习的做法，快来往下看～～

4.多轮决策完成对话目标

接下来，系统可以根据当前轮NLU模块解析出来的用户动作和小本本（积累的对话状态）来完成相应的“推理”（完成这个过程的模块被称为对话策略模块，Dialogue Policy，DP），决定下一步是去澄清意图，say goodbye还是其他什么动作，并且后续NLG模块（自然语言生成）也会根据DP模块输出的对话决策（系统动作）来决定回复内容（即结构->文本）。

要完成对话目标，有监督学习对话策略是不靠谱的，所以对话策略的学习离不开RL。先来简单介绍下RL吧，已经对RL很熟悉的小伙伴可快速跳过。

RL模型是建立在马尔科夫决策过程（MDP）之上的，MDP可以表示成一个五元组（S，A，P，γ，R），这里S是状态（state，比如我们这里的对话状态），A是动作（actions，比如我们这里的对话动作），P定义的是状态转移概率，R是reward，γ是个先忽略的因子。而强化学习的目标就是让策略模型找到最优的策略π，使得累积的奖励最大化。而MDP是假设系统状态S是完全可观测的，因此显然任务型对话不能直接建模成MDP问题，因为DST无论再怎么做都不可能做到100%的准确率，无法为我们的DP模块提供完全观测的对话状态。

那怎么办呢？不要急，虽然任务型对话无法满足马尔可夫性，但是至少我们能够通过DST观测到系统状态的概率分布，也就是模糊的看到了系统的状态（模模糊糊看到的不一定准确，但是总是可以一定程度上反映真实状态的），这时就叫做部分观测。因此我们可以将对话策略的学习问题转化为POMDP问题。

事实上，在很早很早以前便有人提出基于POMDP建模对话策略的学习[21]。如图
在这里插入图片描述
这里的Dialogue Model就是DST模块，与对话策略模块（这里的Policy Model）一起称为Dialogue Manager（对话管理模块），即负责记录对话状态并作出对话决策。

这里假设NLU和NLG模块是现成可用的，并且我们定义了一个合理的reward function（比如成功完成用户订餐目标；用户情感极性为正向等）来表示我们所期望达到的对话目标，那么我们就可以通过planning under uncertainty, value iteration, Monte Carlo opti- mization, least squares policy iteration (LSPI), natural actor–critic乃至Q-learning等方式进行学习了。

显然这种交互式学习的方法依赖于与真实用户的大量交互，非常非常的costly。因此就有了用户模拟器的概念，反正对话系统与用户模拟器都不会累，就让他俩一直在那里嗨吧╮(╯▽╰)╭对用户模拟器这个小方向感兴趣的小伙伴可以看阿里小蜜团队写的这篇用户模拟器的科普[30]，这里同样不展开讲啦。
然而都已经0202年了，我们怎么能还满足于这么古老的方法呢！看到Q-learning，当然就要想到2015年的DQN（Deep Q Networks）。对话的状态空间可是不小的，直接用原始的Q-learning想想也知道很捉急，不过升级到Q-learning就能把问题解决了吗？对Q-learning和DQN还不了解的小伙伴可以看今天订阅号推送的另一篇文章《扫盲贴：从Q-learning到DQN》

虽然2015年时DQN在Atari游戏上的表现惊艳了我们这些吃瓜群众，单纯的Q-learning要维护一张Q表，使得状态数不能太大，因此就有了DQN来极大的解放了生产力（神经网络来代替Q表）。不过要知道对于Atari游戏来说，每个时刻的状态也是可以完全观测的（原论文用4帧画面描述状态，可以充分表征小球所在位置、速度、角度等信息了）。但是我们前面说了，每一轮的对话状态只能部分观测，显然直接上DQN建模对话也是有明显有问题的。

于是就有了很多对DQN进行魔改的工作，一些可以比较好的适配任务型对话场景。其中一个很重要的变体就是DRQN[40]，使用RNN来代替DQN中的全连接层，使得网络可以通过RNN模糊的表示历史信息，不再需要完全观测的状态了，也就是说，可以处理POMDP问题了。

除此之外，我们再来考虑一个问题。虽然如上一节所说，DST可以通过有监督学习的方式来解决。但是，为训练DST而标注数据是代价高昂的，那么能不能将DST也用DRQN一起训练呢？让DST也能在跟用户的交互中成长，摆脱数据标注问题。

即，将下图的虚线部分统一的建模。
在这里插入图片描述
当然可以咯，[34]就是使用DRQN建模POMDP-based任务型对话系统，并且使用一个LSTM来作为DST的模型，将LSTM的输出作为DST输出的对话状态（从自然语言直接到对话状态）。该输出被送到策略网络中（一个MLP）去计算对话动作（近似Q值函数），同时送到另外S个策略网络（S为槽位数）中去update槽位信息，如图。
当然，毕竟这是2016年的文章，所以网络结构比较简单

沿着DQN这条线走，还能走出来很多文章[31,35]，就不展开讲了。不过毕竟都是value-based RL

比起基于价值（Value based）的RL方法，显然基于策略（Policy based）RL方法在现代RL里更为主流。
Policy based dialogue system的代表性工作就是[32]，如图
在这里插入图片描述
这是一篇非常经典的工作，不仅使用policy based RL建模了对话问题，而且完成了用户自然语言输入、系统自然语言输出、数据库交互的端到端建模。

首先，左上角称为意图网络（intent network），通过一个lstm来完成用户当前轮自然语言输入到表征用户意图的隐状态的映射，网络的输出为中间的policy network提供用户意图的特征表示；

左下角是一个在当时比较复杂的belief tracker，如图
在这里插入图片描述
这个看起来比较花哨的tracker有一个花哨的名字“Tied Jordan-type RNN belief tracker with delexicalised CNN feature extractor”。底下是一个Delexicalised CNN网络，通过几层卷积+最终的最大池化来得到句子的向量表示，作为当前轮用户输入的特征；上面是一个jordan-type RNN网络，

所谓jordan type其实就是每一轮的输出层连接到下一轮的隐层（我们平常用的RNN大多是上一轮的隐层到下一轮的隐层
以每一轮的Delexicalised CNN抽取出的特征向量来作为RNN网络输入，建模turn-level的状态转移关系，RNN的输出一方面可以为policy network提供表征对话状态的特征向量，另一方面对输出进行离散化转换，得到结构化的数据库sql查询语句，从而完成与数据库的交互。从数据库中取出的信息同样可以输入policy network中，从而完成诸如前面说的“打开百度地图搜索椰子鸡”等类似的结构化操作，查询到的结果（椰子鸡的位置）可以帮助完成对话目标。

看，这样策略网络policy network就有了3个维度的观测信息，当前轮的用户意图、当前的对话状态和外部数据库提供的信息，这里通过简单的三通道矩阵变换来完成策略的计算：
在这里插入图片描述
其中zt，pt和xt分别代表intent network、belief tracker和数据库的输出。

最后，策略网络的输出就代表了当前轮决策（system action）的特征向量（称为action vector），将该向量作为condition来丢进基于语言模型（比如lstm语言模型）的NLG模块，从而得到最终的自然语言输出。看，这样就完成了完整的端到端建模。

那么怎么训练呢？

前面说了，DST可以轻松的使用有监督的方法来学习，因此这里虽然端到端的建模了任务型对话，但是并不妨碍先将DST模块用监督数据训练一把，来进行初始化，这样可以减少端到端训练时的波动，也能清晰的定义belief tracker所完成的功能，而不是完全随机初始化后学习到其他什么奇奇怪怪的东西。

DST完成预训练后，fix住它的参数，然后网络中剩下的部分就可以通过末端语言模型输出与ground truth计算交叉熵来得到loss，由于整个网络的连接处都是连续可导的，因此梯度信号可以顺利的传到各个部分的参数上，于是就完成了整个系统的训练。

这篇文章后，出现了大量的policy based端到端任务型对话建模方法，感兴趣的同学可以顺着这篇文章继续往下挖，各种花式方法这里就不展开叙述啦，写不动了QAQ

最后挤出一丝力气来单独的说说NLG问题（虽然像前面这种端到端policy-based method已经将NLG模块也一起丢进去学习了），不过工业界大多还是pipeline的结构，独立的NLG模块研究在短时间内还是很有研究价值的（而且NLG并不仅仅适用于对话场景）。

5.NLG:最后一公里

假如我们的pipeline系统终于可以作出合理决策（action）了。比如用户说，“好的，谢谢”，那么我们的系统经过语义理解、对话状态查询和作出决策，得出了“说再见”的系统动作，于是就要有一个模块将系统动作（即结构化语义表示）来翻译成自然语言输出“不客气哦，下次再见啦～”，完成这个结构->文本的模块就是自然语言生成（NLG）模块。

在对话动作的控制下，给用户的回复可以说非常丰富，比如引导式询问、确认、澄清、对话结束语等等。最简单的方法当然还是基于规则生成╮(￣▽￣"")╭，比如在上面的订餐场景中，当前系统动作是询问就餐人数query(num_persons)，匹配到了就餐人数的规则，那么系统就会给出“请问您是几位就餐呢”的回复。应对这种简单情况，只需要事先为actions定义好规则和话术模版就好了。毕竟是人为设计好的回复，所以流畅度是可以保证的～

显然，当对话动作很多时，可能打死PM也无法为每一种action都编写出合适的话术模板，这就需要更佳“智能”的文本生成方法了。而本身这里的NLG问题就是一个结构->文本的“翻译”问题，显然seq2seq的方法是肯定少不了的，比如[37]就用了一种很fancy的方法远程监督的方法构造了一个NLG数据集，然后使用seq2seq的方法作为baseline跑出了还不错的结果。

不过，很显然，如果DP的结果是错误的，那这种无论规则控制还是seq2seq的NLG模块都会错的很彻底了(´･ω･`)所以一来可以为NLG模块引入更多的condition（比如对话状态），二来还是沿着end2end的roadmap来走比较有所期待。

6.参考文献

[1] Yan, Zhao, Nan Duan, Junwei Bao, Peng Chen, Ming Zhou, Zhoujun Li, and Jianshe Zhou. “Docchat: An information retrieval approach for chatbot engines using unstructured documents.” In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 516-525. 2016.

[2] An information retrieval approach to short text conversation, Zongcheng Ji, Zhengdong Lu, Hang Li, CS 2014

[3] Song, Yiping, Rui Yan, Cheng-Te Li, Jian-Yun Nie, Ming Zhang, and Dongyan Zhao. “An Ensemble of Retrieval-Based and Generation-Based Human-Computer Conversation Systems.” (2018).

[4] Pandey, Gaurav, Danish Contractor, Vineet Kumar, and Sachindra Joshi. “Exemplar encoder-decoder for neural conversation generation.” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1329-1338. 2018.

[5] Qiu M, Li F L, Wang S, et al. Alime chat: A sequence to sequence and rerank based chatbot engine[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017: 498-503.

[6] https://github.com/baidu/AnyQ

[7] Xiangyang Zhou, Daxiang Dong, Hua Wu, Shiqi Zhao, Dianhai Yu, Hao Tian, Xuan Liu, and Rui Yan. “Multi-view response selection for human-computer conversation.” In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pp. 372-381. 2016.

[8] Xiangyang Zhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu, and Hua Wu. “Multi-turn response selection for chatbots with deep attention matching network.” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1118-1127. 2018.

[9] https://github.com/baidu/Dialogue/tree/master/DGU

[10] Jason Williams, Antoine Raux, Deepak Ramachandran, and Alan Black. 2013. The dialog state tracking challenge. In Proceedings of the SIGDIAL 2013 Conference, pages 404–413.

[11] Bordes, Antoine, Y-Lan Boureau, and Jason Weston. “Learning end-to-end goal-oriented dialog.” arXiv preprint arXiv:1605.07683 (2016).

[12] Shah, Pararth, Dilek Hakkani-Tür, Gokhan Tür, Abhinav Rastogi, Ankur Bapna, Neha Nayak, and Larry Heck. “Building a conversational agent overnight with dialogue self-play.” arXiv preprint arXiv:1801.04871 (2018).

[13] https://coffee.pmcaff.com/article/971158746030208/pmcaff?utm_source=forum&from=related&pmc_param%5Bentry_id%5D=950709304427648

[14] Xu, Puyang, and Ruhi Sarikaya. “Convolutional neural network based triangular crf for joint intent detection and slot filling.” In 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 78-83. IEEE, 2013.

[15] Wang, Yu, Yilin Shen, and Hongxia Jin. “A bi-model based rnn semantic frame parsing model for intent detection and slot filling.” arXiv preprint arXiv:1812.10235 (2018).

[16] M. Henderson, B. Thomson, and J. Williams. 2014a.The second dialog state tracking challenge. In Proceedings of SIGdial.

[17] Lowe R, Noseworthy M, Serban I V, et al. Towards an automatic turing test: Learning to evaluate dialogue responses[J]. arXiv preprint arXiv:1708.07149, 2017.

[18] Tao C, Mou L, Zhao D, et al. Ruber: An unsupervised method for automatic evaluation of open-domain dialog systems[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[19] Budzianowski, Paweł, Tsung-Hsien Wen, Bo-Hsiang Tseng, Inigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gašić. “Multiwoz-a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling.” arXiv preprint arXiv:1810.00278 (2018).

[20] Jiwei Li, Will Monroe, Alan Ritter, Michel Galley, Jianfeng Gao, and Dan Jurafsky. 2016a. Deep reinforcement learning for dialogue generation. EMNLP

[21] Williams, Jason D., and Steve Young. “Partially observable Markov decision processes for spoken dialog systems.” Computer Speech & Language 21, no. 2 (2007): 393-422.

[22] Reddy, Siva, Danqi Chen, and Christopher D. Manning. “Coqa: A conversational question answering challenge.” Transactions of the Association for Computational Linguistics7 (2019): 249-266.

[23] Zhao, Tiancheng, Ran Zhao, and Maxine Eskenazi. “Learning discourse-level diversity for neural dialog models using conditional variational autoencoders.” arXiv preprint arXiv:1703.10960 (2017).

[24] Zhou, Xianda, and William Yang Wang. “Mojitalk: Generating emotional responses at scale.” arXiv preprint arXiv:1711.04090 (2017).

[25] Qian, Qiao, Minlie Huang, Haizhou Zhao, Jingfang Xu, and Xiaoyan Zhu. “Assigning personality/identity to a chatting machine for coherent conversation generation.” arXiv preprint arXiv:1706.02861 (2017).

[26] Zhang, Saizheng, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. “Personalizing Dialogue Agents: I have a dog, do you have pets too?.” arXiv preprint arXiv:1801.07243 (2018).

[27] Zhou, Hao, Tom Young, Minlie Huang, Haizhou Zhao, Jingfang Xu, and Xiaoyan Zhu. “Commonsense Knowledge Aware Conversation Generation with Graph Attention.” In IJCAI, pp. 4623-4629. 2018.

[28] Wu, Chien-Sheng, Richard Socher, and Caiming Xiong. “Global-to-local Memory Pointer Networks for Task-Oriented Dialogue.” arXiv preprint arXiv:1901.04713 (2019).

[29] http://qngw2014.bj.bcebos.com/zhuankan/10/%E5%AF%B9%E8%AF%9D%E7%B3%BB%E7%BB%9F%E4%BB%BB%E5%8A%A1%E7%BB%BC%E8%BF%B0%E4%B8%8E%E5%9F%BA%E4%BA%8EPOMDP%E7%9A%84%E5%AF%B9%E8%AF%9D%E7%B3%BB%E7%BB%9F.pdf

[30] https://mp.weixin.qq.com/s/eb0GcjdwO18-_0T9z3KdlA

[31] Lipton, Zachary, Xiujun Li, Jianfeng Gao, Lihong Li, Faisal Ahmed, and Li Deng. “BBQ-networks: Efficient exploration in deep reinforcement learning for task-oriented dialogue systems.” In Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[32] Wen, Tsung-Hsien, David Vandyke, Nikola Mrksic, Milica Gasic, Lina M. Rojas-Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. “A network-based end-to-end trainable task-oriented dialogue system.” arXiv preprint arXiv:1604.04562(2016).

[33] Lei, Wenqiang, Xisen Jin, Min-Yen Kan, Zhaochun Ren, Xiangnan He, and Dawei Yin. “Sequicity: Simplifying task-oriented dialogue systems with single sequence-to-sequence architectures.” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1437-1447. 2018.

[34] Tiancheng Zhao and Maxine Eskenazi. Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning

[35] Peng B, Li X, Gao J, et al. Deep dyna-q: Integrating planning for task-completion dialogue policy learning[J]. arXiv preprint arXiv:1801.06176, 2018.

[36] Dhingra B, Li L, Li X, et al. Towards end-to-end reinforcement learning of dialogue agents for information access[J]. arXiv preprint arXiv:1609.00777, 2016.

[37] Oraby, Shereen, Vrindavan Harrison, Abteen Ebrahimi, and Marilyn Walker. “Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG.” arXiv preprint arXiv:1906.01334 (2019).

[38] Geng, Ruiying, Binhua Li, Yongbin Li, Yuxiao Ye, Ping Jian, and Jian Sun. “Few-Shot Text Classification with Induction Network.” arXiv preprint arXiv:1902.10482 (2019).

[39] Yu, Mo, Xiaoxiao Guo, Jinfeng Yi, Shiyu Chang, Saloni Potdar, Yu Cheng, Gerald Tesauro, Haoyu Wang, and Bowen Zhou. “Diverse few-shot text classification with multiple metrics.” arXiv preprint arXiv:1805.07513 (2018).

[40] Hausknecht, Matthew, and Peter Stone. “Deep recurrent q-learning for partially observable mdps.” In 2015 AAAI Fall Symposium Series. 2015.