对话系统&强化学习
zixufang
这个作者很懒,什么都没留下…
展开
-
对话系统论文集(5)--online active learning2016
解决问题:将人类的显性反馈作为reward–不可信、很难获得过程:RNN将对话表示成固定长度的representation,Gaussian过程建模含有 noise的feedback,主要表示出不确定性 (需要1的前处理)active learning清洗出合理的有用的feedback重点讲解高斯过程:1)预测P(y|d,D),y是对话是否成功(-1,+1),d是对话表示,D是分类好...原创 2019-02-27 16:38:35 · 277 阅读 · 0 评论 -
对话系统论文集(10)-改进A3C算法
问题:RL早期的时候表现不好,特别是在online训练的早期。背景:Bayesian sample-efficient已经提出,value-based和policy-based方法区别:policy更容易收敛,因为value改一点点可能造成policy空间的大大变化。policy因为*基于蒙特卡洛预测(?),*很容易收敛到次优解。本文使用policy。介绍基础的actor-critic...原创 2019-03-05 09:34:27 · 833 阅读 · 0 评论 -
对话系统论文集(16)- GAN+逆强化学习用在文本生成
闲聊型和任务型到底有什么区别,这样来说。liubing可以把GAN用在任务型上,说明好像没什么区别。15年的时候Su就使用过这种方法,输入对话使用MLP输出r,一个简单的网络。是否是inverse reinforce learning问题:GAN模型里,GAN本身问题D给出的reward稀疏不稳定,导致G生成不够多样性、收敛太快、局部最优。背景:创新点:在G阶段加入entropy ...原创 2019-03-17 10:22:16 · 747 阅读 · 0 评论 -
对话系统论文集(13)-多答案新数据集
创新点:mask在RL阶段是通过模型(通过S和提供的正确答案库)训练出来在SL阶段是通过真实对话的回答直接覆盖使用memory network原创 2019-03-08 12:01:31 · 183 阅读 · 0 评论 -
对话系统论文集(19)-liubing将GAN用在task对话
**问题:**用户的feedback\rating不恒定或者不可得背景: GAN用在了文本生成和翻译**创新点:**使用GAN的discriminator来直接学习reward。online 需要和用户交互很多才能学到具体过程:belief tracking:根据state才保持对于用户目标的追求policy:P(ak∣U≤k,A≤k,E≤k)=PolicyNet(sk,vk,E...原创 2019-03-18 15:23:35 · 300 阅读 · 0 评论 -
做实验1
1)跑ParlAI,模型很大,估计要改动的地方很多。过程:跑了基本的example,IR没有行通。适用于task-oriented数据集::id": “woz”,,“id”: “Dialogue_QE”,关于chitchat的。“id”: “SelfFeedingChatbot”,“id”: “dialog-bAbI-plus”,2)找到DPAC-GAN的代码,继而找到Seq-G...原创 2019-04-04 09:42:56 · 434 阅读 · 0 评论 -
GAN文章精读
1)jiweili&liubing,2)加入其它GAN用在text generation的例子说明GAN的缺点。https://www.jiqizhixin.com/articles/GAN-NLP-MaskGANhttps://zhuanlan.zhihu.com/p/29168803jiiweili的结果:...原创 2019-03-27 15:12:22 · 170 阅读 · 0 评论 -
交流心得(2)
周六晚上,说实话,现在有点懵。状态不好。今天和大神的交流任务主要如下:主要讨论lei文章。1、action是request,confirm之类的单词。输入NLG的是action、KB results、state_tracking。2、lei文章的创新点在于对slot filling的单独预训练。lei的提升点在于多个slot。3、问题:reward的Gbt和Vbt是什么含义?4,sim...原创 2019-03-31 21:51:06 · 106 阅读 · 0 评论 -
搭建谷歌云记录
https://blog.csdn.net/haruko666/article/details/79998641https://www.jianshu.com/p/e74fdabdef37https://zhuanlan.zhihu.com/p/45769856出现问题:quotas申请到2GPU-globally申请到2,对服务器进行基本配置,包括:使用SDK,在...原创 2019-03-20 19:50:22 · 1613 阅读 · 0 评论 -
做实验2
最近基本零进展。出现的问题:1)GAN训练不好:2)multi-gpu没有弄好,应该:把所有的model和loss集成到一个class下。计划:1)GAN为什么会collapse:–》观察:G使用sample生成结果,reward一直是<0.2。D对于loss_fake,在5个epoch之后稳定在0.5。无法判断G的回答是否有用。于是collapse。G预训练结果不好。是一个问题...原创 2019-04-10 21:33:06 · 333 阅读 · 0 评论 -
对话系统基本框架笔记
读了https://pytorch.org/tutorials/beginner/chatbot_tutorial.html的代码,清晰了很多。原创 2019-04-03 16:07:42 · 1156 阅读 · 0 评论 -
对话系统论文集(20)-阅读state tracking笔记
论文《Global-Locally Self-Attentive Encoder for Dialogue State Tracking》论文Sequicity: Simplifying Task-oriented Dialogue Systems with SingleSequence-to-Sequence Architectures第一篇输入是:X∈Rn×dembX ∈ R^{n...原创 2019-04-17 16:22:28 · 535 阅读 · 2 评论 -
对话系统论文集(21)--实验ing
发力点:GAN中D给出的信息更多输出约束增强阅读:cvpr,gan,文本相关文章Improving Dialogue State Tracking by Discerning the Relevant ContextLatent Code and Text-based Generative Adversarial Networks for Soft-text Generati...原创 2019-05-08 17:48:23 · 467 阅读 · 0 评论 -
emnlp新paper
Counterfactual Story Reasoning and GenerationNeural Text Generation with Unlikelihood TrainingReal-Time Open-Domain QA with Dense-Sparse Phrase Index原创 2019-09-19 16:53:46 · 315 阅读 · 0 评论 -
对话系统论文集(12)-状态跟踪
问题:含有state的数据太少,正确得到state(对花槽)很难。背景:全监督是:所有数据都是标记的无监督:所有数据都unlabeled,目标是将数据进行分类。半监督:部分标记,部分未标记创新点:没有使用RL未标记数据:1)通过encoder-decoder产生explicit text span(St)(对话历史):输入是Ut和Rt-1(向量链接),本次提问和上一次回...原创 2019-03-07 18:32:37 · 715 阅读 · 0 评论 -
对话系统论文集(18)-GAN+A2C
**问题:**解决reward稀疏问题**背景:**提出SL先训练;使用intrinsic reward。**创新点:**将discriminator作为intrinsic reward,即critic的一部分,在每次动作时,有本来critic给出和现在critic给出的结果。实现细节:效果提升很高。未来展望,加快policy的收敛速度,测试在更复杂的对话任务上的表现。...原创 2019-03-20 15:16:47 · 296 阅读 · 0 评论 -
对话系统论文集(3)-迁移学习构建个性化系统
16年由多到少的学习。范围缩小。方法:模型不变,训练集发生变化。先source domain是多个用户的对话,target domain是单个用户的对话。在target domain训练的时候,使用之前训练好的参数作为初始化状态。创新点:个性化,personalized背后解释:有了个性化训练的时候,source和 target是不一样的用户,所以喜好习惯就可能不同...原创 2019-02-23 21:56:52 · 399 阅读 · 0 评论 -
对话系统论文集(1)-BBQ网络
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems在探索下一个动作的时候如何选择,过去常用是ε-greedy,Boltzmann, bootstrapping, and intrinsic-reward-based ,我们的方法:使用thom...原创 2019-02-22 09:45:15 · 616 阅读 · 0 评论 -
对话系统论文集(4)-liubing-end-to-end
a原创 2019-02-24 11:12:16 · 185 阅读 · 0 评论 -
对话系统论文集(8)-curriculum learning18年ACL
赶进度背景知识:Curriculum Learning:根据样本的难易程度,简单的样本优先被学习,复杂的样本后被学习sparse reward:奖励函数的值太过稀疏。换言之大部分情况下奖励函数在一个状态返回的值都是 0。这就和我们人学习也需要鼓励,学太久都没什么回报就容易气馁。Progressive Neural Networks:序列学习: 还是不明白为什么要数据库;...原创 2019-03-02 15:01:56 · 595 阅读 · 0 评论 -
对话系统论文集(11)-个性化任务型对话推荐
Learning Personalized End-to-End Goal-Oriented Dialog解决问题:语言风格(调皮还是正经);动态策略变化(如果客人本身标签吃素,优先推荐素餐);自动解决user问题可能含有歧义(contact是qq还是tel)创新:使用memory network;将profile embedding加入到memory的查询向量;每部查询时...原创 2019-03-02 16:57:38 · 847 阅读 · 0 评论 -
对话系统论文集(2)-MDAP网络
关键词: 领域迁移、学习更快置信状态bg是置信对话状态中与语义槽无关的部分,bi是置信状态中与第 i 个语义槽相关的部分。可能的动作集合为AAg是可能的对话动作中与语义槽无关的动作的集合,Ai是可能的动作中与第 i 个语义槽相关的对话动作的结合。DSTC数据集:每个分为label和log;label:直接是json形式:槽已经处理好了。本文根据 是否和语义槽相关的置信状...原创 2019-02-23 15:41:29 · 400 阅读 · 0 评论 -
对话系统论文集(**)-online learning介绍
定义:及时更新参数,对话->用户反馈->参数更新系统显示:模型目标:实现方式:一般两种:贝叶斯;Follow The Regularized Leader1)贝叶斯:当后验和先验是用一种分布时,只是参数有所调整。当先后的分布不同类型时,使用先验分布类型(参数设置成和后验分布结果差不多)代替。贝叶斯在用的时候常常是以更高级的BPR(Bayesian Probit Re...原创 2019-03-03 10:36:30 · 323 阅读 · 0 评论 -
对话系统论文集(7)-liubingRL之前的模仿学习
问题:off-line 的SL和on-line 的RL,在学习的过程中,对话状态的分布不同,那么on-line时不能很好的通过feedback进行学习提出方法:1)先imitation学习(user教他,通过犯错改进)2)RL背景:online RL的时候agent容易犯错,导致对话的state跑偏,很难纠正回来模仿学习介绍:监督学习类似,state输入网络得...原创 2019-03-03 14:27:07 · 193 阅读 · 0 评论 -
对话系统论文集(9)-DDQ系统
问题:与用户交互太奢侈;而simulator的设计过于简单,可能使得agent的能力下降。背景:simulator没有验证标准;planning:那w-model和传统的simulator有何区别?创新点:将planning learning应用到dialogue中提出world-model(类似和simulator),学习用户的回答;用来更新agent具体过程:1)agen...原创 2019-03-03 17:06:40 · 292 阅读 · 0 评论 -
对话系统论文集(14)-companion learning
问题:RL是rule-based policy的改版。但是RL在初始训练的时候space太大, 表现很差。将两者结合背景:companion teaching:online- teacher给出example action,但是也给出多余的reward加速policy的收敛。就是策略的组合吧。SL和RL中feedback的组合?创新点:本文提出companion learning。在...原创 2019-03-09 19:47:33 · 175 阅读 · 0 评论 -
交流心得(1)
背景:与北邮同学交流之后收获:目前RL成功的是用在玩游戏下象棋上,每一步是一个action,比如走一步棋。而RL用在对话上时,整体架构还是LSTM,LSTM-decoder每一步输出的是一个单词,当输出完毕连起来才是一句完整的agent回复,然后具体来说算loss的时候是每个句子整体+1-1.所以象棋里的一步应该对应decoder整体的一句话。新的脑洞:先直接生成未知句子的embeddi...原创 2019-03-07 10:05:56 · 119 阅读 · 0 评论 -
对话系统论文集(15)-reward讨论
Reward estimation for dialogue policy optimisation问题:用RL来学习任务对话的指标主要是通过reward(快速,完成率)。现实中,完成率只有用户知道。agent可以问完成率但是麻烦而且用户回答太多样。背景:上世纪。PARADISE framework中,使用成功率和对话中的其他特征来推断出用户的满意率。然后用满意率作为reward。但是...原创 2019-03-10 11:33:48 · 358 阅读 · 4 评论 -
对话系统论文集(6)-liubing
Bootstrapping a Neural Conversational Agent with Dialogue Self-Play, Crowdsourcing and On-Line Reinforcement LearningP这篇文章我先不写,觉得厉害的地方不 多。原创 2019-03-19 19:55:34 · 167 阅读 · 0 评论 -
对话系统论文集(17)-jiweiGAN闲聊型
GAN:通过提问学习::问题:直接提出新模型,通过问问题来get到user的真实意思创新点:对数据集做了改动,包含三种情况:1)user的发音不标准,比如说,staaar(正确应该是star)。agent问what do you mean,2)KB中实体缺失(这一块儿我不想研究),设计agent直接说不知道然后user告诉答案,然后a...原创 2019-03-15 21:04:35 · 220 阅读 · 0 评论 -
GAN学习(1)
https://mp.weixin.qq.com/s/ZIJAdOGgdrOKCdXkEBDyMAGAN综述介绍阅读笔记GAN的原理GAN在序列生成上的问题:相比于 GAN 在图像领域的应用,GAN 在文本,语音领域的应用要少很多。主要原因有两个: 1. GAN 在优化的时候使用 BP 算法,对于文本,语音这种离散数据,GAN 没法直接跳到目标值,只能根据梯度一步步靠近。 2. 对于序...原创 2019-03-20 15:16:09 · 198 阅读 · 0 评论 -
文本纠错学习
主要针对:https://mp.weixin.qq.com/s/Pff9yYGch-noVq_cUcY5CA当前由于用户输入随意及手写输入法易出错等原因,错误串在输入文本中占比高达10%-15%,这也使得中文文本纠错模块必要性凸显。而在垂直领域中,比如平安的寿险领域,同样会因为用户输入随意、不清楚产品名称等原因,导致用户提问与回答存在大量的手写及同音错误。自然语言处理常见的任务包括词法分析、...原创 2019-09-19 17:28:19 · 434 阅读 · 0 评论