对话系统论文集（16）- GAN+逆强化学习用在文本生成

最新推荐文章于 2022-05-05 18:57:12 发布

zixufang

最新推荐文章于 2022-05-05 18:57:12 发布

阅读量737

点赞数

分类专栏：对话系统&强化学习

本文链接：https://blog.csdn.net/yagreenhand/article/details/88614838

版权

对话系统&强化学习专栏收录该内容

32 篇文章 3 订阅

订阅专栏

闲聊型和任务型到底有什么区别，这样来说。
liubing可以把GAN用在任务型上，说明好像没什么区别。

15年的时候Su就使用过这种方法，输入对话使用MLP输出r，一个简单的网络。
是否是inverse reinforce learning

问题：GAN模型里，GAN本身问题D给出的reward稀疏不稳定，导致G生成不够多样性、收敛太快、局部最优。
背景：
创新点：在G阶段加入entropy 正则化（为什么能解决model collpse问题），在D阶段的reward，估计每个单词对于reward的影响
具体操作：
在decoder阶段，把⟨a1 , a2 , . . . , an ⟩ 作为一系列的输出，st = f(p,a1,a2,…,at−1).p是对话的历史，a1~at-1是这一句对话里已经生成的（t-1）个单词

D的目标是识别出expert是对的，模型产生是错的
G的目标是糊弄到D而且生成的答案熵最小

实验结果：看起来数值都提高不少
残留问题：
reward的loss函数，是集成到D的梯度上吧？
没产生一个单词生成一个reward，这样的网络结果太大？
似乎过于简单，没有高深糊弄人的感觉？
文章的条理性感觉不够强？

zixufang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对话系统论文集（16）- GAN+逆强化学习用在文本生成

闲聊型和任务型到底有什么区别，这样来说。liubing可以把GAN用在任务型上，说明好像没什么区别。15年的时候Su就使用过这种方法，输入对话使用MLP输出r，一个简单的网络。是否是inverse reinforce learning问题：GAN模型里，GAN本身问题D给出的reward稀疏不稳定，导致G生成不够多样性、收敛太快、局部最优。背景：创新点：在G阶段加入entropy ...
复制链接

扫一扫