对话系统论文集(16)- GAN+逆强化学习用在文本生成

闲聊型和任务型到底有什么区别,这样来说。
liubing可以把GAN用在任务型上,说明好像没什么区别。

15年的时候Su就使用过这种方法,输入对话使用MLP输出r,一个简单的网络。
是否是inverse reinforce learning

问题:GAN模型里,GAN本身问题D给出的reward稀疏不稳定,导致G生成不够多样性、收敛太快、局部最优。
背景:
创新点:在G阶段加入entropy 正则化(为什么能解决model collpse问题),在D阶段的reward,估计每个单词对于reward的影响
具体操作:
在decoder阶段,把⟨a1 , a2 , . . . , an ⟩ 作为一系列的输出,st = f(p,a1,a2,…,at−1).p是对话的历史,a1~at-1是这一句对话里已经生成的(t-1)个单词

D的目标是识别出expert是对的,模型产生是错的
G的目标是糊弄到D而且生成的答案熵最小

实验结果:看起来数值都提高不少
残留问题:
reward的loss函数,是集成到D的梯度上吧?
没产生一个单词生成一个reward,这样的网络结果太大?
似乎过于简单,没有高深糊弄人的感觉?
文章的条理性感觉不够强?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值