闲聊型和任务型到底有什么区别,这样来说。
liubing可以把GAN用在任务型上,说明好像没什么区别。
15年的时候Su就使用过这种方法,输入对话使用MLP输出r,一个简单的网络。
是否是inverse reinforce learning
问题:GAN模型里,GAN本身问题D给出的reward稀疏不稳定,导致G生成不够多样性、收敛太快、局部最优。
背景:
创新点:在G阶段加入entropy 正则化(为什么能解决model collpse问题),在D阶段的reward,估计每个单词对于reward的影响
具体操作:
在decoder阶段,把⟨a1 , a2 , . . . , an ⟩ 作为一系列的输出,st = f(p,a1,a2,…,at−1).p是对话的历史,a1~at-1是这一句对话里已经生成的(t-1)个单词
D的目标是识别出expert是对的,模型产生是错的
G的目标是糊弄到D而且生成的答案熵最小
实验结果:看起来数值都提高不少
残留问题:
reward的loss函数,是集成到D的梯度上吧?
没产生一个单词生成一个reward,这样的网络结果太大?
似乎过于简单,没有高深糊弄人的感觉?
文章的条理性感觉不够强?