**问题:**用户的feedback\rating不恒定或者不可得
背景: GAN用在了文本生成和翻译
**创新点:**使用GAN的discriminator来直接学习reward。online 需要和用户交互很多才能学到
具体过程:
- belief tracking:根据state才保持对于用户目标的追求
- policy:
P ( a k ∣ U ≤ k , A ≤ k , E ≤ k ) = P o l i c y N e t ( s k , v k , E k ) P(a_k|U≤k,A≤k,E≤k) = PolicyNet(s_k,v_k,E_k) P(ak∣U≤k,A≤k,E≤k)=PolicyNet(sk,vk,Ek)
- reward estimator:
在D那边,输入是用户提问 U k U_k Uk,知识库提取出相关的答案 E k E_k Ek,agent回答 A k A_k Ak.
通过lstm得出关于对话的表示,在经过binary classifier判断出对话的agent是机器agent还是人工agent。
实验及结果:
在DSTC2上,对于每个对话样例加入了entity information
action本来是confirm(food=italian),改成(confirm_food,italian)后面的是slot value。
对于user,使用的是simulator,经过了改造,是model-based、而不是以前的rule-based。
过程:
1)对于G和D先进行SL train。之后进行RL。
2)GAN不稳定,因为D的reward模型还不稳定。
3)标注对话的作用:当标注对话达到一定量时才有用。
是在SL阶段吗?
4)偶尔使用feedback,
是直接假装是D传来的反馈到G吗?
原因:
可能D生产出的对话也很好,但是不符合G通过之前人工对话集训练出的reward标准,模式不太一样,所以,
在RL训练中,G的训练中,加入和用户对话之后用户反馈好的对话。作为positive example。
没有公开和其他论文的最新结果比较。