对话系统论文集(19)-liubing将GAN用在task对话

**问题:**用户的feedback\rating不恒定或者不可得
背景: GAN用在了文本生成和翻译
**创新点:**使用GAN的discriminator来直接学习reward。online 需要和用户交互很多才能学到

具体过程:

  • belief tracking:根据state才保持对于用户目标的追求
  • policy:

P ( a k ∣ U ≤ k , A ≤ k , E ≤ k ) = P o l i c y N e t ( s k , v k , E k ) P(a_k|U≤k,A≤k,E≤k) = PolicyNet(s_k,v_k,E_k) P(akUkAkEk)=PolicyNet(sk,vk,Ek)

  • reward estimator:
    在D那边,输入是用户提问 U k U_k Uk,知识库提取出相关的答案 E k E_k Ek,agent回答 A k A_k Ak.
    通过lstm得出关于对话的表示,在经过binary classifier判断出对话的agent是机器agent还是人工agent。

实验及结果:
在DSTC2上,对于每个对话样例加入了entity information
action本来是confirm(food=italian),改成(confirm_food,italian)后面的是slot value。
对于user,使用的是simulator,经过了改造,是model-based、而不是以前的rule-based。

过程:
1)对于G和D先进行SL train。之后进行RL。
2)GAN不稳定,因为D的reward模型还不稳定。
3)标注对话的作用:当标注对话达到一定量时才有用。
是在SL阶段吗?
4)偶尔使用feedback,
是直接假装是D传来的反馈到G吗?

原因:
可能D生产出的对话也很好,但是不符合G通过之前人工对话集训练出的reward标准,模式不太一样,所以,

在RL训练中,G的训练中,加入和用户对话之后用户反馈好的对话。作为positive example。

没有公开和其他论文的最新结果比较。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值