对话系统论文集(14)-companion learning

问题:
RL是rule-based policy的改版。但是RL在初始训练的时候space太大, 表现很差。
将两者结合
背景:
companion teaching:
online- teacher给出example action,但是也给出多余的reward加速policy的收敛。就是策略的组合吧。SL和RL中feedback的组合?

创新点:
本文提出companion learning。在原来companion teaching的基础上改动,将example action改成了rule-based,reward不变。在训练过程中,脱离老师的时间(when and
how much the student policy depends on the rule teacher)用一个dropout网络模块表示,没看太懂。

实验结果:
只和DQN、A2C进行比较。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值