问题:
RL是rule-based policy的改版。但是RL在初始训练的时候space太大, 表现很差。
将两者结合
背景:
companion teaching:
online- teacher给出example action,但是也给出多余的reward加速policy的收敛。就是策略的组合吧。SL和RL中feedback的组合?
创新点:
本文提出companion learning。在原来companion teaching的基础上改动,将example action改成了rule-based,reward不变。在训练过程中,脱离老师的时间(when and
how much the student policy depends on the rule teacher)用一个dropout网络模块表示,没看太懂。
实验结果:
只和DQN、A2C进行比较。