问题:
off-line 的SL和on-line 的RL,在学习的过程中,对话状态的分布不同,那么on-line时不能很好的通过feedback进行学习
提出方法:
1)先imitation学习(user教他,通过犯错改进)
2)RL
背景:
online RL的时候agent容易犯错,导致对话的state跑偏,很难纠正回来
模仿学习介绍:
监督学习类似,state输入网络得到输出action,训练出网络参数 π(a|s,θ),但是实际场景总是和原来的不一样,所以需要在训练出π之后,通过网络生成新的一系列state,然后再人工标注出对应场景下应该有的action,再丢入网络进行训练。
创新点:
SL
和user进行交互,测试
user提供正确结果(对于agent来说,应该说的话)
使用添加的数据进行fine-tune
RL
实验结果:
文章的数学性不强,感觉就是一个小trick,不知道居然也能发到NAACL上。