对话系统论文集(7)-liubingRL之前的模仿学习

问题

off-line 的SL和on-line 的RL,在学习的过程中,对话状态的分布不同,那么on-line时不能很好的通过feedback进行学习

提出方法:

1)先imitation学习(user教他,通过犯错改进)

2)RL

背景:

online RL的时候agent容易犯错,导致对话的state跑偏,很难纠正回来

 

模仿学习介绍:

监督学习类似,state输入网络得到输出action,训练出网络参数 π(a|s,θ),但是实际场景总是和原来的不一样,所以需要在训练出π之后,通过网络生成新的一系列state,然后再人工标注出对应场景下应该有的action,再丢入网络进行训练。

创新点:

SL
和user进行交互,测试

user提供正确结果(对于agent来说,应该说的话)

使用添加的数据进行fine-tune

RL

实验结果:

文章的数学性不强,感觉就是一个小trick,不知道居然也能发到NAACL上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值