论文笔记--Meta Learning for Better RL

Online Meta-Critic Learning for Off-Policy Actor-Critic Methods

一般的元学习是用来在任务分布上学习,通过以往的大量任务训练过程来总结出经验指导分布中未曾见过的新任务的学习。然而这篇论文关注的是一般的single-task强化学习任务,即利用元学习的思想提高model-free, off-policy强化学习算法的性能。
核心的idea就是利用采样数据学习一个元损失函数(meta-critic),能根据数据online生成辅助损失,从而促进强化学习过程。

Formulation

Bi-level Optimization

将单个强化学习过程看做bi-level优化问题:
ω = arg ⁡ min ⁡ ω L m e t a ( d v a l ; ϕ ∗ ) s.t. ϕ ∗ = arg ⁡ min ⁡ ϕ L m a i n ( d t r ; ϕ ) + L ω a u x ( d t r ; ϕ ) \begin{aligned} \omega& = \arg\min_\omega L^{meta}(d_{val};\phi^*)\\ \text{s.t.}\quad \phi^*&=\arg\min_{\phi}L^{main}(d_{tr};\phi)+L^{aux}_{\omega}(d_{tr};\phi) \end{aligned} ωs.t.ϕ=argωminLmeta(dval;ϕ)=argϕminLmain(dtr;ϕ)+Lωaux(dtr;ϕ)这里参数 ϕ \phi ϕ是策略参数, ω \omega ω是元损失函数参数。 L m a i n L^{main} Lmain表示一般强化学习中的损失函数,即长期回报期望的负值。 L m e t a L^{meta} Lmeta损失主要目标是判断 L ω a u x L^{aux}_{\omega} Lωaux的加入,是否有效提升了策略的性能表现,所以原文中将其定义为:
L m e t a = t a n h ( L m a i n ( d v a l ; ϕ n e w ) − L m a i n ( d v a l ; ϕ o l d ) ) L^{meta} = tanh(L^{main}(d_{val};\phi_{new})-L^{main}(d_{val};\phi_{old})) Lmeta=tanh(Lmain(dval;ϕnew)Lmain(dval;ϕold))这里需要注意的是, ϕ n e w \phi_{new} ϕnew是利用了 L m a i n + L ω a u x L^{main}+L^{aux}_{\omega} Lmain+Lωaux联合损失更新的策略参数, ϕ o l d \phi_{old} ϕold则是传统的只利用 L m a i n L^{main} Lmain损失更新的参数。所以 L m e t a L^{meta} Lmeta的目的就是让 ϕ n e w \phi_{new} ϕnew的性能尽可能的比 ϕ o l d \phi_{old} ϕold的性能好,这样就说明通过元损失函数得到的辅助损失有利于策略的学习。这里用一个单调增函数 t a n h tanh tanh作用在其差值上。

Meta-critic Design

关键就是如何设计meta-critic网络(记为 h ω ( d t r ; ϕ ) h_{\omega}(d_{tr};\phi) hω(d

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值