Meta Learning for Better RL
Online Meta-Critic Learning for Off-Policy Actor-Critic Methods
一般的元学习是用来在任务分布上学习,通过以往的大量任务训练过程来总结出经验指导分布中未曾见过的新任务的学习。然而这篇论文关注的是一般的single-task强化学习任务,即利用元学习的思想提高model-free, off-policy强化学习算法的性能。
核心的idea就是利用采样数据学习一个元损失函数(meta-critic),能根据数据online生成辅助损失,从而促进强化学习过程。
Formulation
Bi-level Optimization
将单个强化学习过程看做bi-level优化问题:
ω = arg min ω L m e t a ( d v a l ; ϕ ∗ ) s.t. ϕ ∗ = arg min ϕ L m a i n ( d t r ; ϕ ) + L ω a u x ( d t r ; ϕ ) \begin{aligned} \omega& = \arg\min_\omega L^{meta}(d_{val};\phi^*)\\ \text{s.t.}\quad \phi^*&=\arg\min_{\phi}L^{main}(d_{tr};\phi)+L^{aux}_{\omega}(d_{tr};\phi) \end{aligned} ωs.t.ϕ∗=argωminLmeta(dval;ϕ∗)=argϕminLmain(dtr;ϕ)+Lωaux(dtr;ϕ)这里参数 ϕ \phi ϕ是策略参数, ω \omega ω是元损失函数参数。 L m a i n L^{main} Lmain表示一般强化学习中的损失函数,即长期回报期望的负值。 L m e t a L^{meta} Lmeta损失主要目标是判断 L ω a u x L^{aux}_{\omega} Lωaux的加入,是否有效提升了策略的性能表现,所以原文中将其定义为:
L m e t a = t a n h ( L m a i n ( d v a l ; ϕ n e w ) − L m a i n ( d v a l ; ϕ o l d ) ) L^{meta} = tanh(L^{main}(d_{val};\phi_{new})-L^{main}(d_{val};\phi_{old})) Lmeta=tanh(Lmain(dval;ϕnew)−Lmain(dval;ϕold))这里需要注意的是, ϕ n e w \phi_{new} ϕnew是利用了 L m a i n + L ω a u x L^{main}+L^{aux}_{\omega} Lmain+Lωaux联合损失更新的策略参数, ϕ o l d \phi_{old} ϕold则是传统的只利用 L m a i n L^{main} Lmain损失更新的参数。所以 L m e t a L^{meta} Lmeta的目的就是让 ϕ n e w \phi_{new} ϕnew的性能尽可能的比 ϕ o l d \phi_{old} ϕold的性能好,这样就说明通过元损失函数得到的辅助损失有利于策略的学习。这里用一个单调增函数 t a n h tanh tanh作用在其差值上。
Meta-critic Design
关键就是如何设计meta-critic网络(记为 h ω ( d t r ; ϕ ) h_{\omega}(d_{tr};\phi) hω(d