论文笔记--Meta Learning for Better RL

最新推荐文章于 2024-11-11 10:01:12 发布

zz_ytj

最新推荐文章于 2024-11-11 10:01:12 发布

阅读量582

点赞数 1

分类专栏： meta learning

本文链接：https://blog.csdn.net/zz_ytj/article/details/103661841

版权

Meta Learning for Better RL

Online Meta-Critic Learning for Off-Policy Actor-Critic Methods
Learning to Explore via Meta-Policy Gradient
- 核心思想
Model-Based Reinforcement Learning via Meta-Policy Optimization

Online Meta-Critic Learning for Off-Policy Actor-Critic Methods

一般的元学习是用来在任务分布上学习，通过以往的大量任务训练过程来总结出经验指导分布中未曾见过的新任务的学习。然而这篇论文关注的是一般的single-task强化学习任务，即利用元学习的思想提高model-free， off-policy强化学习算法的性能。
核心的idea就是利用采样数据学习一个元损失函数（meta-critic），能根据数据online生成辅助损失，从而促进强化学习过程。

Formulation

Bi-level Optimization

将单个强化学习过程看做bi-level优化问题：
$\begin{aligned} \omega& = \arg\min_\omega L^{meta}(d_{val};\phi^*)\\ \text{s.t.}\quad \phi^*&=\arg\min_{\phi}L^{main}(d_{tr};\phi)+L^{aux}_{\omega}(d_{tr};\phi) \end{aligned}$ 这里参数 $\phi$ 是策略参数， $\omega$ 是元损失函数参数。 $L^{main}$ 表示一般强化学习中的损失函数，即长期回报期望的负值。 $L^{meta}$ 损失主要目标是判断 $L^{aux}_{\omega}$ 的加入，是否有效提升了策略的性能表现，所以原文中将其定义为：
$L^{meta} = tanh(L^{main}(d_{val};\phi_{new})-L^{main}(d_{val};\phi_{old}))$ 这里需要注意的是， $\phi_{new}$ 是利用了 $L^{main}+L^{aux}_{\omega}$ 联合损失更新的策略参数， $\phi_{old}$ 则是传统的只利用 $L^{main}$ 损失更新的参数。所以 $L^{meta}$ 的目的就是让 $\phi_{new}$ 的性能尽可能的比 $\phi_{old}$ 的性能好，这样就说明通过元损失函数得到的辅助损失有利于策略的学习。这里用一个单调增函数 $t a n h$ 作用在其差值上。