Learning Off-Policy with Online Planning

最新推荐文章于 2023-03-01 19:45:00 发布

格雷拉-皮奇

最新推荐文章于 2023-03-01 19:45:00 发布

阅读量327

点赞数 1

分类专栏：论文文章标签：算法人工智能强化学习

本文链接：https://blog.csdn.net/weixin_43897187/article/details/109582543

版权

论文专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在这里插入图片描述

介绍

这是2020年ICML会议上的一篇论文。作者：Harshit Sikchi, Wenxuan Zhou, David Held
论文传送门：https://arxiv.org/pdf/2008.10066.pdf
它想法是将model-based和model-free的方法进行结合。将两者结合是为了结合各自的优点。
两者的优缺点如下：
Model-based
优点：采样效率高
缺点：规划视野受限（规划长度增加会导致计算量呈指数增长）
Model-free
优点：考虑了未来的长期奖励=视野长（相对与model-based的方法而言）
缺点：采样效率低，需要与环境进行大量交互
为了结合Model-based采样效率高和Model-free视野长的优点，这篇论文提出了Learning Off-Policy with Online Planning (LOOP)这一方法。

原理

如下图所示，A部分是model-free的部分，本文使用的是TD3算法（也可以使用其它off-policy算法如SAC）。BC部分都是属于model-based部分，其中B是建立model模型，C是利用模型进行Planning的部分。
那么是怎么结合的呢？
之前已经说过要结合model-based和model-free的优点
既然model-based的采样效率高，而model-free采样效率不行，那我们就使用model-based这部分进行采样，把样本放到经验池中，供TD3学习。（对应下图中“C—>ReplayBuffer—>A”的箭头指向部分）
既然model-free的Q值代表的是未来的长期收益，而model-based在Planning的时候规划视野受限，那我们就在规划到最后一步的时候加上model-free的Q值，意思就是我规划了一段路线了，我累了（计算量太大了），未来的路线我不规划了，我直接使用TD3的Q值来表示未来的路线奖励。（对应下图中C部分，每一条规划路径最后的位置加上一个Q值）

虽然TD3是off-policy的算法，理论上可以使用别人的经验进行学习。但是如果别人的经验分布和自己的经验分布差距太大的话，会导致extrapolation errors和persistent overestimation bias。为什么会导致extrapolation errors和persistent overestimation bias.可以参考论文链接：https://arxiv.org/pdf/1812.02900.pdf
为了削弱这个问题，作者提出了Actor-guided Trajectory Optimization (CEM-AG)方法。原先TD3的actor啥都不干，仅仅是model-based的CEM进行采样。这导致了采样分布差距太大问题。现在就变成TD3的actor也进行Planning，这样的话，我们优化CEM策略时，就即使用Actor的Planning又使用CEM自己的Planning。由于利用到了Actor规划的路径，使得优化后的CEM策略能与Actor差距没那么大了。
在这里插入图片描述

算法

算法也不难
第1行是TD3网络、model、经验池、规划长度的初始化。
第2行是先利用随机策略进行采样得到得到一些transition放到经验池（transition就是状态、动作、奖励、下一个状态的四元组）
第3行开始迭代训练。
第4-8行是model-based进行Planning，然后更新CEM采样策略的。
第9行是利用CEM与环境交互，把经验放到经验池中。
第10-12行是训练模型，就是一个监督学习的训练过程。
第13-15行是更新TD3的策略。
在这里插入图片描述