Learning Off-Policy with Online Planning

在这里插入图片描述

介绍

这是2020年ICML会议上的一篇论文。作者:Harshit Sikchi, Wenxuan Zhou, David Held
论文传送门:https://arxiv.org/pdf/2008.10066.pdf
它想法是将model-based和model-free的方法进行结合。将两者结合是为了结合各自的优点。
两者的优缺点如下:
Model-based
优点:采样效率高
缺点:规划视野受限(规划长度增加会导致计算量呈指数增长)
Model-free
优点: 考虑了未来的长期奖励=视野长(相对与model-based的方法而言)
缺点:采样效率低,需要与环境进行大量交互
为了结合Model-based采样效率高和Model-free视野长的优点,这篇论文提出了Learning Off-Policy with Online Planning (LOOP)这一方法。

原理

如下图所示,A部分是model-free的部分,本文使用的是TD3算法(也可以使用其它off-policy算法如SAC)。BC部分都是属于model-based部分,其中B是建立model模型,C是利用模型进行Planning的部分。
那么是怎么结合的呢?
之前已经说过要结合model-based和model-free的优点
既然model-based的采样效率高 ,而model-free采样效率不行,那我们就使用model-based这部分进行采样,把样本放到经验池中,供TD3学习。(对应下图中“C—>ReplayBuffer—>A”的箭头指向部分)
既然model-free的Q值代表的是未来的长期收益,而model-based在Planning的时候规划视野受限,那我们就在规划到最后一步的时候加上model-free的Q值,意思就是我规划了一段路线了,我累了(计算量太大了),未来的路线我不规划了,我直接使用TD3的Q值来表示未来的路线奖励。(对应下图中C部分,每一条规划路径最后的位置加上一个Q值)

虽然TD3是off-policy的算法,理论上可以使用别人的经验进行学习。但是如果别人的经验分布和自己的经验分布差距太大的话,会导致extrapolation errors和persistent overestimation bias。为什么会导致extrapolation errors和persistent overestimation bias.可以参考论文链接:https://arxiv.org/pdf/1812.02900.pdf
为了削弱这个问题,作者提出了Actor-guided Trajectory Optimization (CEM-AG)方法。原先TD3的actor啥都不干,仅仅是model-based的CEM进行采样。这导致了采样分布差距太大问题。现在就变成TD3的actor也进行Planning,这样的话,我们优化CEM策略时,就即使用Actor的Planning又使用CEM自己的Planning。由于利用到了Actor规划的路径,使得优化后的CEM策略能与Actor差距没那么大了。
在这里插入图片描述

算法

算法也不难
第1行是TD3网络、model、经验池、规划长度的初始化。
第2行是先利用随机策略进行采样得到得到一些transition放到经验池(transition就是状态、动作、奖励、下一个状态的四元组)
第3行开始迭代训练。
第4-8行是model-based进行Planning,然后更新CEM采样策略的。
第9行是利用CEM与环境交互,把经验放到经验池中。
第10-12行是训练模型,就是一个监督学习的训练过程。
第13-15行是更新TD3的策略。
在这里插入图片描述

相关论文

关于上图中A部分的TD3原文链接:
https://arxiv.org/pdf/1802.09477.pdf
关于上图B部分模型建立的原文链接(这篇论文也包含了上图C部分的Planning部分):
https://arxiv.org/pdf/1805.12114.pdf

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值