genetic soft updates for policy evolution in deep reinforcement learning

最新推荐文章于 2022-09-24 17:32:07 发布

格雷拉-皮奇

最新推荐文章于 2022-09-24 17:32:07 发布

阅读量471

点赞数

分类专栏：强化学习论文

本文链接：https://blog.csdn.net/weixin_43897187/article/details/115764778

版权

强化学习同时被 2 个专栏收录

9 篇文章 4 订阅

订阅专栏

论文

7 篇文章 0 订阅

订阅专栏

论文链接：论文传送门

介绍

这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法（value-based（DQN）、policy-gradient(PPO、TRPO)、ac（DDPG、TD3、SAC）），进化算法部分采用的是进化策略（ES）。
本文的优势就在于可以采用任意的强化学习算法进行结合，而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时，效果不是很好。

背景

本文的优势有：

减少开销（定期生成种群评估，而不需要每轮评估）
可以和任何强化学习方法结合
即便进化的策略更差，也不会导致策略性能下降（若进化的个体策略评估比原策略差，则不更新）

原理

本文方法称为Soft Updates for Policy Evolution (Supe-RL) ，Supe-RL的结构图如下，其中Agent和Environment进行强化学习训练，训练每隔一段时间就进行图中变异操作（Mutation），变异生成Children个体，并复制一个Agent Copy个体。Agent Copy就是和Agent一样的策略。然后对这些个体评估（Evaluation），根据适应度选择最好的策略对Agent进行soft update。并且这个最好策略评估时的经验存放到Memory中，供强化学习策略学习（注：如果强化学习采用在策略算法（on-policy）时，不进行存放）。

在这里插入图片描述

实现

对于选择最好策略进行Soft update，作者给出了三种更新方式。
先假设用以下符号表示网络参数
在这里插入图片描述
作者给出的三种更新方式如下（第一种方式不能使用Adam优化器，因为现实网络参数直接替换，导致变化较大，而Adam优化器会使用过去的梯度信息，由于变化较大，过去梯度信息会造成不确定性的危害。第二种方式现实网络采用soft update，这是由于更新幅度小，因此可以使用Adam优化器。第三种方式是对现实网络和目标网络都采用soft update）。其中第一种方法最差，第二种其次，第三种效果最好
在这里插入图片描述

格雷拉-皮奇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
genetic soft updates for policy evolution in deep reinforcement learning

论文链接：论文传送门介绍这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法（value-based（DQN）、policy-gradient(PPO、TRPO)、ac（DDPG、TD3、SAC）），进化算法部分采用的是进化策略（ES）。本文的优势就在于可以采用任意的强化学习算法进行结合，而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时，效果不是很好。背景本文的优势有：减少开销（定期生成种群评估，而不需要每轮评估）可以和任何强化学习方法结合即便
复制链接

扫一扫