genetic soft updates for policy evolution in deep reinforcement learning

论文链接:论文传送门

介绍

这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法(value-based(DQN)、policy-gradient(PPO、TRPO)、ac(DDPG、TD3、SAC)),进化算法部分采用的是进化策略(ES)。
本文的优势就在于可以采用任意的强化学习算法进行结合,而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时,效果不是很好。

背景

本文的优势有:

  1. 减少开销(定期生成种群评估,而不需要每轮评估)
  2. 可以和任何强化学习方法结合
  3. 即便进化的策略更差,也不会导致策略性能下降(若进化的个体策略评估比原策略差,则不更新)

原理

本文方法称为Soft Updates for Policy Evolution (Supe-RL) ,Supe-RL的结构图如下,其中Agent和Environment进行强化学习训练,训练每隔一段时间就进行图中变异操作(Mutation),变异生成Children个体,并复制一个Agent Copy个体。Agent Copy就是和Agent一样的策略。然后对这些个体评估(Evaluation),根据适应度选择最好的策略对Agent进行soft update。并且这个最好策略评估时的经验存放到Memory中,供强化学习策略学习(注:如果强化学习采用在策略算法(on-policy)时,不进行存放)。

在这里插入图片描述

实现

对于选择最好策略进行Soft update,作者给出了三种更新方式。
先假设用以下符号表示网络参数
在这里插入图片描述
作者给出的三种更新方式如下(第一种方式不能使用Adam优化器,因为现实网络参数直接替换,导致变化较大,而Adam优化器会使用过去的梯度信息,由于变化较大,过去梯度信息会造成不确定性的危害。第二种方式现实网络采用soft update,这是由于更新幅度小,因此可以使用Adam优化器。第三种方式是对现实网络和目标网络都采用soft update)。其中第一种方法最差,第二种其次,第三种效果最好
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值