论文链接:论文传送门
介绍
这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法(value-based(DQN)、policy-gradient(PPO、TRPO)、ac(DDPG、TD3、SAC)),进化算法部分采用的是进化策略(ES)。
本文的优势就在于可以采用任意的强化学习算法进行结合,而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时,效果不是很好。
背景
本文的优势有:
- 减少开销(定期生成种群评估,而不需要每轮评估)
- 可以和任何强化学习方法结合
- 即便进化的策略更差,也不会导致策略性能下降(若进化的个体策略评估比原策略差,则不更新)
原理
本文方法称为Soft Updates for Policy Evolution (Supe-RL) ,Supe-RL的结构图如下,其中Agent和Environment进行强化学习训练,训练每隔一段时间就进行图中变异操作(Mutation),变异生成Children个体,并复制一个Agent Copy个体。Agent Copy就是和Agent一样的策略。然后对这些个体评估(Evaluation),根据适应度选择最好的策略对Agent进行soft update。并且这个最好策略评估时的经验存放到Memory中,供强化学习策略学习(注:如果强化学习采用在策略算法(on-policy)时,不进行存放)。
实现
对于选择最好策略进行Soft update,作者给出了三种更新方式。
先假设用以下符号表示网络参数
作者给出的三种更新方式如下(第一种方式不能使用Adam优化器,因为现实网络参数直接替换,导致变化较大,而Adam优化器会使用过去的梯度信息,由于变化较大,过去梯度信息会造成不确定性的危害。第二种方式现实网络采用soft update,这是由于更新幅度小,因此可以使用Adam优化器。第三种方式是对现实网络和目标网络都采用soft update)。其中第一种方法最差,第二种其次,第三种效果最好