论文
文章平均质量分 86
格雷拉-皮奇
这个作者很懒,什么都没留下…
展开
-
genetic soft updates for policy evolution in deep reinforcement learning
论文链接:论文传送门介绍这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法(value-based(DQN)、policy-gradient(PPO、TRPO)、ac(DDPG、TD3、SAC)),进化算法部分采用的是进化策略(ES)。本文的优势就在于可以采用任意的强化学习算法进行结合,而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时,效果不是很好。背景本文的优势有:减少开销(定期生成种群评估,而不需要每轮评估)可以和任何强化学习方法结合即便原创 2021-04-16 16:29:46 · 481 阅读 · 1 评论 -
Collaborative Evolutionary Reinforcement Learning
论文链接:论文传送门官方pytorch代码实现:代码传送门介绍这篇论文之前发的ERL论文的改进版本(ERL介绍链接)这篇文章提出的核心要点可以总结为两个:1.不同的策略都共享同一经验池的经验,提高采样效率2.多个未来折扣率不同的Critic对Actor策略进行指导,从而提供更多样化探索,能更好的在策略空间进行探索原理1.概念介绍为了更好的理解CERL框架,我们可以回想一下当初讲ERL的时候,ERL是进化算法和强化学习的结合,其中强化学习部分采用的是DDPG,也就是一对actor网络和一对cr原创 2021-03-19 17:46:11 · 650 阅读 · 0 评论 -
CEM-RL
论文:传送门介绍之前讲了ERL,ERL是进化算法和off-policy强化学习算法的结合。而这篇CEM-RL也是进化算法和off-policy强化学习算法的结合。ERL和CEM-RL的主要区别在于两者进化算法的区别。先说一下,进化算法分四类:1、进化策略 2、进化规划 3、遗传算法 4、遗传规划有兴趣的可以了解一下,但是目前据我了解,在强化学习当中应用比较多的是进化策略和遗传算法。至于进化规划和遗传规划似乎可以暂时忽略。回到正题,ERL采用的进化算法是遗传算法。而CEM-RL采用的进化算法是进化策原创 2021-03-16 17:30:58 · 1149 阅读 · 0 评论 -
分布式优先级经验回放(Distributed Prioritized Experience Replay)
论文链接:我是传送门背景传统对经验池进行均匀采用很明显是不合适的,因为有的经验是更加有帮助的,因此,提出了优先级经验回放(对经验设置优先级,按优先级大小采样)。本文对优先级经验回放采用分布式的设置,通过分布式获取多样性经验,达到更好的效果。传统的分布式强化学习是分布式求解梯度,并返回梯度信息。例如A3C,结构图如下,其中WORKERS给GLOBAL NETWORK提供的是梯度,而本文的想法是WORKERS给GLOBAL NETWORK提供经验,因此WORKERS不需要提供梯度,也就不需要反向传播求解梯原创 2021-03-09 17:00:30 · 2690 阅读 · 0 评论 -
Proximal Distilled Evolutionary Reinforcement Learning
论文:传送门介绍上一篇讲的进化强化学习ERL(evolutionary reinforcement learning)是简单的将进化算法和强化学习算法进行结合。而本文则是对这种结合提出了几个改进,并将改进方法命名为Proximal Distilled Evolutionary Reinforcement Learning背景在传统的进化算法与强化学习算法结合后,进化算法当中的种群的个体是神经网络。因此,我们需要对神经网络进行交叉和变异。而本文认为传统的n点交叉和高斯变异着两个遗传算子不使用于神经网原创 2021-03-08 12:15:24 · 711 阅读 · 0 评论 -
ERL(evolutionary reinforcement learning)
论文:Evolution-Guided Policy Gradient in Reinforcement Learning原文链接:传送门1.介绍现在各种方法的结合成为了很好的研究方向。之前我发的“Learning Off-Policy with Online Planning”就是有模型和无模型强化学习方法的结合。本文则是进化算法和强化学习的结合。值得注意的是,之前已经有人将进化算法作为解决强化学习问题的一种方法了(论文),但是之前并没有与原来的强化学习方法进行结合。打个形象的比方:假如之前解决强原创 2021-03-08 11:29:52 · 2484 阅读 · 5 评论 -
Learning Off-Policy with Online Planning
介绍这是2020年ICML会议上的一篇论文。它想法是将model-based和model-free的方法进行结合。将两者结合是为了结合各自的优点。两者的优缺点如下:Model-based优点:采样效率高缺点:规划视野受限Model-free优点: 考虑了未来的长期奖励=视野长(相对与model-based的方法而言)缺点:采样效率低,需要与环境进行大量交互为了结合Model-based采样效率高和Model-free视野长的优点,这篇论文提出了Learning Off-Policy wit原创 2020-11-10 11:11:48 · 333 阅读 · 0 评论