强化学习
文章平均质量分 84
格雷拉-皮奇
这个作者很懒,什么都没留下…
展开
-
genetic soft updates for policy evolution in deep reinforcement learning
论文链接:论文传送门介绍这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法(value-based(DQN)、policy-gradient(PPO、TRPO)、ac(DDPG、TD3、SAC)),进化算法部分采用的是进化策略(ES)。本文的优势就在于可以采用任意的强化学习算法进行结合,而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时,效果不是很好。背景本文的优势有:减少开销(定期生成种群评估,而不需要每轮评估)可以和任何强化学习方法结合即便原创 2021-04-16 16:29:46 · 471 阅读 · 1 评论 -
Collaborative Evolutionary Reinforcement Learning
论文链接:论文传送门官方pytorch代码实现:代码传送门介绍这篇论文之前发的ERL论文的改进版本(ERL介绍链接)这篇文章提出的核心要点可以总结为两个:1.不同的策略都共享同一经验池的经验,提高采样效率2.多个未来折扣率不同的Critic对Actor策略进行指导,从而提供更多样化探索,能更好的在策略空间进行探索原理1.概念介绍为了更好的理解CERL框架,我们可以回想一下当初讲ERL的时候,ERL是进化算法和强化学习的结合,其中强化学习部分采用的是DDPG,也就是一对actor网络和一对cr原创 2021-03-19 17:46:11 · 641 阅读 · 0 评论 -
Proximal Distilled Evolutionary Reinforcement Learning
论文:传送门介绍上一篇讲的进化强化学习ERL(evolutionary reinforcement learning)是简单的将进化算法和强化学习算法进行结合。而本文则是对这种结合提出了几个改进,并将改进方法命名为Proximal Distilled Evolutionary Reinforcement Learning背景在传统的进化算法与强化学习算法结合后,进化算法当中的种群的个体是神经网络。因此,我们需要对神经网络进行交叉和变异。而本文认为传统的n点交叉和高斯变异着两个遗传算子不使用于神经网原创 2021-03-08 12:15:24 · 704 阅读 · 0 评论 -
CEM-RL
论文:传送门介绍之前讲了ERL,ERL是进化算法和off-policy强化学习算法的结合。而这篇CEM-RL也是进化算法和off-policy强化学习算法的结合。ERL和CEM-RL的主要区别在于两者进化算法的区别。先说一下,进化算法分四类:1、进化策略 2、进化规划 3、遗传算法 4、遗传规划有兴趣的可以了解一下,但是目前据我了解,在强化学习当中应用比较多的是进化策略和遗传算法。至于进化规划和遗传规划似乎可以暂时忽略。回到正题,ERL采用的进化算法是遗传算法。而CEM-RL采用的进化算法是进化策原创 2021-03-16 17:30:58 · 1118 阅读 · 0 评论 -
分布式优先级经验回放(Distributed Prioritized Experience Replay)
论文链接:我是传送门背景传统对经验池进行均匀采用很明显是不合适的,因为有的经验是更加有帮助的,因此,提出了优先级经验回放(对经验设置优先级,按优先级大小采样)。本文对优先级经验回放采用分布式的设置,通过分布式获取多样性经验,达到更好的效果。传统的分布式强化学习是分布式求解梯度,并返回梯度信息。例如A3C,结构图如下,其中WORKERS给GLOBAL NETWORK提供的是梯度,而本文的想法是WORKERS给GLOBAL NETWORK提供经验,因此WORKERS不需要提供梯度,也就不需要反向传播求解梯原创 2021-03-09 17:00:30 · 2669 阅读 · 0 评论 -
强化学习之确定性策略网络和随机策略网络
强化学习当中策略可以分为随机策略和确定性策略两类。1 确定性策略确定性策略是输入一个状态s,策略会给出一个确定的动作a,可以用以下形式表示。u表示的是确定性策略。t时刻的状态写作st。t时刻在st状态下采取的动作为at。实现时,只需要建立一个神经网络,输入状态,输出一个确定的动作就行。使用了确定性策略的算法有:DDPG、TD3。DQN中的目标策略一般也是贪婪的确定性策略。2 随机策略随机策略是输入一个状态s,输出的是动作分布。随机策略通常用π表示。对于st条件下,每一个动作都是以概率被选取原创 2020-12-27 18:18:49 · 3978 阅读 · 1 评论 -
动态规划、蒙特卡洛、时序差分、n步bootstrap方法小总结
所有的方法都遵循广义策略迭代(即,广义上的策略评估和策略提升过程)方法是否bootstrap是否基于模型实现方式动态规划是是1.策略迭代2.价值迭代蒙特卡洛否否1.蒙特卡洛ES 2.on-policy实现 3.off-policy实现时序差分是否1.on-policy实现(sarsa) 2.off-policy实现(q-learning)n步bootstrap是否1.on-policy实现(n步sarsa) 2.off-policy实现(原创 2020-12-14 10:51:05 · 1386 阅读 · 1 评论 -
DDPG算法流程
背景本文介绍DDPG具体是如何进行采样,然后如何使用采集的样本进行训练,以及更新网络的。这意味更加注重DDPG在实践中的一整套流程。预备知识因为这篇文章是站在一个全局的角度,讲解DDPG的具体使用。不会涉及到更新的具体细节,更新的公式。因此,要想了解具体的更新细节(比如,损失函数)可以查阅其它资料。DDPG使用细节DDPG网络结构由现实actor网络、目标actor网络、现实Q网络、目标Q网络这四个网络组成。DDPG具体使用流程:步骤1:先初始化现实Actor和现实Critic。然后把现实Ac原创 2020-11-13 14:53:02 · 7437 阅读 · 4 评论 -
Win10下安装mujuco
强化学习之Win10下安装mujuco1.背景我之前玩的环境都是些简单的、易处理的环境,就是下面这种:(第一张图是移动下面的方块保持杆子立起来环境。第二张图是小车爬山环境,第三张图是给杆子施加力使得杆子保持立起来环境)从图也可以看出,是比较简单的环境。而mujuco提供了半猎豹奔跑环境、人学习走路环境、学习游泳环境等等非常有意思的环境。接下来就介绍一下如何安装mujuco环境。。2.介绍“麻烦给我的电脑来一杯Mujuco”嘻嘻”“MuJoCo是目前机器人强化学习中最流行的仿真器。它提供了很多有趣原创 2020-11-06 12:05:43 · 1904 阅读 · 2 评论