深度强化学习
文章平均质量分 85
indigo love
这个作者很懒,什么都没留下…
展开
-
AttributeError: module ‘gym.envs.box2d‘ has no attribute ‘LunarLander‘ 解决方案
AttributeError: module 'gym.envs.box2d' has no attribute 'LunarLander' 解决办法原创 2021-12-09 20:30:47 · 6953 阅读 · 9 评论 -
“OSError: [WinError 1455]页面文件太小,无法完成操作。”解决方案
引言某次在Windows系统上跑深度强化学习多进程程序时报错:OSError: [WinError 1455]页面文件太小,无法完成操作。具体错误如下图所示最后借助这篇博文:多种方法彻底解决pycharm中: OSError: [WinError 1455] 页面文件太小,无法完成操作 的问题,顺利地把问题解决了,因此特意做个笔记记录一下。如果有小伙伴遇到同样的问题,希望这篇博文能够对你有所帮助。问题原因报的错误是页面文件太小,所以需要调大页面文件的大小 (你搁这搁这呢)。其实,电脑在默原创 2022-05-30 12:52:27 · 87758 阅读 · 36 评论 -
深度强化学习-TD3算法原理与代码
引言Twin Delayed Deep Deterministic policy gradient (TD3)是由Scott Fujimoto等人在Deep Deterministic Policy Gradient (DDPG)算法上改进得到的一种用于解决连续控制问题的在线(on-line)异策(off-policy)式深度强化学习算法。本质上,TD3算法就是将Double Q-Learning算法的思想融入到DDPG算法中。前面我们已经分别介绍过DDPG算法和Double DQN算法的原理并进行了代原创 2022-05-03 09:24:47 · 28261 阅读 · 29 评论 -
深度强化学习-确定性策略梯度算法推导
引言前面我们详细推导过策略梯度算法,如果有小伙伴对这个算法的推导过程比较感兴趣的话,可以看一下我的这篇博文:深度强化学习-策略梯度算法推导。在连续的动作空间中,动作的个数是无穷大的。如果采用常规方法,需要计算。而对于无穷多的动作,最大值往往很难求得。为此,D.Silver等人在文章《Deterministic Policy Gradient Algorithm》中提出了确定性策略的方法,用于处理连续动作空间问题。本文将针对连续动作空间,推导出确定性策略的策略梯度算法。1 确定性策略梯度算法对于.原创 2022-04-27 20:00:03 · 2448 阅读 · 1 评论 -
深度强化学习-DDPG算法原理与代码
引言Deep Deterministic Policy Gradient (DDPG)算法是DeepMind团队提出的一种专门用于解决连续控制问题的离线式(off-line)深度强化学习算法,它其实本质上借鉴了Deep Q-Network (DQN)算法里面的一些思想。本文就带领大家了解一下这个算法,论文和代码的链接见下方。论文:https://arxiv.org/pdf/1509.02971.pdf代码:https://github.com/indigoLovee/DDPG喜欢的话请点个s原创 2022-04-24 10:24:12 · 60002 阅读 · 50 评论 -
深度强化学习-Pytorch环境配置
引言“工欲善其事,必先利其器”,环境配置是开展Coding的第一步。我用过TensorFlow和Pytorch两种深度学习框架,对比下来更喜欢Pytorch。如果有小伙伴纠结使用哪个框架,我更加推荐Pytorch。本文主要跟大家讲解一下如何搭建Pytorch环境。1 安装Anaconda通过Anaconda3,我们可以创建多个不同的Python环境,并且控制Python版本。大家可以直接去Anaconda官网下载,不过建议去Aanconda清华镜像源下载,下载速度更快。我用的是Anaconda3原创 2022-01-24 19:09:17 · 6716 阅读 · 6 评论 -
深度强化学习-带基线的策略梯度算法原理
引言本文主要介绍策略梯度算法的一种改进——带基线的策略梯度算法(Reinforce with baseline)。通过引入基线,有效降低了学习过程中的方差,从而提升训练过程的稳定性。1 基线基线函数可以是任意随机函数或确定函数,它可以与状态有关,但是不能和动作有关。满足这样的条件后,基线函数自然满足证明:由于和动作无关,所以进而得证。...原创 2022-01-23 18:17:19 · 3011 阅读 · 2 评论 -
深度强化学习-策略梯度算法(Reinforce)代码
引言本文主要采用Pytorch来实现策略梯度算法,算法的原理可以参考我的这篇博文:深度强化学习-策略梯度算法推导,里面对该算法进行了详细推导。如果想深入理解策略梯度算法公式,可以参考我的另一篇博文:深度强化学习-策略梯度算法深入理解,里面将其与手写数字识别问题进行了类比,深入剖析了策略梯度算法公式。代码已经上传到我的Github上,喜欢的话可以点个小星星噢。代码:https://github.com/indigoLovee/Reinforce_pytorch1 Reinforce算法强化学习原创 2022-01-11 20:44:54 · 4820 阅读 · 2 评论 -
深度强化学习-策略梯度算法深入理解
1 引言在深度强化学习-策略梯度算法推导博文中,采用了两种方法推导策略梯度算法,并给出了Reinforce算法的伪代码。可能会有小伙伴对策略梯度算法的形式比较疑惑,本文就带领大家剖析其中的原理,深入理解策略梯度算法的公式。本文主要参考了百度飞桨的视频Policy Gradient算法有兴趣的小伙伴可以看看,我觉得讲的非常透彻。2 手写数字识别我们先来看一下手写数字识别案列,采用LeNet网络,其输入为一张手写数字照片,输出为0-9每个数字对应的概率。LeNet网络结构不是本文介绍的重点,我们主要原创 2022-01-03 19:21:35 · 3092 阅读 · 1 评论 -
深度强化学习-DQN算法原理与代码
DQN算法是DeepMind团队提出的一种深度强化学习算法,在许多电动游戏中达到人类玩家甚至超越人类玩家的水准,本文就带领大家了解一下这个算法,论文的链接见下方。论文:https://www.nature.com/articles/nature14236.pdf代码:后续会将代码上传到Github上...1 DQN算法简介Q-learning算法采用一个Q-tabel来记录每个状态下的动作值,当状态空间或动作空间较大时,需要的存储空间也会较大。如果状态空间或动作空间连续,则该算法无法使用。因原创 2021-12-10 14:02:33 · 40665 阅读 · 35 评论 -
深度强化学习-策略梯度算法推导
之前我们讨论过DQN算法:深度强化学习-DQN算法原理与代码、Double DQN算法:深度强化学习-Doubel DQN算法原理与代码、Dueling DQN算法:深度强化学习-Dueling DQN算法原理与代码以及D3QN算法:深度强化学习-D3QN算法原理与代码,这些算法在求解最优策略的过程中试图估计最优价值函数,所以这些算法都被称为最优价值算法(optimal value algorithm)。但是求解最优策略梯度不一定要估计最优价值函数,策略梯度算法(policy gradient algo原创 2022-01-01 19:43:28 · 4342 阅读 · 3 评论 -
深度强化学习-D3QN算法原理与代码
Dueling Double Deep Q Network(D3QN)算法结合了Double DQN和Dueling DQN算法的思想,进一步提升了算法的性能。如果对Doubel DQN和Dueling DQN算法还不太了解的话,可以参考我的这两篇博文:深度强化学习-Doubel DQN算法原理与代码和深度强化学习-Dueling DQN算法原理与代码,分别详细讲述了这两个算法的原理以及代码实现。本文就带领大家了解一下D3QN算法,代码链接见下方。代码:https://github.com/indigo原创 2021-12-15 10:01:32 · 17227 阅读 · 18 评论 -
深度强化学习-Dueling DQN算法原理与代码
Dueling Deep Q Network(Dueling DQN)是对DQN算法的改进,有效提升了算法的性能。如果对DQN算法还不太了解的话,可以参考我的这篇博文:深度强化学习-DQN算法原理与代码,里面详细讲述了DQN算法的原理和代码实现。本文就带领大家了解一下Dueling DQN算法,论文链接见下方。论文:http://proceedings.mlr.press/v48/wangf16.pdf代码:后续会将代码上传到Github上...1 Dueling DQN算法简介Duelin原创 2021-12-13 10:39:18 · 28198 阅读 · 15 评论 -
深度强化学习-Double DQN算法原理与代码
Double Deep Q-learning(DDQN)是对DQN算法的改进,有效提升了算法的性能,本文就带领大家了解一下这个算法,Double Q-learning算法的论文链接见下方。论文:https://ojs.aaai.org/index.php/AAAI/article/view/10295代码:后续会将代码上传到Github上...1 DDQN算法简介...原创 2021-12-11 13:31:12 · 28182 阅读 · 25 评论