强化学习
文章平均质量分 93
钟鸣_
这个作者很懒,什么都没留下…
展开
-
深度强化学习(DRL)五:优先回放DQN(Prioritized experience replay)
目录一、优先回放二、代码参考全部代码https://github.com/ColinFred/Reinforce_Learning_Pytorch/tree/main/RL/DQN一、优先回放在经验回放中是利用均匀分布采样,而这种方式看上去并不高效,对于智能体而言,这些数据的重要程度并不一样,因此提出优先回放(Prioritized Replay)的方法。优先回放的基本思想就是打破均匀采样,赋予学习效率高的样本以更大的采样权重。一个理想的标准是智能体学习的效率越高,权重越大。符合该标准的一个选择是原创 2022-03-08 17:06:53 · 4631 阅读 · 0 评论 -
深度强化学习(DRL)四:DQN的实战(DQN, Double DQN, Dueling DQN)
目录一、环境二、DQN一、环境查看可用的环境from gym import envsprint(envs.registry.all())ValuesView(├──CartPole: [ v0, v1 ]├──MountainCar: [ v0 ]├──MountainCarContinuous: [ v0 ]├──Pendulum: [ v1 ]├──Acrobot: [ v1 ]├──LunarLander: [ v2 ]├──LunarLanderContinuous: [ v原创 2022-03-08 08:35:35 · 3093 阅读 · 1 评论 -
深度强化学习(DRL)三:从Q-learning到Deep Q Network(DQN)
目录一、Q-learning一、Q-learning关于Q-learning,网上的资料很多,简单的总结一下它的特点。Q-learning最核心的是有一个Q表,它记录了在环境中的 所有状态(s) 以及每个状态对应的 所有行为(a) 的Q值。状态 \ 行为a1a2a3a4s1s2s3……Q值的更新公式如下:...原创 2020-02-29 20:23:23 · 1827 阅读 · 0 评论 -
深度强化学习(DRL)二:强化学习环境Gym
目录一、选择框架二、认识Gym三、从代码开始一、选择框架RL方面学习框架和平台很多,比较出名的有DeepMind的 Control Suite,OpenAI的 Gym 和 MuJoCo,以及Roboschool、PyBullet等等。模型和算法依赖于后端使用的库有numpy, tensorflow, keras, pytorch等等。作为一个初学者,我选则比较常用的OpenAI的 Gym ...原创 2020-02-28 15:18:40 · 5819 阅读 · 0 评论 -
深度强化学习(DRL)一:入门篇
目录前言强化学习(RL)的基本概念主要算法和相关分类QlearningSarsaA3C强化学习到深度强化学习前言之前通过对AlphaGo Zero的学习,我对深度强化学习有了一定的了解。但是由于没有经过系统的学习,我对其中的知识还有很多不懂的地方。写这一系列文章主要是整理一下网上的资料,梳理这方面的知识,做一下总结。目前网上关于深度强化学习的应用这方向的资料不算多,再加上深度强化学习本身也是一...原创 2020-02-27 13:47:46 · 19329 阅读 · 1 评论 -
mujoco win7下载安装
mujoco在win7环境下的下载和安装一 安装Microsoft Visual C++ 14.0下载地址: https://964279924.ctfile.com/fs/1445568-239446865这个在安装 scrapy 时候遇到过,很烦人.二 安装mjpro150 win64,下载地址:https://www.roboti.us/index.html把解压好的文件...原创 2019-03-21 13:32:28 · 4431 阅读 · 7 评论 -
AlphaGo Zero详解
AlphaGo Zero思考再三,决定研究一下 AlphaGo Zero,并把 AlphaGo Zero 的思想运用到五子棋 中,毕设就决定做这个。AlphaGo Zero 最大的亮点是:完全没有利用人类知识,就能够获得比之前版本更强大的棋力。主要的做法是:利用蒙特卡洛树搜索建立一个模型提升器在自我对弈过程中,利用提升器指导模型提升,模型提升又进一步提高了提升器的能力。蒙特卡洛树...原创 2019-03-20 23:21:27 · 26019 阅读 · 1 评论 -
AlphaZero五子棋网络模型【python】
前文: AlphaGo Zero详解蒙特卡洛树搜索(MCTS)代码详解【python】代码来自 https://zhuanlan.zhihu.com/p/32089487五子棋版的AlphaZero网络一开始是公共的3层全卷积网络,分别使用32、64和128个 3\times3 的filter,使用ReLu激活函数。然后再分成policy和value两个输出。在policy这一端,先使...原创 2019-03-27 20:57:45 · 8625 阅读 · 2 评论