强化学习实践 | DQN和OpenAI Gym中的CartPole

最新推荐文章于 2024-05-11 21:06:19 发布

SuperFeHanHan

最新推荐文章于 2024-05-11 21:06:19 发布

阅读量685

点赞数 2

分类专栏： David Silver 强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44495738/article/details/115776725

版权

强化学习实践 | DQN

1. 直觉介绍
2. Experience replay 和 Fixed Q-targets
3. 伪代码
4. PyTorch实现

原论文：Playing Atari with Deep Reinforcement Learning
参考：
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-DQN/

1. 直觉介绍

我们之前利用的是Q-Table查询的方法得到每一个State应该做的动作，但在State很多的时候，我们无法存储那么多的State。因此，另一种解决方案是通过函数（神经网络拟合），具体来说有2种

输入 $s_t,a_t)$ ，输出 $q(s_t,a_t)$
输入 $s_t$ ，输出 $q(s_t,a_1),...,q(s_t,a_n)$ （即输出各个动作的q值）

我们对第二种方法继续讨论：

target: $R+\gamma*maxQ(s')$

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
强化学习实践 | DQN和OpenAI Gym中的CartPole

强化学习实践 | DQN1. 直觉介绍2. Experience replay 和 Fixed Q-targets3. 伪代码4. PyTorch实现4.1 CartPole介绍4.2 Dummy Policy4.3 DQN4.4 完整代码(附注释)：原论文：Playing Atari with Deep Reinforcement Learning参考：https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/int
复制链接

扫一扫

专栏目录

SuperFeHanHan CSDN认证博客专家 CSDN认证企业博客

码龄6年

149: 原创

3万+: 周排名

65万+: 总排名

7万+: 访问

: 等级

1634: 积分

925: 粉丝

45: 获赞

30: 评论

304: 收藏

私信

关注

热门文章

分类专栏

最新评论

ROS从入门到放弃——用TurtleBot3做Navigation模拟
qq_45501854: 这个地图重合之后点2D nav goal之后又变不重合了是咋弄
强化学习实践 | DQN和OpenAI Gym中的CartPole
B.RLBL: 博主您好，遇到这个问题是什么原因呢？ "D:\Program Files (x86)\python.exe" E:/19-python/reinforcementv4/main.py Collecting experience... i=0 memory_counter = 0 E:\19-python\reinforcementv4\main.py:57: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\utils\tensor_new.cpp:233.) x = torch.unsqueeze(torch.FloatTensor(x),0) # shape [N_STATES]->[1,N_STATES] Traceback (most recent call last): File "E:\19-python\reinforcementv4\main.py", line 111, in <module> a = dqn.choose_action(s) File "E:\19-python\reinforcementv4\main.py", line 57, in choose_action x = torch.unsqueeze(torch.FloatTensor(x),0) # shape [N_STATES]->[1,N_STATES] ValueError: expected sequence of length 4 at dim 1 (got 0)
ROS从入门到放弃 —— 玩一玩F1TENTH
喜欢刀刀的来来: 225 degrees为啥是7*pi/4呀
DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020.
weixin_52075343: 按：wq退出那步先按下esc键
DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020.
m0_71748864: 好像没有解决

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。