深度强化学习之Deep Q Learning

菜鸟小菇凉

于 2019-04-12 19:04:25 发布

阅读量1.5k

点赞数 1

文章标签： DQN 强化学习 Q Learning cs231(14）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44188264/article/details/89221655

版权

深度强化学习之Deep Q Learning

本文主要讲解：Deep Q Network 下面我们简称为 DQN。DQN采用深度神经网络来表示Q函数，通常也称为Deep Q Learning 。

DQN是在论文《Playing Atari with Deep Reinforcement Learning》中提出的。这篇论文主要讲解如何用深度强化学习来玩Astair游戏。

首先，先来简单介绍一下Astair游戏中的breakout游戏的游戏规则：
“打砖块”
游戏开始时，画面今显示8排砖块，每隔两排，砖块的颜色就不同。由下至上的颜色排序为黄色、绿色、橙色和红色。游戏开始后，玩家必须控制一块平台左右移动以反弹一个球。当那个球碰到砖块时，砖块就会消失，而球就会反弹。3当玩家未能用平台反弹球的话，那么玩家就输掉了那个回合。当玩家连续输掉3次后，玩家就会输掉整个游戏。

DQN要解决的问题是：如何从原始的游戏画面出发，通过强化学习自动学出玩游戏的方法。

Q-Learning算法是以Q（状态，动作）来表示函数。在这个过程中Q函数实际上Q函数是用一张表格来表示的。表格的每一行表示一种状态，每一列表示一种动作。

最低0.47元/天解锁文章

菜鸟小菇凉

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

菜鸟小菇凉 CSDN认证博客专家 CSDN认证企业博客

码龄6年

10: 原创

106万+: 周排名

78万+: 总排名

9万+: 访问

: 等级

567: 积分

8: 粉丝

102: 获赞

4: 评论

219: 收藏

私信

关注

热门文章

分类专栏

最新评论

np.argmax()函数解析
前路还很长: 就是列表中的三个元素的每一行对应比较，按列比较输出索引。例如，[1,2,3,4]与[1,-3,5,-7]与[1,2,4,6]按列比较，结果是[0,0,1,2]。
np.argmax()函数解析
素颜女神: 三维的没太懂
annaconda中的CondaHTTPError问题
菜鸟小菇凉: 我的电脑安装了硬盘，所以文件夹位置不一样，文章中的是大部分人的文件位置

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。