一图看懂DQN(Deep Q-Network)深度强化学习算法

最新推荐文章于 2022-03-11 18:00:14 发布

薄荷-塘

最新推荐文章于 2022-03-11 18:00:14 发布

阅读量2.4w

点赞数 57

分类专栏：深度强化学习文章标签：强化学习深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xz15873139854/article/details/108032932

版权

一图看懂DQN(Deep Q-Network)深度强化学习算法

DQN简介

DQN是一种深度学习和强化学习结合的算法，提出的动机是传统的强化学习算法Q-learning中的Q_table存储空间有限，而现实世界甚至是虚拟世界中的状态是接近无限多的（比如围棋），因此，无法构建可以存储超大状态空间的Q_table。不过，在机器学习中, 有一种方法对这种事情很在行，那就是神经网络，可以将状态和动作当成神经网络的输入，然后经过神经网络分析后得到动作的 Q 值，这样就没必要在表格中记录 Q 值，而是直接使用神经网络预测Q 值 [1]。

算法框架

下面是DQN算法框架，如果想更详细地理解DQN，请点击这里，参阅源文章《Playing Atari with Deep Reinforcement Learning》。

在这里插入图片描述

算法图解

根据文献阅读，学习教程[1]（可点击这里），和项目实践[2]（可点击

最低0.47元/天解锁文章

关注

57
点赞
踩
233

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

3
原创

97
点赞

306
收藏

32
粉丝

关注

私信

分类专栏

最新评论

一图看懂DQN(Deep Q-Network)深度强化学习算法
我可以是攻城狮吗: 博主你好，请问一下求目标网络和预测网络的差别那一步，为什么输出是用rj或者rj+ymaxQ_hat这样来求呢？就是想问为什么ri或者rj+ymaxQ_hat能用来检验预测网络是否正确。
深度强化学习血泪调参史：从人工智障到人工智能
橘子皮303: 你好如果状态空间中的状态数值相差很大，比如个位数和几十万的数的时候怎么进行归一化处理呢
一图看懂Policy Gradients深度强化学习算法
qq_42989294: 好文！感谢博主
一图看懂Policy Gradients深度强化学习算法
清瞳、: 这图真是太清晰了
一图看懂DQN(Deep Q-Network)深度强化学习算法
真·skysys: 关于单词的比喻建议修改...

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。