Deep-Q-Network-DQN-的简单理解和几点Tips

最新推荐文章于 2022-10-17 00:07:49 发布

胡大力

最新推荐文章于 2022-10-17 00:07:49 发布

阅读量1.8k

点赞数 1

文章标签： python 机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44791073/article/details/107306862

版权

最近看论文时了解了一个新的机器学习分支-Deep Q-learning Netwokr（DQN），所以自己上网查找整理了一些此算法的基本概念及其细节实现的tips.

一.什么是DQN？

首先看名字可以知道，DQN是将DEEP LEARNING 和Q-learning相结合,所以先来简单介绍一下这两者的概念.

1.Q-learning

Q学习作为强化学习的分支，继承了强化学习的模型。如下图：

可以看出强化学习中存在一个基本的数值对（状态S,动作a），一开始环境处于S0状态，这时agent做出一个动作a0，环境受动作影响状态改变到S1并给agent一个反馈reward，告诉它你刚刚这个动作a0对我处于状态S0的影响是好是坏，相当于奖惩值，就这样不断循环直到事件结束.
Q学习算法中的Q(s,a)函数表示在状态s采取行动a并在之后采取最优动作策略的未来累计奖励（未来奖励是要打折扣的）。
而Q学习算法就是用贝尔曼公式不断的迭代更新Q函数，直到找到最优的策略。

2.深度学习中的神经网络

在上面的介绍中，可以看出Q学习需要使用表格来存储每一对（s，a）

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Deep-Q-Network-DQN-的简单理解和几点Tips

最近看论文时了解了一个新的机器学习分支-Deep Q-learning Netwokr（DQN），所以自己上网查找整理了一些此算法的基本概念及其细节实现的tips.一.什么是DQN？首先看名字可以知道，DQN是将DEEP LEARNING 和Q-learning相结合,所以先来简单介绍一下这两者的概念.1.Q-learningQ学习作为强化学习的分支，继承了强化学习的模型。如下图：可以看出强化学习中存在一个基本的数值对（状态S,动作a），一开始环境处于S0状态，这时agent做出一个动作a0.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。