【深度强化学习】深度Q网络DQN

最新推荐文章于 2024-07-04 18:02:09 发布

菜鸟果果

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量2.2k

点赞数 1

文章标签：网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45523256/article/details/122888424

版权

[深度强化学习]DQN

DQN是将深度学习和强化学习结合起来而实现从感知到动作的端对端的全新算法。
深度Q学习的核心就是用一个人工神经网络q ( s , a ; θ ) , s ∈ S , a ∈ A来代替动作价值函数。

DQN的算法流程：

在这里插入图片描述
Q-leaning和DQN的区别

与Q-Learning相比，DQN主要改进在以下三个方面：
（1）DQN利用深度卷积网络(Convolutional Neural Networks,CNN)来逼近值函数；
（2）DQN利用经验回放训练强化学习的学习过程；
（3）DQN独立设置了目标网络来单独处理时序差分中的偏差。

经验回放（experience replay）：将经验（即历史的状态、动作、奖励等）存储起来，再在存储的经验中按一定的规则采样。
目标网络（target network）：修改网络的更新方式，例如不把刚学习到的网络权重马上用于后续的自益过程。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【深度强化学习】深度Q网络DQN

[深度强化学习]DQNDQN是将深度学习和强化学习结合起来而实现从感知到动作的端对端的全新算法。深度Q学习的核心就是用一个人工神经网络q ( s , a ; θ ) , s ∈ S , a ∈ A来代替动作价值函数。DQN的算法流程：Q-leaning和DQN的区别与Q-Learning相比，DQN主要改进在以下三个方面：（1）DQN利用深度卷积网络(Convolutional Neural Networks,CNN)来逼近值函数；（2）DQN利用经验回放训练强化学习的学习过程；（3）D
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。