DQN（Deep Q-learning）从入门到放弃笔记

最新推荐文章于 2024-08-11 18:21:52 发布

yeqiang19910412

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.2w

点赞数 5

分类专栏：增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeqiang19910412/article/details/76192064

版权

本文介绍了DQN（Deep Q-learning）的基本概念，包括状态、动作、奖励、策略和价值函数，并提到了DeepMind和UC Berkeley的研究团队以及David Silver的增强学习课程。还概述了DQN系列的内容，从入门到深入探讨，包括DQN的改进和连续控制的NAF算法，以及用150行代码实现DQN解决CartPole问题。

摘要由CSDN通过智能技术生成

DQN中基本的概念：

A代表的是Agent的所有动作，a代表的是Agent的一个动作。
S代表的是Agent所能感知的世界的所有状态，s代表的是Agent的一个状态。
R是一个实数值，代表奖励或惩罚（Reward）。
$\pi$ 代表的是状态State和动作Action存在的映射关系，即策略Policy。如果策略是随机的，policy是根据每个动作概率 $\pi(a|s)$ 选择动作；如果策略是确定性的，policy则是直接根据状态s选择出动作 $a=\pi (s)$ 。

stochastic Policy： $\sum{\pi}(a|s)=1$
deterministic Policy： $\pi(s):S\to A$

定义 $G_{t}$ 为长期回报期望（Return）：表示某个时刻t的状态将具备的回报

Gt=Rt+1+λRt+2+...=∑

最低0.47元/天解锁文章

yeqiang19910412

关注

5
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。