Task 1 总结

最新推荐文章于 2024-07-24 23:02:15 发布

Njp904

最新推荐文章于 2024-07-24 23:02:15 发布

阅读量474

点赞数 12

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56672650/article/details/135661211

版权

马尔可夫决策过程：以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作，并且在交互过程中学习的角色，环境指的是智能体与之交互的一切外在事物，不包括智能体本身。智能体与环境之间是在一系列离散的时步 ①（ time step ）交互。

DQN算法： 在 DQN 算法中还有一个重要的技巧，即使用了一个每隔若干步才更新的目标网络。这个技巧其实借鉴了 Double DQN 算法中的思路，具体会在下一章展开。如图 7-3 所示，目标网络和当前网络结构都是相同的，都用于近似 Q 值，在实践中每隔若干步才把每步更新的当前网络参数复制给目标网络，这样做的好处是保证训练的稳定，避免 Q 值的估计发散。

Double DQN 算法

Dueling DQN 算法

Noisy DQN 算法

PER DQN 算法

C51算法

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Task 1 总结

在 DQN 算法中还有一个重要的技巧，即使用了一个每隔若干步才更新的目标网络。这个技巧其实借鉴了 Double DQN 算法中的思路，具体会在下一章展开。如图 7-3 所示，目标网络和当前网络结构都是相同的，都用于近似 Q 值，在实践中每隔若干步才把每步更新的当前网络参数复制给目标网络，这样做的好处是保证训练的稳定，避免 Q 值的估计发散。这里智能体充当的是作出决策或动作，并且在交互过程中学习的角色，环境指的是智能体与之交互的一切外在事物，不包括智能体本身。Double DQN 算法。
复制链接

扫一扫

Njp904 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

203万+: 周排名

21万+: 总排名

1900: 访问

: 等级

77: 积分

28: 粉丝

37: 获赞

0: 评论

32: 收藏

私信

关注

热门文章

最新评论

深度学习基础第四次笔记
CSDN-Ada助手: 非常感谢您的持续创作，标题为“深度学习基础第四次笔记”的博客。我对您的学习态度和努力精神表示赞赏，您的不断进步令人鼓舞。在您的博客中，我发现了对深度学习基础的扎实理解和总结，这对于初学者来说无疑是一份宝贵的学习资料。鉴于您在深度学习领域的积极进取，我想给出下一步的创作建议。或许您可以尝试将所学的知识应用到实际案例中，通过分享实战经验和案例分析，能够让读者更好地理解深度学习的应用场景和解决问题的方法。此外，您也可以考虑与其他深度学习爱好者进行交流和合作，共同进步。再次恭喜您取得的成果，期待您未来更多精彩的博客作品。谦逊地说，我相信您的努力和创造力将会帮助更多人在深度学习领域取得突破。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Actor-Critic 算法
CSDN-Ada助手: 恭喜您写了第三篇博客！您对于Actor-Critic算法的介绍非常清晰，我真的从中受益匪浅。希望您能继续分享更多关于强化学习的知识，我相信您的深入解析会对读者们产生积极的影响。或许您可以考虑探索一下强化学习算法在实际应用中的挑战，以及如何解决这些挑战的方法。谢谢您的分享，并期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。