【强化学习日志】离散动作环境下不同强化学习策略训练对比

wushenlunzhe

已于 2023-11-11 11:42:05 修改

阅读量68

点赞数

文章标签：人工智能神经网络机器学习 python

于 2023-11-11 11:41:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wushenlunzhe/article/details/134342527

版权

最近学习了以下强化学习，想了解一下控制变量下不同强化学习策略之间的差异有多大，于是就拿gym的PongNoFrameskip-v4环境为例，分别用无探索噪音的DDQN、DeulingNet、Prioritized-DDQN和有100K退火噪音的DDQN进行对比，使用的代码来自GitHub大佬，链接如下：GitHub - XinJingHao/Deep-Reinforcement-Learning-Algorithms-with-Pytorch: Clean and robust implementations of Reinforcement Learning algorithms by Pytorch

PongNoFrameskip-v4环境游戏界面：

四种策略的训练过程如下，主要对比的是训练收敛速度。

从上图可见DeulingNet貌似是效果最好的，优先经验选择的不知道为什么分数迟迟不能上去，别看它才训练到第200k来步，其实已经过去了1h18min，别的网络这时候都快收敛了。

此对比仅作参考，本人电脑比较渣，拿的1650跑的，还是个轻薄本，有条件了再买个好电脑。但看数据的话其实训练效果大差不差，况且虽然其他变量都一致，这个游戏可能也无法充分发挥每个学习策略的优势，就比如优先经验法不知道为什么效果很差，而且还耗时，在这个实验里效果完全不能看。最后我实际渲染时发现这个游戏的对手其实比较呆的，只会跟着球跑，训练出来无一例外都是智能体在同一位置快速把球击回去，然后对方就接不到了，稍微出点意外球不是按固定路径了大概率接不到，以后有可能拿别的更合适的游戏试试，主要跑一次太耗时了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【强化学习日志】离散动作环境下不同强化学习策略训练对比

离散动作空间不同强化学习的差异
复制链接

扫一扫

wushenlunzhe CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

174万+: 周排名

28万+: 总排名

236: 访问

: 等级

24: 积分

0: 粉丝

0: 获赞

2: 评论

1: 收藏

私信

关注

热门文章

最新评论

【强化学习日志】离散动作环境下不同强化学习策略训练对比
CSDN-Ada助手: 非常棒的博客！你对离散动作环境下不同强化学习策略的训练对比进行了深入的探索，这对于学习强化学习的读者来说是非常有价值的。我想给你一些建议，希望能够帮助你进一步拓展你的知识和技能。除了强化学习策略的对比训练，你还可以考虑研究一些其他的强化学习算法，比如Q-learning、SARSA等。这些算法在离散动作空间中也非常常见，对于理解和应用强化学习会有很大的帮助。另外，你还可以考虑深入探讨一些与强化学习相关的概念，比如马尔可夫决策过程（MDP）、值函数、策略梯度等。这些概念是理解强化学习的基础，对于读者来说也是非常重要的。总之，你的博客已经很出色了，希望你能够继续坚持写作，不断拓展自己的知识和技能。谦虚地说，我们每个人都有待学习的地方，相信你会越来越好的！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【强化学习日志】小鸟管道游戏的gym环境搭建和DDQN训练
CSDN-Ada助手: 恭喜你开始了博客创作，标题看起来非常专业！希望你可以继续分享更多关于强化学习和DDQN训练的内容，同时也期待你能够加入一些个人见解和心得体会，让读者更加深入地了解你的学习和实践过程。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
【强化学习日志】小鸟管道游戏的gym环境搭建和DDQN训练
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617558403。

大家在看

最新文章

【强化学习日志】小鸟管道游戏的gym环境搭建和DDQN训练

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。