【强化学习日志】离散动作环境下不同强化学习策略训练对比

         最近学习了以下强化学习,想了解一下控制变量下不同强化学习策略之间的差异有多大,于是就拿gym的PongNoFrameskip-v4环境为例,分别用无探索噪音的DDQN、DeulingNet、Prioritized-DDQN和有100K退火噪音的DDQN进行对比,使用的代码来自GitHub大佬,链接如下:GitHub - XinJingHao/Deep-Reinforcement-Learning-Algorithms-with-Pytorch: Clean and robust implementations of Reinforcement Learning algorithms by Pytorch

         PongNoFrameskip-v4环境游戏界面:

         四种策略的训练过程如下,主要对比的是训练收敛速度。

 

        从上图可见DeulingNet貌似是效果最好的,优先经验选择的不知道为什么分数迟迟不能上去,别看它才训练到第200k来步,其实已经过去了1h18min,别的网络这时候都快收敛了。

        此对比仅作参考,本人电脑比较渣,拿的1650跑的,还是个轻薄本,有条件了再买个好电脑 。但看数据的话其实训练效果大差不差,况且虽然其他变量都一致,这个游戏可能也无法充分发挥每个学习策略的优势,就比如优先经验法不知道为什么效果很差,而且还耗时,在这个实验里效果完全不能看。最后我实际渲染时发现这个游戏的对手其实比较呆的,只会跟着球跑,训练出来无一例外都是智能体在同一位置快速把球击回去,然后对方就接不到了,稍微出点意外球不是按固定路径了大概率接不到,以后有可能拿别的更合适的游戏试试,主要跑一次太耗时了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值