RL调参侠之BipedalWalker PPO

本文介绍了作者在尝试使用SpinningUp的PPO算法解决BipedalWalker问题时遇到的挑战及调参过程。通过调整奖励函数、策略网络的初始化标准差以及探索策略,成功让智能体学会行走。尽管结果未达到最佳,但证明了仅通过参数调整即可使原版PPO在复杂任务中发挥作用。作者还分享了对PPO和SAC算法适用性的个人见解。
摘要由CSDN通过智能技术生成

最近做图像算法做得胃疼,就打算找点强化学习的东西来看。之前看openAI做的dota2机器人感觉很牛掰,很感兴趣是怎么做的,所以从spinningUp开始看,感觉深度强化学习只是用了一下深度学习开发出来的工具,具体地说就是梯度计算,其他的东西都是自己的一套理论,深度学习里面各种亮瞎眼的网络结构设计,训练方法等等基本跟这边没什么关系。

最开始用CartPole和Pendulum这种简单的任务跑PPO,TD3,SAC这种高级一点的东西,都特别简单,但是如果是难一点的任务,比如BipedalWalker就不能随便跑了,尤其是对参数特别敏感。

SpinningUp原版PPO

如果直接用SpinningUp在Git上的PPO代码跑BipedalWalker,里面hyperparameter的设定会发现基本跑不出来,跑10次只有1-2次可以顺利训练出来,特别容易陷入local optima,我跑的情况就是经常人仰马翻,或者双腿劈叉趴在地上不动了。比如这样(大概50个epoch的时候):
PPO 失败案例

因为On-Policy算法本身的特点,算法陷入局部极值点后是出不来的,所以需要增加exploration的手段,比如像SAC那样加入熵。但是这里我希望能够用原始的PPO算法调一个模型出来,仅仅调一些参数,看可不可行。
后来看到这个链接:
On-Policy算法调参指南

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值