- 博客(2)
- 收藏
- 关注
原创 RL调参侠之BipedalWalker BipedalWalkerHardcore SAC
前几天用PPO训练了个很一般的agent:RL调参侠之BipedalWalker PPO我看SpinningUp上面说PPO和SAC是两个领域里各自的State_of_the_art的方法,所以就打算跑SAC试试看,之前因为Open AI Five的原因,一直感觉PPO很牛掰,实际上现在很多自动驾驶的算法也是用PPO在跑,毕竟有一个“必定能够提升期望”的理论保证在这里,我理解这对做项目很大的诱惑。不过我跑出来的结果明显是SAC更好。调参侠时间策略熵的权重alpha用的0.2,我一开始没有看SAC的
2021-03-08 21:22:06 1748 6
原创 RL调参侠之BipedalWalker PPO
最近做图像算法做得胃疼,就打算找点强化学习的东西来看,之前看openAI做的dota2机器人感觉很牛掰,很感兴趣是怎么做的,所以从spinningUp开始看,感觉深度强化学习只是用了一下深度学习开发出来的工具,具体地说就是梯度计算,其他的东西都是自己的一套理论,深度学习里面各种亮瞎眼的网络结构设计,训练方法等等基本跟这边没什么关系。最开始用CartPole和Pendulum这种简单的任务跑PPO,TD3,SAC这种高级一点的东西,都特别简单,但是如果是难一点的任务,比如BipedalWalker就不能随便
2021-03-04 19:49:45 2304 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人