自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 RL调参侠之BipedalWalker BipedalWalkerHardcore SAC

前几天用PPO训练了个很一般的agent:RL调参侠之BipedalWalker PPO我看SpinningUp上面说PPO和SAC是两个领域里各自的State_of_the_art的方法,所以就打算跑SAC试试看,之前因为Open AI Five的原因,一直感觉PPO很牛掰,实际上现在很多自动驾驶的算法也是用PPO在跑,毕竟有一个“必定能够提升期望”的理论保证在这里,我理解这对做项目很大的诱惑。不过我跑出来的结果明显是SAC更好。调参侠时间策略熵的权重alpha用的0.2,我一开始没有看SAC的

2021-03-08 21:22:06 1748 6

原创 RL调参侠之BipedalWalker PPO

最近做图像算法做得胃疼,就打算找点强化学习的东西来看,之前看openAI做的dota2机器人感觉很牛掰,很感兴趣是怎么做的,所以从spinningUp开始看,感觉深度强化学习只是用了一下深度学习开发出来的工具,具体地说就是梯度计算,其他的东西都是自己的一套理论,深度学习里面各种亮瞎眼的网络结构设计,训练方法等等基本跟这边没什么关系。最开始用CartPole和Pendulum这种简单的任务跑PPO,TD3,SAC这种高级一点的东西,都特别简单,但是如果是难一点的任务,比如BipedalWalker就不能随便

2021-03-04 19:49:45 2304 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除