自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_48370148的博客

原创 RL调参侠之BipedalWalker BipedalWalkerHardcore SAC

前几天用PPO训练了个很一般的agent：RL调参侠之BipedalWalker PPO我看SpinningUp上面说PPO和SAC是两个领域里各自的State_of_the_art的方法，所以就打算跑SAC试试看，之前因为Open AI Five的原因，一直感觉PPO很牛掰，实际上现在很多自动驾驶的算法也是用PPO在跑，毕竟有一个“必定能够提升期望”的理论保证在这里，我理解这对做项目很大的诱惑。不过我跑出来的结果明显是SAC更好。调参侠时间策略熵的权重alpha用的0.2，我一开始没有看SAC的

2021-03-08 21:22:06 1748 6

原创 RL调参侠之BipedalWalker PPO

最近做图像算法做得胃疼，就打算找点强化学习的东西来看，之前看openAI做的dota2机器人感觉很牛掰，很感兴趣是怎么做的，所以从spinningUp开始看，感觉深度强化学习只是用了一下深度学习开发出来的工具，具体地说就是梯度计算，其他的东西都是自己的一套理论，深度学习里面各种亮瞎眼的网络结构设计，训练方法等等基本跟这边没什么关系。最开始用CartPole和Pendulum这种简单的任务跑PPO,TD3,SAC这种高级一点的东西，都特别简单，但是如果是难一点的任务，比如BipedalWalker就不能随便

2021-03-04 19:49:45 2304 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hyx07 CSDN认证博客专家 CSDN认证企业博客

码龄4年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

122万+: 周排名

89万+: 总排名

4051: 访问

: 等级

33: 积分

2: 粉丝

6: 获赞

9: 评论

16: 收藏

私信

关注

热门文章

最新评论

RL调参侠之BipedalWalker BipedalWalkerHardcore SAC
cheer15: 你真是我大哥！
RL调参侠之BipedalWalker BipedalWalkerHardcore SAC
hyx07: RL算法对reward怎么给确实很敏感，而这里是因为reward的scale跟SAC的基础理论最大熵中的温度有关，所以需要特别的调节，其他RL算法里面可能影响没有那么大。
RL调参侠之BipedalWalker BipedalWalkerHardcore SAC
Chinatowns: 你是我的神！这个Reward Scale真的有用，起码不会出门大跨步了！不过为什么会对这个reward如此敏感呢？
RL调参侠之BipedalWalker PPO
hyx07: 动作action的采样分布被建模为高斯分布，这个std就是高斯分布的标准差
RL调参侠之BipedalWalker PPO
weixin_48714398: 请问std是什么参数？

最新文章

提示

确定要删除当前文章？

取消删除