前几天用PPO训练了个很一般的agent:
RL调参侠之BipedalWalker PPO
我看SpinningUp上面说PPO和SAC是两个领域里各自的State_of_the_art的方法,所以就打算跑SAC试试看,之前因为Open AI Five的原因,一直感觉PPO很牛掰,实际上现在很多自动驾驶的算法也是用PPO在跑,毕竟有一个“必定能够提升期望”的理论保证在这里,我理解这对做项目很大的诱惑。
不过我跑出来的结果明显是SAC更好。
调参侠时间
策略熵的权重alpha用的0.2,我一开始没有看SAC的论文,本来还以为这是跟PPO的CLIP值一样的拍脑袋的值,没想到这个的影响很大。
在SpinningUp源码的基础上首先还是调整下过大的reward:
// 调整reward
if rew == -100:
rew =