注意:该文章仅用于提出问题,尚没有答案
最近对自动泊车比较感兴趣,想用强化学习来解决自动泊车的问题,然后发现了一个非常优秀的工程,Parking - highway-env Documentation
其github网址是 GitHub - Farama-Foundation/HighwayEnv: A minimalist environment for decision-making in autonomous driving该工程实现了一个自动泊车的环境,并有训练代码,训练后效果如下:
训练代码为scripts/parking_her.ipynb
我用该代码进行训练,确实可以得出上图的效果,泊车成功率有时可以达到100%
但上图的画面过于理想,大概情况是整个停车场内没有其他车辆,只有这一辆车,跟实际情况差距很大;
另一个问题是车道过宽,也就是两列停车位中间间距很大,我觉得需要对env进行定制;
首先一个是添加其他车辆,该功能在代码中已包含,一个参数
"vehicles_count": 0,
就是负责其他车辆的,只不过默认值为0,如果将该值设置为10,其他停车位就会有车辆,
然后我也调整了两列停车位的间距,
- y_offset = 10
+ y_offset = 4
从10改为了4,然后再进行训练,发现训练效果无法收敛
我做过一些尝试,就是在神经网络中添加CNN,把render的画面作为输入值,我目前的env画面大致如下:
所以,我现在是训练遇到了难题,看是否有有兴趣的高手,能一起探讨一下?
上次和某老师探讨了一下,他的其他建议我倒是没记到,只有一句降低学习率我印象比较深刻,然后参考了一下项目rl-baselines3-zoo的hyperparams/ppo.yml,发现其学习率比我代码中的学习率小,最小的是2e-5,所以先把学习率将为1e-4,然后学习步数增大,改为1e7
为了减少复杂度,暂时先不添加障碍物,训练三四个小时后,步数大概为9w步左右,成功率可以达到100%