本博文系列将记录本人理解gym-gazebo的过程。最终目标是添加自己建的环境,并使用gym来在此环境中进行强化学习的研究。
这是利用dqn训练好的,利用laser进行自动避障的机器人。没有使用gym-gazebo中给出的算法(算法有bug,索性就自己编了),作为阶段性的成果,mark以下。
- state(observation):50维的laser数据
- reward:自己定义了一个函数,偏好大速度向前移动
有几点体会
- 传统的q-learning在这类问题基本上不会有好的结果,原因很简单。
- 在这个场景dqn性能最好的时刻不是最后,而是在中间的时刻,这点跟传统的supervised learning有所不同,需要思考。
- 测试时候即使reset了,每次的结果也是不一样的(大方向一致),原因需要想一想,我有个大致想法,正在验证。
接下来我们将测试新的算法与传感器