理解gym-gazebo系列(五)

本博文系列将记录本人理解gym-gazebo的过程。最终目标是添加自己建的环境,并使用gym来在此环境中进行强化学习的研究。

这是利用dqn训练好的,利用laser进行自动避障的机器人。没有使用gym-gazebo中给出的算法(算法有bug,索性就自己编了),作为阶段性的成果,mark以下。

  • state(observation):50维的laser数据
  • reward:自己定义了一个函数,偏好大速度向前移动

有几点体会

  • 传统的q-learning在这类问题基本上不会有好的结果,原因很简单。
  • 在这个场景dqn性能最好的时刻不是最后,而是在中间的时刻,这点跟传统的supervised learning有所不同,需要思考。
  • 测试时候即使reset了,每次的结果也是不一样的(大方向一致),原因需要想一想,我有个大致想法,正在验证。

这里写图片描述

接下来我们将测试新的算法与传感器

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值