Imitation Learning and Model Integrated Excavator Trajectory Planning 论文解读

1、背景

目前自动挖掘机轨迹生成的两个方法:

  1. 基于模型轨迹规划:基于规则(使用规则生成轨迹,给定挖掘条件经过微调后可用但是缺乏泛化能力)、基于优化(试图根据挖掘机的运动学和逆运动学动态模型以及环境信息[6],[7],生成能够最小化(或最大化)某些目标的轨迹。在模型正确、数据足够的情况下,表现好,但是建模困难和多解的问题)
  2. 基于学习轨迹规划:从数据中生成挖掘轨迹,或者通过其他方法,如RL或者IL生成。

本文提出了:基于挖掘轨迹IL和模型优化的两阶段方法。收集数据,模仿学习获得策略后,使用Dagger在线收集轨迹并更新模仿学习策略。

2、方法

采集数据训练Actor网络后,在实际环境中运行Actor,输入新的s生成路径,人工检测路径是否合适,如果合适,则通过STOMP方法优化轨迹并让Fanka执行;若不够好,直接人工示教,轨迹交由Franka执行。

并且在每一回合收集数据后,使用Dagger方法优化Actor网络参数。

2.1 模仿学习(Actor网络)

输入:待挖区域信息(待挖物料相对高程+物料类型)、挖掘机状态

输出:挖机动作轨迹

2.1.1 地形信息
<
  • 42
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值