1、背景
目前自动挖掘机轨迹生成的两个方法:
- 基于模型轨迹规划:基于规则(使用规则生成轨迹,给定挖掘条件经过微调后可用但是缺乏泛化能力)、基于优化(试图根据挖掘机的运动学和逆运动学动态模型以及环境信息[6],[7],生成能够最小化(或最大化)某些目标的轨迹。在模型正确、数据足够的情况下,表现好,但是建模困难和多解的问题)
- 基于学习轨迹规划:从数据中生成挖掘轨迹,或者通过其他方法,如RL或者IL生成。
本文提出了:基于挖掘轨迹IL和模型优化的两阶段方法。收集数据,模仿学习获得策略后,使用Dagger在线收集轨迹并更新模仿学习策略。
2、方法
采集数据训练Actor网络后,在实际环境中运行Actor,输入新的s生成路径,人工检测路径是否合适,如果合适,则通过STOMP方法优化轨迹并让Fanka执行;若不够好,直接人工示教,轨迹交由Franka执行。
并且在每一回合收集数据后,使用Dagger方法优化Actor网络参数。
2.1 模仿学习(Actor网络)
输入:待挖区域信息(待挖物料相对高程+物料类型)、挖掘机状态
输出:挖机动作轨迹