注:自学笔记,有错误的地方欢迎指正!
论文地址:Model-Based Imitation Learning for Urban Driving
1、主要工作
MILE:一种基于模型的模仿学习方法,用于共同学习世界模型和自动驾驶策略。
该方法利用3D几何作为归纳偏差①,并直接从专家演示的高分辨率视频中学习高度紧凑的潜在空间;在离线的城市驾驶数据语料库上训练,与环境没有任何的在线交互。
成果:当部署在一个全新的城镇和新的天气条件下时,MILE在CARLA模拟器上的驾驶分数比现有技术提高了31%。论文模型可以预测不同的和合理的状态和动作,并解码为鸟瞰图语义分割。
①归纳偏差(Inductive bias)可以理解为一种先验约束,能够帮助我们在多个可能的模型中选择出一个。该模型利用3D几何形状作为归纳偏差来扩展城市环境中自动驾驶的视觉复杂性。
2、相关工作
工作处于模仿学习、3D场景表示和世界建模的交叉点(论文中该部分介绍了模仿学习、3D场景表示、世界模型以及轨迹预测的目前工作进展)。
3、MILE:Model-based Imitation LEarning
3.1 概率生成模型

图 1 MILE模型框架
其中, 为
个视频帧序列;
为专家动作;
为地面实况鸟瞰图语义分割标签;
为潜变量。完整的概率模型如下:
(1)模型目标是推断潜在动态,这些动态生成了观测值
、专家动作
和鸟瞰图标签
。
(2)推断模型以为参数,估计随即状态的后验分布
,其中
,
是观测编码器,能将图像特征提升到3D,汇集到鸟瞰图再压缩到1D。
(3)生成模型以为参数,估计随即状态的先验分布
,其中
是确定性跃迁,
是预测的动作;同时估计观测值的分布
、鸟瞰图分割
和动作分布
。
(4)图1表示模型观察个时间步的输入,然后推断未来的潜在状态和动作。
模型拆分理解:
①
观测编码器 将图像特征提升到3D,汇集到鸟瞰图中,并将其压缩成1D矢量。
②
先验分布 ,相当于模型推理将要发生的,后验分布
,相当于将要真实发生的,二者进行匹配。
③
图像解码器和鸟瞰图解码器
分别输出重构的场景和鸟瞰图分割。驾驶策略
输出车辆控制,如加速度、转向角等。
④
循环网络计算确定性过度信息。先验分布
和后验分布
再次匹配。
⑤
从观察到的过去情境中,该模型可以推理未来的状态和行动,并可以通过解码器可视化。
3.2 变分推断
数学推导详见原文及其附录。
3.3 推理网络(由观察编码器和后验网络组成)
3.3.1 观察编码器
将图像特征提升到3D;池化到鸟瞰图中(BeV),将3D特征汇集到鸟瞰图中;在鸟瞰图中映射为1D向量;以路线图的形式为智能体提供目标(灰度图像),指示智能体在交叉路口导航的位置,使用卷积模块得到1D特征,当前速度使用全连接层编码为,每个时间步的观测嵌入
包括图像特征、路线图特征和速度特征:
。
3.3.2 后验网络
后验网络估计变分分布
的参数,其中
,由于假设
是确定性的,是使用
推理出来的,这意味着
。
3.4 生成网络
生成网络的参数为,对潜在动态
,
的生成过程进行建模,包括门递归单元
、先验网络
、图像解码器
、鸟瞰图解码器
、策略
。
先验网络估计高斯分布的参数,其中
、
。由于先验分布无法访问真实动作
,因此使用学习的策略来估计。先验分布要与后验分布进行匹配。
3.5 想象未来状态与动作
该模型可以想象未来的潜在状态,方法是使用学习的策略来推断,推断下一确定性状态
,并从先验分布中采样
,
。这个过程可以迭代地应用于在潜在空间中生成更长的未来序列,并且预测的未来可以通过解码器可视化。
4、结论
MILE是一种基于模型的模仿学习方法,用于城市驾驶,仅从离线专家演示中联合学习驾驶策略和世界模型。该方法利用几何归纳偏差,操作高维视觉输入,并设置一个新的国家的最先进的CARLA模拟器。MILE可以预测不同的和合理的未来状态和行动,允许模型从完全根据想象预测的计划驱动。一个开放的问题是如何从专家数据中推断驾驶奖励函数,因为这将使世界模型中的明确规划成为可能。另一个令人兴奋的途径是自我监督,以放松对鸟瞰图分割标签的依赖。自我监督可以充分释放世界模型的潜力,用于现实世界的驾驶和其他机器人任务。