注:自学笔记,有错误的地方欢迎指正!
论文地址:Model-Based Imitation Learning for Urban Driving
1、主要工作
MILE:一种基于模型的模仿学习方法,用于共同学习世界模型和自动驾驶策略。
该方法利用3D几何作为归纳偏差①,并直接从专家演示的高分辨率视频中学习高度紧凑的潜在空间;在离线的城市驾驶数据语料库上训练,与环境没有任何的在线交互。
成果:当部署在一个全新的城镇和新的天气条件下时,MILE在CARLA模拟器上的驾驶分数比现有技术提高了31%。论文模型可以预测不同的和合理的状态和动作,并解码为鸟瞰图语义分割。
①归纳偏差(Inductive bias)可以理解为一种先验或约束,能够帮助我们在多个可能的模型中选择出一个。该模型利用3D几何形状作为归纳偏差来扩展城市环境中自动驾驶的视觉复杂性。
2、相关工作
工作处于模仿学习、3D场景表示和世界建模的交叉点(论文中该部分介绍了模仿学习、3D场景表示、世界模型以及轨迹预测的目前工作进展)。
3、MILE:Model-based Imitation LEarning
3.1 概率生成模型
图 1 MILE模型框架
其中, 为个视频帧序列; 为专家动作; 为地面实况鸟瞰图语义分割标签; 为潜变量。完整的概率模型如下:
(1)模型目标是推断潜在动态,这些动态生成了观测值、专家动作和鸟瞰图标签。
(2)推断模型以为参数,估计随即状态的后验分布,其中,是观测编码器,能将图像特征提升到3D,汇集到鸟瞰图再压缩到1D。
(3)生成模型以为参数,估计随即状态的先验分布,其中是确定性跃迁,是预测的动作;同时估计观测值的分布、鸟瞰图分割和动作分布。
(4)图1表示模型观察个时间步的输入,然后推断未来的潜在状态和动作。
模型拆分理解:
①
观测编码器 将图像特征提升到3D,汇集到鸟瞰图中,并将其压缩成1D矢量。
②
先验分布 ,相当于模型推理将要发生的,后验分布 ,相当于将要真实发生的,二者进行匹配。
③
图像解码器和鸟瞰图解码器分别输出重构的场景和鸟瞰图分割。驾驶策略输出车辆控制,如加速度、转向角等。
④
循环网络计算确定性过度信息。先验分布 和后验分布 再次匹配。
⑤
从观察到的过去情境中,该模型可以推理未来的状态和行动,并可以通过解码器可视化。
3.2 变分推断
数学推导详见原文及其附录。
3.3 推理网络(由观察编码器和后验网络组成)
3.3.1 观察编码器
将图像特征提升到3D;池化到鸟瞰图中(BeV),将3D特征汇集到鸟瞰图中;在鸟瞰图中映射为1D向量;以路线图的形式为智能体提供目标(灰度图像),指示智能体在交叉路口导航的位置,使用卷积模块得到1D特征,当前速度使用全连接层编码为,每个时间步的观测嵌入包括图像特征、路线图特征和速度特征:。
3.3.2 后验网络
后验网络估计变分分布的参数,其中,由于假设是确定性的,是使用推理出来的,这意味着。
3.4 生成网络
生成网络的参数为,对潜在动态,的生成过程进行建模,包括门递归单元、先验网络、图像解码器、鸟瞰图解码器、策略。
先验网络估计高斯分布的参数,其中、。由于先验分布无法访问真实动作,因此使用学习的策略来估计。先验分布要与后验分布进行匹配。
3.5 想象未来状态与动作
该模型可以想象未来的潜在状态,方法是使用学习的策略来推断,推断下一确定性状态,并从先验分布中采样,。这个过程可以迭代地应用于在潜在空间中生成更长的未来序列,并且预测的未来可以通过解码器可视化。
4、结论
MILE是一种基于模型的模仿学习方法,用于城市驾驶,仅从离线专家演示中联合学习驾驶策略和世界模型。该方法利用几何归纳偏差,操作高维视觉输入,并设置一个新的国家的最先进的CARLA模拟器。MILE可以预测不同的和合理的未来状态和行动,允许模型从完全根据想象预测的计划驱动。一个开放的问题是如何从专家数据中推断驾驶奖励函数,因为这将使世界模型中的明确规划成为可能。另一个令人兴奋的途径是自我监督,以放松对鸟瞰图分割标签的依赖。自我监督可以充分释放世界模型的潜力,用于现实世界的驾驶和其他机器人任务。