【论文阅读】Model-Based Imitation Learning for Urban Driving

被炮轰的猫

已于 2025-04-13 17:53:03 修改

阅读量1.8k

点赞数 15

分类专栏：论文阅读文章标签：论文阅读机器学习

于 2024-08-17 21:25:10 首次发布

本文链接：https://blog.csdn.net/weixin_56507088/article/details/141134275

版权

论文阅读专栏收录该内容

3 篇文章

订阅专栏

注：自学笔记，有错误的地方欢迎指正！

论文地址：Model-Based Imitation Learning for Urban Driving

官网介绍

1、主要工作

MILE：一种基于模型的模仿学习方法，用于共同学习世界模型和自动驾驶策略。

该方法利用3D几何作为归纳偏差①，并直接从专家演示的高分辨率视频中学习高度紧凑的潜在空间；在离线的城市驾驶数据语料库上训练，与环境没有任何的在线交互。

成果：当部署在一个全新的城镇和新的天气条件下时，MILE在CARLA模拟器上的驾驶分数比现有技术提高了31%。论文模型可以预测不同的和合理的状态和动作，并解码为鸟瞰图语义分割。

①归纳偏差(Inductive bias)可以理解为一种先验约束，能够帮助我们在多个可能的模型中选择出一个。该模型利用3D几何形状作为归纳偏差来扩展城市环境中自动驾驶的视觉复杂性。

2、相关工作

工作处于模仿学习、3D场景表示和世界建模的交叉点（论文中该部分介绍了模仿学习、3D场景表示、世界模型以及轨迹预测的目前工作进展）。

3、MILE：Model-based Imitation LEarning

3.1 概率生成模型

图 1 MILE模型框架

其中， $eq?o_%7B1%3AT%7D$ 为 $eq?T$ 个视频帧序列； $eq?a_%7B1%3AT%7D$ 为专家动作； $eq?y_%7B1%3AT%7D$ 为地面实况鸟瞰图语义分割标签； $eq?s_%7B1%3AT%7D$ 为潜变量。完整的概率模型如下：

$eq?%5Cleft%5C%7B%5Cbegin%7Bmatrix%7D%20%5Ctextup%7Bh%7D_%7B1%7D%20%26%5Csim%5Cdelta%20%280%29%20%5C%5C%20%5Ctextup%7Bs%7D_%7B1%7D%20%26%5Csim%20N%280%2CI%29%20%5C%5C%20%5Ctextup%7Bh%7D_%7Bt+1%7D%26%20%3D%20f%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%5C%5C%20%5Ctextup%7Bs%7D_%7Bt+1%7D%20%26%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%7D%28%20%5Ctextup%7Bh%7D_%7Bt+1%7D%2C%20%5Ctextup%7Ba%7D_%7Bt%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28%20%5Ctextup%7Bh%7D_%7Bt+1%7D%2C%20%5Ctextup%7Ba%7D_%7Bt%7D%29I%29%20%5C%5C%20%5Ctextup%7Bo%7D_%7Bt%7D%26%5Csim%20N%28g_%7B%5Ctheta%20%7D%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%2CI%29%20%5C%5C%20%5Ctextup%7By%7D_%7Bt%7D%20%26Categorical%28l_%7B%5Ctheta%7D%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%29%20%5C%5C%20%5Ctextup%7Ba%7D_%7Bt%7D%26Laplace%28%5Cpi%20_%7B%5Ctheta%20%7D%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%2C1%29%20%5Cend%7Bmatrix%7D%5Cright.$

（1）模型目标是推断潜在动态 $eq?%28h_%7B1%3AT%7D%2Cs_%7B1%3AT%7D%29$ ，这些动态生成了观测值 $eq?o_%7B1%3AT%7D$ 、专家动作 $eq?a_%7B1%3AT%7D$ 和鸟瞰图标签 $eq?y_%7B1%3AT%7D$ 。

（2）推断模型以 $eq?%5Cphi$ 为参数，估计随即状态的后验分布 $eq?q%28s_%7Bt%7D%7Co_%7B%5Cleqslant%20t%7D%2Ca_%7B%3C%20t%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29%2C%5Csigma%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29I%29$ ，其中 $eq?x_%7Bt%7D%3De_%7B%5Cphi%20%7D%28o_%7Bt%7D%29$ ， $eq?e_%7B%5Cphi%20%7D$ 是观测编码器，能将图像特征提升到3D，汇集到鸟瞰图再压缩到1D。

（3）生成模型以 $eq?%5Ctheta$ 为参数，估计随即状态的先验分布 $eq?p%28s_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29I%29$ ，其中 $eq?h_%7Bt%7D%3Df_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29$ 是确定性跃迁， $eq?a_%7Bt-1%7D%3D%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29$ 是预测的动作；同时估计观测值的分布 $eq?p%28o_%7Bt%7D%7Ch_%7Bt%7D%2Cs_%7Bt%7D%29%5Csim%20N%28g_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2Cs_%7Bt%7D%29%2CI%29$ 、鸟瞰图分割 $eq?p%28y_%7Bt%7D%7Ch_%7Bt%7D%2Cs_%7Bt%7D%29%5Csim%20Categorical%28l_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2Cs_%7Bt%7D%29%2CI%29$ 和动作分布 $eq?p%28a_%7Bt%7D%7Ch_%7Bt%7D%2Cs_%7Bt%7D%29%5Csim%20Laplace%28%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2Cs_%7Bt%7D%29%2C1%29$ 。

（4）图1表示模型观察 $eq?T%3D2$ 个时间步的输入，然后推断未来的潜在状态和动作。

模型拆分理解：

①

观测编码器 $eq?e_%7B%5Cphi%20%7D$ 将图像特征提升到3D，汇集到鸟瞰图中，并将其压缩成1D矢量。

②

先验分布 $eq?N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7B1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7B1%7D%29I%29$ ，相当于模型推理将要发生的，后验分布 $eq?N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7B1%7D%2Cx_%7B1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7B1%7D%2Cx_%7B1%7D%29I%29$ ，相当于将要真实发生的，二者进行匹配。

③

图像解码器 $eq?g_%7B%5Ctheta%20%7D$ 和鸟瞰图解码器 $eq?l_%7B%5Ctheta%20%7D$ 分别输出重构的场景和鸟瞰图分割。驾驶策略 $eq?%5Cpi%20_%7B%5Ctheta%20%7D$ 输出车辆控制，如加速度、转向角等。

④

循环网络计算确定性过度信息 $eq?h_%7B2%7D%3Df_%7B%5Ctheta%20%7D%28h_%7B1%7D%2Cs_%7B1%7D%29$ 。先验分布 $eq?N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7B2%7D%2C%5Chat%7Ba%7D_%7B1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7B2%7D%2C%5Chat%7Ba%7D_%7B1%7D%29I%29$ 和后验分布 $eq?N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7B2%7D%2Ca_%7B1%7D%2Cx_%7B2%7D%29%2C%5Csigma%20_%7B%5Cphi%20%7D%28h_%7B2%7D%2Ca_%7B1%7D%2Cx_%7B2%7D%29I%29$ 再次匹配。

⑤

从观察到的过去情境中，该模型可以推理未来的状态和行动，并可以通过解码器可视化。

3.2 变分推断

数学推导详见原文及其附录。

3.3 推理网络（由观察编码器和后验网络组成）

3.3.1 观察编码器

将图像特征提升到3D；池化到鸟瞰图中（BeV），将3D特征汇集到鸟瞰图中；在鸟瞰图中映射为1D向量；以路线图的形式为智能体提供目标（灰度图像），指示智能体在交叉路口导航的位置，使用卷积模块得到1D特征，当前速度使用全连接层编码为 $eq?m_%7Bt%7D$ ，每个时间步的观测嵌入 $eq?x_%7Bt%7D$ 包括图像特征、路线图特征和速度特征： $eq?x_%7Bt%7D%3D%5B%7Bx%7D%27_%7Bt%7D%2Cr_%7Bt%7D%2Cm_%7Bt%7D%5D%5Cin%20%5Cmathbb%7BR%7D%5E%7BC%7D$ 。

3.3.2 后验网络

后验网络 $eq?%28%5Cmu%20_%7B%5Cphi%20%7D%2C%5Csigma%20_%7B%5Cphi%20%7D%29$ 估计变分分布 $eq?q%28s_%7Bt%7D%7Co_%7B%5Cleqslant%20t%7D%2Ca_%7B%3C%20t%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29%2C%5Csigma%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29I%29$ 的参数，其中 $eq?h_%7Bt%7D%3Df_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29$ ，由于假设 $eq?h_%7Bt%7D$ 是确定性的，是使用 $eq?f_%7B%5Ctheta%20%7D$ 推理出来的，这意味着 $eq?q%28h_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%3Dp%28h_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%3D%5Cdelta%20%28h_%7Bt%7D-f_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%29$ 。

3.4 生成网络

生成网络的参数为 $eq?%5Ctheta$ ，对潜在动态 $eq?%28h_%7B1%3AT%7D%2Cs_%7B1%3AT%7D%29$ ， $eq?%28o_%7B1%3AT%7D%2Cy_%7B1%3AT%7D%2Ca_%7B1%3AT%7D%29$ 的生成过程进行建模，包括门递归单元 $eq?f_%7B%5Ctheta%20%7D$ 、先验网络 $eq?%28%5Cmu%20_%7B%5Ctheta%20%7D%2C%5Csigma%20_%7B%5Ctheta%20%7D%29$ 、图像解码器 $eq?g_%7B%5Ctheta%20%7D$ 、鸟瞰图解码器 $eq?l_%7B%5Ctheta%20%7D$ 、策略 $eq?%5Cpi%20_%7B%5Ctheta%20%7D$ 。

先验网络估计高斯分布 $eq?p%28s_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29I%29$ 的参数，其中 $eq?h_%7Bt%7D%3Df_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29$ 、 $eq?%5Chat%7Ba%7D_%7Bt-1%7D%3D%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29$ 。由于先验分布无法访问真实动作 $eq?a_%7Bt-1%7D$ ，因此使用学习的策略来估计。先验分布要与后验分布进行匹配。

3.5 想象未来状态与动作

该模型可以想象未来的潜在状态，方法是使用学习的策略来推断 $eq?%5Chat%7Ba%7D_%7BT+i%7D%3D%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7BT+i%7D%2Cs_%7BT+i%7D%29$ ，推断下一确定性状态 $eq?h_%7BT+i+1%7D%3Df%20_%7B%5Ctheta%20%7D%28h_%7BT+i+1%7D%2Cs_%7BT+i+1%7D%29$ ，并从先验分布中采样 $eq?s_%7BT+i+1%7D%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7BT+i+1%7D%2C%5Chat%7Ba%7D_%7BT+i%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7BT+i+1%7D%2C%5Chat%7Ba%7D_%7BT+i%7D%29I%29$ ， $eq?i%5Cgeq%200$ 。这个过程可以迭代地应用于在潜在空间中生成更长的未来序列，并且预测的未来可以通过解码器可视化。

4、结论

MILE是一种基于模型的模仿学习方法，用于城市驾驶，仅从离线专家演示中联合学习驾驶策略和世界模型。该方法利用几何归纳偏差，操作高维视觉输入，并设置一个新的国家的最先进的CARLA模拟器。MILE可以预测不同的和合理的未来状态和行动，允许模型从完全根据想象预测的计划驱动。一个开放的问题是如何从专家数据中推断驾驶奖励函数，因为这将使世界模型中的明确规划成为可能。另一个令人兴奋的途径是自我监督，以放松对鸟瞰图分割标签的依赖。自我监督可以充分释放世界模型的潜力，用于现实世界的驾驶和其他机器人任务。