论文阅读:Model-Based Imitation Learning for Urban Driving

注:自学笔记,有错误的地方欢迎指正!

论文地址:Model-Based Imitation Learning for Urban Driving

官网介绍

1、主要工作

        MILE:一种基于模型的模仿学习方法,用于共同学习世界模型和自动驾驶策略。

        该方法利用3D几何作为归纳偏差①,并直接从专家演示的高分辨率视频中学习高度紧凑的潜在空间;在离线的城市驾驶数据语料库上训练,与环境没有任何的在线交互。

        成果:当部署在一个全新的城镇和新的天气条件下时,MILE在CARLA模拟器上的驾驶分数比现有技术提高了31%。论文模型可以预测不同的和合理的状态和动作,并解码为鸟瞰图语义分割。

①归纳偏差(Inductive bias)可以理解为一种先验或约束,能够帮助我们在多个可能的模型中选择出一个。该模型利用3D几何形状作为归纳偏差来扩展城市环境中自动驾驶的视觉复杂性。

2、相关工作

        工作处于模仿学习、3D场景表示和世界建模的交叉点(论文中该部分介绍了模仿学习、3D场景表示、世界模型以及轨迹预测的目前工作进展)。

3、MILE:Model-based Imitation LEarning

3.1 概率生成模型

4f1c0a427258416eb413325ca923da0a.png

图 1 MILE模型框架

其中,eq?o_%7B1%3AT%7D 为eq?T个视频帧序列;eq?a_%7B1%3AT%7D 为专家动作;eq?y_%7B1%3AT%7D 为地面实况鸟瞰图语义分割标签;eq?s_%7B1%3AT%7D 为潜变量。完整的概率模型如下:

eq?%5Cleft%5C%7B%5Cbegin%7Bmatrix%7D%20%5Ctextup%7Bh%7D_%7B1%7D%20%26%5Csim%5Cdelta%20%280%29%20%5C%5C%20%5Ctextup%7Bs%7D_%7B1%7D%20%26%5Csim%20N%280%2CI%29%20%5C%5C%20%5Ctextup%7Bh%7D_%7Bt+1%7D%26%20%3D%20f%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%5C%5C%20%5Ctextup%7Bs%7D_%7Bt+1%7D%20%26%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%7D%28%20%5Ctextup%7Bh%7D_%7Bt+1%7D%2C%20%5Ctextup%7Ba%7D_%7Bt%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28%20%5Ctextup%7Bh%7D_%7Bt+1%7D%2C%20%5Ctextup%7Ba%7D_%7Bt%7D%29I%29%20%5C%5C%20%5Ctextup%7Bo%7D_%7Bt%7D%26%5Csim%20N%28g_%7B%5Ctheta%20%7D%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%2CI%29%20%5C%5C%20%5Ctextup%7By%7D_%7Bt%7D%20%26Categorical%28l_%7B%5Ctheta%7D%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%29%20%5C%5C%20%5Ctextup%7Ba%7D_%7Bt%7D%26Laplace%28%5Cpi%20_%7B%5Ctheta%20%7D%28%20%5Ctextup%7Bh%7D_%7Bt%7D%2C%20%5Ctextup%7Bs%7D_%7Bt%7D%29%2C1%29%20%5Cend%7Bmatrix%7D%5Cright.

(1)模型目标是推断潜在动态eq?%28h_%7B1%3AT%7D%2Cs_%7B1%3AT%7D%29,这些动态生成了观测值eq?o_%7B1%3AT%7D、专家动作eq?a_%7B1%3AT%7D和鸟瞰图标签eq?y_%7B1%3AT%7D

(2)推断模型以eq?%5Cphi为参数,估计随即状态的后验分布eq?q%28s_%7Bt%7D%7Co_%7B%5Cleqslant%20t%7D%2Ca_%7B%3C%20t%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29%2C%5Csigma%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29I%29,其中eq?x_%7Bt%7D%3De_%7B%5Cphi%20%7D%28o_%7Bt%7D%29eq?e_%7B%5Cphi%20%7D是观测编码器,能将图像特征提升到3D,汇集到鸟瞰图再压缩到1D。

(3)生成模型以eq?%5Ctheta为参数,估计随即状态的先验分布eq?p%28s_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29I%29,其中eq?h_%7Bt%7D%3Df_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29是确定性跃迁,eq?a_%7Bt-1%7D%3D%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29是预测的动作;同时估计观测值的分布eq?p%28o_%7Bt%7D%7Ch_%7Bt%7D%2Cs_%7Bt%7D%29%5Csim%20N%28g_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2Cs_%7Bt%7D%29%2CI%29、鸟瞰图分割eq?p%28y_%7Bt%7D%7Ch_%7Bt%7D%2Cs_%7Bt%7D%29%5Csim%20Categorical%28l_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2Cs_%7Bt%7D%29%2CI%29和动作分布eq?p%28a_%7Bt%7D%7Ch_%7Bt%7D%2Cs_%7Bt%7D%29%5Csim%20Laplace%28%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2Cs_%7Bt%7D%29%2C1%29

(4)图1表示模型观察eq?T%3D2个时间步的输入,然后推断未来的潜在状态和动作。

模型拆分理解:

bdbb0471bb7047d994eb955ff70eea8e.png

        观测编码器 eq?e_%7B%5Cphi%20%7D将图像特征提升到3D,汇集到鸟瞰图中,并将其压缩成1D矢量。

526aab6482b44121a80f608627eebd4a.png

        先验分布 eq?N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7B1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7B1%7D%29I%29,相当于模型推理将要发生的,后验分布 eq?N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7B1%7D%2Cx_%7B1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7B1%7D%2Cx_%7B1%7D%29I%29,相当于将要真实发生的,二者进行匹配。

11fd1fd200d34568bd1609bc8804336c.png

        图像解码器eq?g_%7B%5Ctheta%20%7D和鸟瞰图解码器eq?l_%7B%5Ctheta%20%7D分别输出重构的场景和鸟瞰图分割。驾驶策略eq?%5Cpi%20_%7B%5Ctheta%20%7D输出车辆控制,如加速度、转向角等。

68e2d8bf385a40a88d3c00b508b741b5.png

        

循环网络计算确定性过度信息eq?h_%7B2%7D%3Df_%7B%5Ctheta%20%7D%28h_%7B1%7D%2Cs_%7B1%7D%29。先验分布 eq?N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7B2%7D%2C%5Chat%7Ba%7D_%7B1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7B2%7D%2C%5Chat%7Ba%7D_%7B1%7D%29I%29和后验分布 eq?N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7B2%7D%2Ca_%7B1%7D%2Cx_%7B2%7D%29%2C%5Csigma%20_%7B%5Cphi%20%7D%28h_%7B2%7D%2Ca_%7B1%7D%2Cx_%7B2%7D%29I%29再次匹配。

4f1c0a427258416eb413325ca923da0a.png

        从观察到的过去情境中,该模型可以推理未来的状态和行动,并可以通过解码器可视化。

3.2 变分推断

        数学推导详见原文及其附录。

3.3 推理网络(由观察编码器和后验网络组成)

        3.3.1 观察编码器

        将图像特征提升到3D;池化到鸟瞰图中(BeV),将3D特征汇集到鸟瞰图中;在鸟瞰图中映射为1D向量;以路线图的形式为智能体提供目标(灰度图像),指示智能体在交叉路口导航的位置,使用卷积模块得到1D特征,当前速度使用全连接层编码为eq?m_%7Bt%7D,每个时间步的观测嵌入eq?x_%7Bt%7D包括图像特征、路线图特征和速度特征:eq?x_%7Bt%7D%3D%5B%7Bx%7D%27_%7Bt%7D%2Cr_%7Bt%7D%2Cm_%7Bt%7D%5D%5Cin%20%5Cmathbb%7BR%7D%5E%7BC%7D

        3.3.2 后验网络

        后验网络eq?%28%5Cmu%20_%7B%5Cphi%20%7D%2C%5Csigma%20_%7B%5Cphi%20%7D%29估计变分分布eq?q%28s_%7Bt%7D%7Co_%7B%5Cleqslant%20t%7D%2Ca_%7B%3C%20t%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29%2C%5Csigma%20_%7B%5Cphi%20%7D%28h_%7Bt%7D%2Ca_%7Bt-1%7D%2Cx_%7Bt%7D%29I%29的参数,其中eq?h_%7Bt%7D%3Df_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29,由于假设eq?h_%7Bt%7D是确定性的,是使用eq?f_%7B%5Ctheta%20%7D推理出来的,这意味着eq?q%28h_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%3Dp%28h_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%3D%5Cdelta%20%28h_%7Bt%7D-f_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%29

3.4 生成网络

        生成网络的参数为eq?%5Ctheta,对潜在动态eq?%28h_%7B1%3AT%7D%2Cs_%7B1%3AT%7D%29eq?%28o_%7B1%3AT%7D%2Cy_%7B1%3AT%7D%2Ca_%7B1%3AT%7D%29的生成过程进行建模,包括门递归单元eq?f_%7B%5Ctheta%20%7D、先验网络eq?%28%5Cmu%20_%7B%5Ctheta%20%7D%2C%5Csigma%20_%7B%5Ctheta%20%7D%29、图像解码器eq?g_%7B%5Ctheta%20%7D、鸟瞰图解码器eq?l_%7B%5Ctheta%20%7D、策略eq?%5Cpi%20_%7B%5Ctheta%20%7D

        先验网络估计高斯分布eq?p%28s_%7Bt%7D%7Ch_%7Bt-1%7D%2Cs_%7Bt-1%7D%29%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7Bt%7D%2C%5Chat%7Ba%7D_%7Bt-1%7D%29I%29的参数,其中eq?h_%7Bt%7D%3Df_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29eq?%5Chat%7Ba%7D_%7Bt-1%7D%3D%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7Bt-1%7D%2Cs_%7Bt-1%7D%29。由于先验分布无法访问真实动作eq?a_%7Bt-1%7D,因此使用学习的策略来估计。先验分布要与后验分布进行匹配。

3.5 想象未来状态与动作

        该模型可以想象未来的潜在状态,方法是使用学习的策略来推断eq?%5Chat%7Ba%7D_%7BT+i%7D%3D%5Cpi%20_%7B%5Ctheta%20%7D%28h_%7BT+i%7D%2Cs_%7BT+i%7D%29,推断下一确定性状态eq?h_%7BT+i+1%7D%3Df%20_%7B%5Ctheta%20%7D%28h_%7BT+i+1%7D%2Cs_%7BT+i+1%7D%29,并从先验分布中采样eq?s_%7BT+i+1%7D%5Csim%20N%28%5Cmu%20_%7B%5Ctheta%20%7D%28h_%7BT+i+1%7D%2C%5Chat%7Ba%7D_%7BT+i%7D%29%2C%5Csigma%20_%7B%5Ctheta%20%7D%28h_%7BT+i+1%7D%2C%5Chat%7Ba%7D_%7BT+i%7D%29I%29eq?i%5Cgeq%200。这个过程可以迭代地应用于在潜在空间中生成更长的未来序列,并且预测的未来可以通过解码器可视化。

4、结论

        MILE是一种基于模型的模仿学习方法,用于城市驾驶,仅从离线专家演示中联合学习驾驶策略和世界模型。该方法利用几何归纳偏差,操作高维视觉输入,并设置一个新的国家的最先进的CARLA模拟器。MILE可以预测不同的和合理的未来状态和行动,允许模型从完全根据想象预测的计划驱动。一个开放的问题是如何从专家数据中推断驾驶奖励函数,因为这将使世界模型中的明确规划成为可能。另一个令人兴奋的途径是自我监督,以放松对鸟瞰图分割标签的依赖。自我监督可以充分释放世界模型的潜力,用于现实世界的驾驶和其他机器人任务。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值