Cam4DOcc:仅摄像头4D占⽤的基准⾃动驾驶应⽤的预测

仅用相机做4D占据预测

作者连接:Cam4DOcc
论文首先讨论了在自动驾驶中理解周围环境的重要性,以及目前依赖摄像头图像的占用估计技术的局限性。这些技术通常只关注当前3D空间,并忽略了周围物体未来状态的考虑。如果对未来时间占据不太了解的建议先看看:
4D占据预测(预测未来时刻的点云数据,可以更准确地预测场景的占据情况)
如果对占据网络不太了解的,建议先看看:
2023 Occupancy Prediction占据预测的整理归纳(截至2023.07.06)

比较新颖的点:

  1. 数据的重组:
    数据集被重组为一种新颖的格式,该格式考虑了关于其运动特性的两类,即⼀般可移动物体(GMO)⼀般静态
    物体(GSO)
    ,作为占⽤体素⽹格的语义标签。与 GSO 相⽐,GMO 通常具有更⾼的动态运动特性,出于安全原因,在交通活动期间需要更多关注,准确估计 GMO 的⾏为并预测其潜在的运动变化会显着影响⾃我车辆的决策和运动规划。

  2. 新数据集格式:
    如图一所示:论文提出了一个新的数据集格式,该格式基于现有的数据集如nuScenes、nuScenes-Occupancy和Lyft-Level5,但进行了扩展和调整,以适应4D占用预测的需求。特别是,它关注于序列化占用状态和3D向后心向流的表示。
    (1)⾸先将原始nuScenes数据集分割成时间⻓度为过去,现在和未来的序列;
    (2)然后为每个序列提取可移动物体的顺序语义和实例注释并收集到GMO类中;
    (3)把过去,现在和未来的帧都转换到当前坐标系(t = 0)之后对当前 3D 空间进⾏体素化,并使⽤边界框注释将语义/实例标签附加到可移动对象的网格上,在这个过程中进行了红色框内的条件删除
    (4)最后,我们使⽤注释中的实例关联⽣成 3D 向⼼流( 3D backwardcentripetal flow)

    补充:作者还说了标不仅是预测 GMO 的未来位置,还要估计 GSO 的占⽤状态和安全导航所需的⾃由空间,因此,我们进⼀步将原始 nuScenes 中的顺序实例注释与从nuScenes-Occupancy 转换到当前帧的顺序占⽤注释连接起来。这种组合平衡了⾃动驾驶应⽤中下游导航的安全性和精度。
    图1

  3. 四级占用预测任务的评估协议: 论文为4D占用预测任务定义了一套标准化的评估协议,包括多种任务和评估指标。
    (1)预测膨胀的 GMO:所有占⽤⽹格的类别分为 GMO 和其他,其中来⾃ nuScenes 和Lyft-Level5 的实例边界框内的体素⽹格被注释为 GMO;
    (2)预测细粒度GMO:类别也分为GMO和其他,但GMO的注释直接来⾃nuScenes-Occupancy的体素标签;
    (3)预测膨胀的GMO、细粒度GSO和⾃由空间:类别分为来⾃边界框注释的GMO、遵循细粒度注释的GSO和⾃由空间;
    (4)预测细粒度GMO、细粒度GSO和⾃由空间:类别分为GMO和GSO,均遵循细粒度注释和⾃由空间

    解析:不要看到这么以上只是作者对于模型的评估标准而已,再者说作者也说到了由于 Lyft-Level5 数据集缺少占⽤标签,因此我们仅对其第⼀个任务进⾏评估。

    分别评估当前时刻(t=0)占用估计和未来时间 (t ∈ [1, Nf ])预测:
    图2
    其中^St和St分别表示时间戳t处的估计体素状态和真实体素状态,还提供了一个单一的定量指标来评估整个时间范围内的预测性能,使用一个值计算:
    图3
    更接近当前时刻的时间戳IoU对最终IoUf的贡献更大。这符合近时间戳的占用预测对后续运动规划和决策更重要的原则

  4. 四种方法作为 Cam4DOcc 中的基线: Cam4DOcc基准从占用预测点云预测2D实例预测的扩展,以及我们的端到端4D占用预测网络,提出了四种类型的基线:
    图4
    (1)静态世界占⽤模型:最直接的基线之⼀是假设环境在短时间内保持静态,因此,我们可以使⽤当前估计的占⽤⽹格作为基于静态世界假设的所有未来时间步的预测,如图4a所⽰;
    (2)点云预测的体素化:使⽤环视深度估计来⽣成跨多个摄像机的深度图,然后通过光线投射来⽣成 3D 点云,将其与点云预测⼀起应⽤以获得预测的未来伪点,然后应用基于点的语义分割来获得每个体素的可移动和静态标签,从而产生最终的占用预测,如图4b所⽰;
    (3)基于 2D-3D 实例的预测:许多现成的基于BEV的2D实例预测方法可以用周围视图相机图像预测不久的将来的语义,第三种基线是通过将BEV生成的网格沿z轴复制到车辆的高度来获得3D空间中的预测GMO,如图4 c所示,可以看出,该基线假设驾驶表面是平的,所有移动物体都具有相同的高度,我们不评估预测GSO的基线,因为与GMO相比,通过复制提高2D结果不适合模拟具有更复杂结构的大规模背景。
    (4)端到端占⽤预测⽹络OCFNet:OCFNet 接收连续的过去环视摄像机图像来预测当前和未来的占⽤状态。它利⽤多帧特征聚合模块来提取扭曲的 3D 体素特征,并利⽤未来状态预测模块来预测未来的占⽤情况以及 3D 向后向心流,如图4 d所示

    端到端占⽤预测⽹络OCFNet(重点!!!):

    图5
    A.多帧特征聚合模块
    多帧特征聚合模块以过去的环绕摄像机图像为输入,采用图像编码器骨干提取二维特征。这些2D特征随后被2D-3D提升模块提升并集成到3D体素特征中。所有生成的3D特征体积都通过应用6自由度自我意识汽车姿势转换到当前坐标系,产生聚合特征:Fp ∈ R(Np+1)c×h×w×l,并将时间和特征维度折叠成一维以实现以下3D时空卷积,然后将与 6-DOF相关的ego-car相邻帧之间的姿势连接起来学习他的运动感知(这里笔者理解的就是物体运动姿态高度相关的连接起来,就大概直到了物体的运动方向,当然后续也假定认为是匀速运动):Fpm ∈ R(Np+1)(c+6)×h×w×l

    B.未来状态预测模块
    以序列特征聚合的运动感知特征作为输入,未来状态预测模块使用两个头来同时预测网格的未来占用和运动。
    (1)体素编码器将Fpm下采样为多尺度特征:图6where i = 0, 1, 2, 3
    (2)预测模块扩展了每个的通道维度,使用堆叠的3D残差卷积块,导致:图7
    它们与体素解码器上采样的特征进一步连接,之后在占用预测头中利用softmax函数来生成粗略的占用特征
    图8
    流量预测头中,使用额外的1×1卷积层代替softmax函数来产生粗流量特征图9
    (3)在占用特征粗流量特征上使用三线性插值,和一个关于占用状态维度的附加argmax函数来生成最终的

    占用估计
    图10
    基于流动的运动预测图11
    根据3中描述的评估协议,同时使用一般对象的语义学来估计现在和预测未来的占用,此外,OCFNet不仅预测占有率,还预测空间内三维向心流作为网格运动,可用于实现实例预测
    C.Loss function
    使用交叉熵损失作为占用预测损失Locc,并使用平滑l1距离作为流预测损失Lf low。显式深度损失LDeep,但这里仅计算用于监督当前占用(t=0)以提高训练效率并减少内存消耗训练OCFNet的总损失如下:图12训练OCFNet的总体损失由其中^D0、D0分别是2D-3D提升模块估计的深度图像和激光雷达数据投影的地面实况距离图像给出。λ1、λ2和λ3是平衡占用预测、流量预测和深度重建优化的权重

  5. CAM4DOCC实验: 评估了提议基线(包括OCFNet)在自动驾驶场景中的四个任务的占用率估计和预测性能:
    图13
    提出的OCFNet对膨胀GMO进行预测。从时间戳1到Nf的预测结果和地面实况被赋予从暗到亮的颜色。每个运动物体的运动趋势用红色箭头表示,OCFNet和CFNet预测的nuScenes GMO占用率的结果,这表明仅使用有限数据训练的OCFNet仍然可以合理地捕捉GMO占用网格的运动

Cam4DOcc:自动驾驶应用中仅限摄像头的4D占用预测基准补充材料

A.数据集设置详细信息:

如图14所示,大多数一般可移动对象(GMO)出现在我们基准测试中的至少两个历史观测和所有未来观测([−2,4]和[−1,4])中。长实例持续时间导致占用预测模型的有效训练策略。此外,两个数据集中超过30%的实例首先出现在当前帧中(t=0),这使得模型仅根据对象当前位置和周围条件学习预测对象运动
图14
Cam4DOcc中定义的膨胀GMO和细粒度GMO的详细说明,如图15所示。与细粒度标签相比,膨胀的边界框式注释总体上为占用预测模型提供了更全面的训练信号。此外,来自实例边界框的结构化格式的GMO的运动更容易捕获。从图15的第二行我们还可以看到,有时细粒度体素注释不能准确地表示GMO的复杂形状,而边界框式注释可以完全涵盖整体GMO实例网格。图15的第三行还提出,与原始实例边界框标签相比,细粒度注释可能会遗漏一些被遮挡的对象,影响对这些场景进行训练和评估的合理性。因此,Cam4DOcc建议使用膨胀的GMO注释来训练当前阶段基于相机的模型,以实现更可靠的4D占用预测和更安全的自动驾驶导航。
图15
B. OCFNET模型细节:
提出的OCFNet接收6张尺寸为900×1600的图像,这些图像由安装在车辆上的环视摄像头拍摄。我们使用ResNet50在ImageNet上进行预训练,并使用FPN作为OCFNet中的图像编码器基于LSS的2D-3D提升模块将来自多个相机图像的图像信息转换和融合为统一的体素特征。我们使用3D-ResNet18作为体素编码器,并在未来状态预测模块的占用预测头和流量预测头中使用3D-FPN作为体素解码器。包含堆叠残差卷积块的预测模块对历史3D特征进行有序编码,根据未来时间视界Nf扩展通道维度,并产生未来3D特征,如图16所示。参考PowerBEV的设置,预测模块中三种残差卷积块的数量设置为2、1和2,内核大小为(3、3、1)
图16为了将我们的占用预测模型扩展到3D实例预测,OCFNet预测了t ∈ [0, Nf ]上的占用和3D流,对应于工作中专门的5个连续估计。首先从PowerBEV之后t=0处的估计占用概率中提取局部极大值,确定实例的中心。然后,以下未来帧中的实例与预测流连续关联,为了使用公式(4)中定义的损失来训练我们的OCFNet,我们设置λ1=λ3=0.5和λ2=0.05来平衡占用预测、深度重建和3D向心流预测的优化。我们的OCFNet的总参数数为370 M,GFLOP为6434,训练时GPU内存为57 GB。

C.未来时间视界研究
进一步进行了一项关于预测不同未来时间范围内性能下降的研究。由于静态对象的占用网格在未来时间步长中不会改变,除非地面实况注释抖动,因此在这里,我们只关注预测可移动对象未来占用状态的能力。在本实验中,发布了Open占用-C、PowerBEV-3D和我们的OCFNet在第一级任务和第二级任务中的性能,因为基线SPC未能预测膨胀的GMO(在实验中)。如图17所示,OCFNet在两个任务的不同时间范围内仍然是最佳性能。此外,所有基线方法在Lyft-Level5上显示出比nuScenes更好的性能,因为在Lyft-Level5上进行评估的时间相对较短。时间戳越接近当前时刻,所有基线就越容易预测占用状态
图17
D.3D流量预测:
从图18中可以看出,运动物体的预测流向量近似地从新帧的体素网格指向属于同一实例的过去帧的体素网格。因此,预测流可以通过显式捕捉GMO在每个时间间隔内的运动来进一步指导占用预测。由于Cam4DOcc预测的流向量,我们可以进一步关联相邻未来帧之间的一致实例,从而导致超越占用状态预测的3D实例预测。图18
预测的3D后向流的等值化(t ∈ [1, Nf ])。从时间戳1到Nf的输出流向量和地面实况占用分别被分配从暗到亮的颜色。每个选定运动物体的运动趋势用红色箭头表示

E.3D实例预测:
大多数现有的实例预测方法只能预测感兴趣对象在BEV表示上的未来位置,而我们的工作将这一任务扩展到更复杂的3D空间。我们首先在t=0时通过非最大抑制(NMS)提取实例的中心,然后使用预测的3D向后向心流在时间t ∈ [1, Nf ]上关联按像素划分的实例ID。为了报告实例预测质量,我们将度量视频全景质量(VPQ)从之前的2D实例预测扩展到我们的3D实例预测,该预测由
图19
注意:PowerBEV-3D的实例预测结果也来自沿高度距离的预测2D流的重复
图20
OCFNet在Lyft-Level5上显示出比PowerBEV-3D更好的3D实例预测能力,而PowerBEV-3D在nuScenes上优于OCFNet的方法。此外,OCFNet在nuScenes和Lyft-Level5上分别将OCFNet的预测提高了30.2%和13.7%。基于2D-3D实例的预测基线在nuScenes上呈现出良好的实例预测能力,因为2D向后向心流比3D对应物更容易预测。相反,在Lyft-Level5上产生了更好的预测结果,主要是OCFNet的GMO占用预测质量要好得多。
F. 在LYFT-LEVEL5的未来预测 GMO占据的可视化演示

OCFNet在Lyft-Level5小规模场景中预测膨胀GMO:
图21
OCFNet在Lyft-Level5的大规模场景中预测膨胀的GMO:
图22

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值