我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104
#世界模型会是L3自动驾驶的唯一解吗
三维空间占有率(3D Occupancy)预测的目的是预测三维空间中的每个体素是否被占有,如果被占有,则对应的体素将被标记。3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息,成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。而自动驾驶世界模型(World Model)具备对真实物理世界的理解能力,基于一些历史信息/状态,能够预测未来时刻的场景变化甚至agents的状态变化。因此将OCC和世界模型结合,除了可以实现当前时刻的OCC预测,还可以预测未来时刻的OCC演变,可以直接影响到自动驾驶的规划/决策,也是这两年自动驾驶研究的一个重点方向,预计2025年会有更多的工作问世,和大家一起复盘2024年OCC和世界模型相关的工作,并在文末总结未来的趋势~
Scene as Occupancy
- paper: https://arxiv.org/abs/2306.02851
- code:https://github.com/OpenDriveLab/OccNet
虽然OccNet不属于世界模型+OCC的范畴,但是有必要简单介绍一个这个工作,有助于理解后续介绍的方法。
人类驾驶员能够通过视觉系统轻松描述复杂的交通场景。这种精确感知的能力对于驾驶员的规划至关重要。为了实现这一点,一种将物理三维场景量化为具有每个单元语义标签的结构化网格地图的几何感知表示形式,即三维占用表示,将是理想的。与边界框的形式相比,占用表示的关键见解在于它能够捕捉场景中关键障碍物的细粒度细节,从而促进后续任务。先前或同时期的文献主要集中在单个场景补全任务上,我们可能会认为这种占用表示形式的潜力可能会产生更广泛的影响。在本文中,我们提出了 OccNet,这是一种以多视图为中心的管道,具有级联和时间体素解码器来重建三维占用。OccNet 的核心是一个通用的占用嵌入来表示三维物理世界。这种描述符可以应用于广泛的驾驶任务,包括检测、分割和规划。为了验证这种新表示形式的有效性和我们提出的算法,针对该算法,我们提出了 OpenOcc,这是首个基于 nuScenes 构建的高密度高质量 3D 占有率基准。实证实验表明,在多个任务中均有显著的性能提升,例如,运动规划的碰撞率可降低 15% - 58%,这证明了我们方法的优越性。
OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
- paper: https://arxiv.org/pdf/2311.16038
- code: https://github.com/wzzheng/OccWorld
理解三维场景如何演变对于自动驾驶中的决策至关重要。大多数现有的方法通过预测物体检测框的运动来实现这一点,但无法捕捉到更精细的场景信息。在本文中,我们探索了一种新的框架,即在三维占用空间中学习世界模型,名为OccWorld,以同时预测自动驾驶汽车的运动和周围场景的演变。我们提出基于三维占用而非三维边界框和分割图来学习世界模型,原因有三:1)表达能力:三维占用能够描述场景更精细的三维结构;2)效率:三维占用率更易于获取(例如,从稀疏的激光雷达点中获取)。3)通用性:三维占用率能够适应视觉和激光雷达。为了便于对世界演变进行建模,我们在三维占用率上学习了一种基于重建的场景tokenizer,以获取离散的场景tokens来描述周围场景。然后,我们采用类似 GPT 的时空生成转换器来生成后续场景和ego tokens,以解码未来的占用率和自车轨迹。在广泛使用的 nuScenes 基准上进行的大量实验表明,OccWorld 能够有效地对驾驶场景的演变进行建模。OccWorld 还在不使用实例和地图监督的情况下产生了具有竞争力的规划结果。
OccWorld是两阶段模型:
- VQ-VAE 的训练极大地阻碍了效率,并为第二阶段引入了性能瓶颈。为场景tokenizer找到合适的超参数在平衡重建和预测性能方面仍然具有挑战性
- 完全依赖于自回归方式的隐式特征。它要么忽略了相邻场景中显式的结构一致性,要么忽略了图像中容易获取的纹理信息。这些都阻碍了模型充分捕捉环境动态的能力
RenderWorld: World Model with Self-Supervised 3D Label
- paper: https://arxiv.org/abs/2409.11356
仅基于视觉的端到端自动驾驶不仅比激光雷达与视觉融合的方法更具成本效益,而且比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统,我们提出了 RenderWorld,这是一种仅基于视觉的端到端自动驾驶框架,它使用基于自监督高斯的 Img2Occ 模块生成 3D 占有率标签,然后通过 AM-VAE 对标签进行编码,并使用世界模型进行预测和规划。RenderWorld 采用高斯点阵来表示 3D 场景并渲染 2D 图像,与基于 NeRF 的方法相比,这极大地提高了分割精度并减少了 GPU 内存消耗。通过应用 AM-VAE 分别对air和non-air进行编码,RenderWorld 实现了更精细的场景元素表示,在自回归世界模型的 4D 占有率预测和运动规划方面均达到了最先进的性能。
两阶段训练范式。
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
- paper: https://arxiv.org/abs/2409.03272
多模态大型语言模型(MLLMs)的兴起推动了其在自动驾驶中的应用。近期基于 MLLM 的方法通过学习从感知到动作的直接映射来执行动作,忽略了世界的动态以及行为与世界动态之间的关系。相比之下,人类拥有世界模型,能够基于三维内部视觉表征模拟未来状态,并据此规划行为。为此,我们提出了 OccLLaMA,这是一种占用-语言-动作生成式世界模型,它采用语义占用作为通用视觉表示,并通过自回归模型统一了视觉-语言-动作(VLA)模态。具体而言,我们引入了一种类似 VQVAE 的场景tokenizer,以高效地离散化和重建语义占用场景,同时考虑到其稀疏性和类别不平衡的问题。然后,我们为视觉、语言和动作构建了一个统一的多模态词汇表。此外,我们增强了大型语言模型(LLM),特别是 LLaMA,使其能够在统一的词汇表上进行下一token/场景预测,以完成自动驾驶中的多项任务。大量实验表明,OccLLaMA 在包括 4D 占用预测、运动规划和视觉问答在内的多项任务中均取得了具有竞争力的性能,展示了其作为自动驾驶基础模型的潜力。
两阶段训练范式。
An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training
- paper: https://arxiv.org/abs/2412.13772
自动驾驶领域对世界模型的兴趣日益浓厚,这类模型旨在基于历史观测预测潜在的未来场景。在本文中,我们介绍了 DFIT-OccWorld,这是一种高效的 3D 占有世界模型,它利用了解耦动态流和图像辅助训练策略,显著提升了 4D 场景预测性能。为了简化训练过程,我们摒弃了之前的两阶段训练策略,并创新性地将占有预测问题重新表述为解耦的体素变形过程。我们的模型通过使用体素流对现有观测进行变形来预测未来的动态体素,而静态体素则通过姿态变换轻松获得。此外,我们的方法还引入了图像辅助训练范式以增强预测的可靠性。具体而言,采用可微体积渲染通过预测的未来体积生成渲染深度图,并将其用于基于渲染的光度一致性。实验表明了我们方法的有效性,在 nuScenes 和 OpenScene 基准测试中展示了其在 4D 占有预测方面的先进性能。该模型实现了精准预测、端到端运动规划和点云预测。具体而言,与现有的 3D 世界模型相比,它达到了最先进的性能,同时计算成本大幅降低。
效率和性能都比之前的两阶段模型好。
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
- paper:https://arxiv.org/abs/2408.14197
- project page: https://drive-occworld.github.io/
世界模型基于各种ego行为设想潜在的未来状态。它们嵌入了关于驾驶环境的大量知识,有助于实现安全且可扩展的自动驾驶。大多数现有的方法主要侧重于数据生成或世界模型的预训练范式。与上述先前的工作不同,我们提出了 Drive-OccWorld,它将以视觉为中心的 4D 预测世界模型适应于自动驾驶的端到端规划。具体而言,我们首先在内存模块中引入语义和运动条件归一化,该模块从历史 BEV 嵌入中积累语义和动态信息。然后,这些 BEV 特征被传递到世界解码器,用于未来占用和流预测,同时考虑几何和时空建模。此外,我们提出将灵活的动作条件(如速度、转向角、轨迹和指令)注入世界模型,以实现可控生成,并促进更广泛的下游应用。此外,我们还探索了将 4D 世界模型的生成能力与端到端规划相结合,从而能够利用基于占用率的成本函数连续预测未来状态并选择最优轨迹。在 nuScenes 数据集上进行的大量实验表明,我们的方法能够生成合理且可控的 4D 占用率,为驾驶世界生成和端到端规划开辟了新的途径。
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving
- paper: https://arxiv.org/abs/2405.20337
- code: https://github.com/wzzheng/OccSora
理解 3D 场景的演变对于实现有效的自动驾驶至关重要。虽然传统方法通过单个实例的运动来建模场景的发展,但世界模型作为一种生成框架,能够描述一般的场景动态。然而,大多数现有的方法采用自回归框架来进行下一个token预测,这在对长期时间演变进行建模时效率低下。为了解决这个问题,我们提出了一种基于扩散的 4D 占有率生成模型 OccSora,用于模拟自动驾驶中的 3D 世界的发展。我们采用 4D 场景tokenizer来获取 4D 占有率输入的紧凑离散时空表示,并实现对长序列占有率视频的高质量重建。然后,我们在时空表示上学习扩散Transformer,并根据轨迹提示生成 4D 占有率。我们在广泛使用的 nuScenes 数据集上进行了大量实验,该数据集带有 Occ3D 占有率注释。OccSora 能够生成具有真实 3D 布局和时间一致性的 16 秒视频,这表明它能够理解驾驶场景的空间和时间分布。凭借轨迹感知的 4D 生成能力,OccSora 有可能成为自动驾驶决策的世界模拟器。
DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model
- paper: https://arxiv.org/abs/2410.10429
- project page: https://gusongen.github.io/DOME
我们提出了一种基于扩散的世界模型 DOME,它能够根据过去的占用情况预测未来的占用帧。这种世界模型捕捉环境演变的能力对于自动驾驶中的规划至关重要。与基于 2D 视频的世界模型相比,占用世界模型利用了原生的 3D 表示,具有易于获取的标注且不受模态限制。这种灵活性有可能促进更先进世界模型的发展。现有的占用世界模型要么因离散tokens而损失细节,要么依赖于简单的扩散架构,导致预测未来占用情况时效率低下且难以实现可控性。我们的 DOME 具有两个关键特性:(1)高保真度和长时生成。我们采用时空扩散Transformer,基于历史上下文预测未来的占用帧。这种架构能够高效地捕捉时空信息,从而实现高保真度的细节,并具备长时间生成预测的能力。(2)细粒度可控性。我们通过引入一种轨迹重采样方法来应对预测中的可控性挑战,这显著增强了模型生成可控预测的能力。在广泛使用的 nuScenes 数据集上进行的大量实验表明,我们的方法在定性和定量评估中均超越了现有的基准,在 nuScenes 上建立了新的最先进性能。具体而言,在占用重建方面,我们的方法在 mIoU 上比基准高出 10.5%,在 IoU 上高出 21.2%;在 4D 占用预测方面,在 mIoU 上高出 36.0%,在 IoU 上高出 24.6%。
GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction
- paper: https://arxiv.org/abs/2412.10373
- code: https://github.com/zuosc19/GaussianWorld
3D 占有率预测对于自动驾驶至关重要,因为它能全面感知周围环境。为了融合序列输入,大多数现有方法将先前帧的表示融合起来以推断当前的 3D 占有率。然而,它们未能考虑驾驶场景的连续性,并且忽略了 3D 场景演变所提供的强大先验信息(例如,只有动态物体在移动)。在本文中,我们提出了一种基于世界模型的框架,以利用场景演变进行感知。我们将 3D 占有率预测重新表述为一个基于当前传感器输入的 4D 占有率预测问题。我们将场景演变分解为三个因素:1)静态场景的自身运动对齐;2)动态物体的局部移动;3)新观察到场景的补全。然后,我们采用高斯世界模型(GaussianWorld)来明确利用这些先验信息,并在考虑当前 RGB 观测的情况下,在 3D 高斯空间中推断场景演变。我们在广泛使用的 nuScenes 数据集上评估了我们框架的有效性。我们的GaussianWorld在不增加额外计算量的情况下,将单帧对应模型的 mIoU 性能提高了 2% 以上。
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving
- paper: https://arxiv.org/abs/2407.21126
环境预测框架对于自动驾驶汽车(AV)在动态环境中的安全导航至关重要。激光雷达生成的占用网格地图(L-OGM)为场景表示提供了可靠的鸟瞰视角,能够实现自监督的联合场景预测,同时对部分可观测性和感知检测失败具有较强的鲁棒性。先前的方法主要集中在网格单元空间内的确定性 L-OGM 预测架构上。尽管这些方法取得了一定的成功,但它们经常产生不切实际的预测,并且无法捕捉环境的随机性。此外,它们还不能有效地整合自动驾驶汽车中现有的其他传感器模态。我们提出的框架在生成架构的潜在空间中进行随机 L-OGM 预测,并允许基于 RGB 相机、地图和规划轨迹进行条件设置。我们使用单步解码器来解码预测,该解码器能够实时提供高质量的预测,或者使用基于扩散的批处理解码器,该解码器可以进一步优化解码帧,以解决时间一致性问题并减少压缩损失。我们在 nuScenes 和 Waymo Open 数据集上进行的实验表明,我们方法的所有变体在定性和定量方面都优于先前的方法。
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving
- paper: https://arxiv.org/abs/2405.04390
以视觉为中心的自动驾驶由于成本较低,近来受到了广泛关注。预训练对于提取通用表示至关重要。然而,当前以视觉为中心的预训练通常依赖于 2D 或 3D 的预训练任务,忽略了自动驾驶作为 4D 场景理解任务的时间特性。在本文中,我们通过引入一个基于世界模型的自动驾驶 4D 表示学习框架来解决这一挑战,该框架被称为DriveWorld,能够从多摄像头驾驶视频中以时空方式预训练。具体而言,我们提出了一种用于时空建模的记忆状态空间模型,它由一个动态记忆库模块组成,用于学习具有时间感知的潜在动态以预测未来变化,以及一个静态场景传播模块,用于学习具有空间感知的潜在静态以提供全面的场景上下文。我们还引入了一个任务提示,以解耦适用于各种下游任务的任务感知特征。实验表明,DriveWorld 在各种自动驾驶任务中取得了令人鼓舞的结果。在使用 OpenScene 数据集进行预训练时,DriveWorld 在 3D 物体检测方面实现了 7.5% 的 mAP 提升,在在线地图绘制方面实现了 3.0% 的 IoU 提升,在多目标跟踪方面实现了 5.0% 的 AMOTA 提升,在运动预测方面实现了 0.1 米的 minADE 降低,在占用预测方面实现了 3.0% 的 IoU 提升,在规划方面实现了平均 L2 误差 0.34 米的减少。
MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving
- paper: https://arxiv.org/abs/2311.11762
- code: https://github.com/fzi-forschungszentrum-informatik/muvo
为自动驾驶学习无监督世界模型有可能极大地提升当今系统的推理能力。然而,大多数工作都忽略了世界的物理属性,仅关注传感器数据。我们提出了 MUVO,一种具有空间体素表示的多模态世界模型,以应对这一挑战。我们利用原始的摄像头和激光雷达数据来学习一种与传感器无关的世界几何表示。我们展示了多模态的未来预测,并表明我们的空间表示提高了摄像头图像和激光雷达点云的预测质量。
总结
- OCC+世界模型的范式具有很大的潜力,相信接下来会有更多的相关工作;
- 使用diffusion-base的世界模型生成未来时刻的数据这个过程比较耗时,同时多帧以及多传感器的融合策略也可能会影响实时性;
- OCC的演变本身依赖于世界模型的生成能力,但是目前训练一个精确理解物理世界演变的世界模型非常困难,因此一定程度上会影响这类模型的性能;
- Gaussian的强大表达能力有助于提高帧间的一致性,而且相比NeRF,占用更少的资源,有待进一步探索。
#EnerVerse
智元机器人最新!首个机器人4D世界模型来了!
EnerVerse 主要科研成员来自智元机器人研究院xx算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生,师从 CUHK-MMLab 的李鸿升教授。博士期间的研究课题为基于多模态大模型的xx智能以及高效智能体的研究。在 CoRL、MM、 IROS、ECCV 等顶级会议上,以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的xx算法专家,主要负责xx空间智能与世界模型的研究。
如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是xx智能领域的核心科学问题。然而,这一目标的实现受两大关键挑战制约:
模态对齐:需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。
数据稀缺:缺乏大规模、多模态且带有动作标签的数据集。
针对上述难题,智元机器人团队提出了 EnerVerse 架构,通过自回归扩散模型(autoregressive diffusion),在生成未来xx空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse 深度结合xx任务需求,创新性地引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升 4D 生成能力的同时,实现了动作规划性能的显著突破。实验结果表明,EnerVerse 不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。
项目主页与论文已上线,模型与相关数据集即将开源:
欢 迎 访 问
主页地址:
https://sites.google.com/view/enerverse/home
论文地址:
https://arxiv.org/abs/2501.01895


如何让未来空间生成赋能机器人动作规划?
机器人动作规划的核心在于基于实时观测和任务指令,预测并完成一系列复杂的未来操作。然而,现有方法在应对复杂xx任务时存在如下局限:
- 通用模型局限性:当前通用视频生成模型缺乏对xx场景的针对性优化,无法适应xx任务中的特殊需求。
- 视觉记忆泛化能力不足:现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,动作预测性能下降。
为此,EnerVerse 通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(FAV)方法,解决了上述瓶颈问题。
技术方案解析
逐块扩散生成:Next Chunk Diffusion
EnerVerse 采用逐块生成的自回归扩散模型,通过逐步生成未来xx空间来引导机器人动作规划。其关键设计包括:
- 扩散模型架构:基于结合时空注意力的 UNet 结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causal logic)保持时间一致性,从而确保生成序列的逻辑合理性。
- 稀疏记忆机制:借鉴大语言模型(LLM)的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。
- 任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。

灵活的4D生成:Free Anchor View (FAV)
针对xx操作中复杂遮挡环境和多视角需求,EnerVerse 提出了自由锚定视角(FAV)方法,以灵活表达 4D 空间。其核心优势包括:
- 自由设定视角:FAV 支持动态调整锚定视角,克服固定多视角(fixed multi-anchor view)在狭窄场景中的局限性。例如,在厨房等场景中,FAV 可轻松适应动态遮挡关系。
- 跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse 通过视线方向图(ray direction map)作为视角控制条件,并将 2D 空间注意力扩展为跨视角的 3D 空间注意力(cross-view spatial attention),确保生成视频的几何一致性。
- Sim2Real 适配:通过在仿真数据上训练的 4D 生成模型(EnerVerse-D)与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代,EnerVerse 构建了一个数据飞轮,为真实场景下的 FAV 生成提供伪真值支持。

高效动作规划:Policy Head
EnerVerse 通过在生成网络下游集成 Diffusion 策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:
- 高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。
- 稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,有效提升长程任务规划能力。
实验结果
1. 视频生成性能
在短程与长程任务视频生成中,EnerVerse 均展现出卓越的性能:
- 在短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
- 在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。

此外,EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

2. 动作规划能力
在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得了显著优势:
• 单视角(one FAV)模型在LIBERO四类任务中的平均成功率已超过现有最佳方法。
• 多视角(three FAV)设定进一步提升任务成功率,在每一类任务上均超越现有方法。


3. 消融与训练策略分析
• 稀疏记忆机制:消融实验表明,稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。


• 二阶段训练策略:先进行未来空间生成训练,再进行特定场景动作预测训练的二阶段策略,可显著提升动作规划性能。

4. 注意力可视化
通过可视化 Diffusion 策略头中的交叉注意力模块,研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过 EnerVerse 架构开创了未来xx智能的新方向。通过未来空间生成引导动作规划,EnerVerse 不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。
#nuscenesSOTA
东北大学4D时空Lidar分割网络4D-CS
LiDAR点云的语义分割对于自动驾驶和移动机器人系统具有重大意义。大多数方法通过探索多扫描的时间信息来识别每个点的类别和运动状态。然而,这些方法常常忽略了空间和时间上的一致性分割,可能导致同一物体内的点被预测为不同的类别。为了解决这个问题,我们的核心思想是生成跨多个帧的聚类标签,这些标签可以反映物体的完整空间结构和时间信息。这些标签作为显式指导用于我们的双分支网络4D-CS,该网络结合了基于点和基于聚类的分支,以实现更一致的分割。具体来说,在基于点的分支中,我们利用历史知识通过多视图的时间融合来丰富当前特征。在基于聚类的分支中,我们提出了一种新策略来生成前景物体的聚类标签,并将其应用于收集点特征以派生聚类特征。然后,我们合并多个扫描中的相邻聚类以恢复由于遮挡而缺失的特征。最后,在点-聚类融合阶段,我们自适应地融合来自两个分支的信息以优化分割结果。广泛的实验验证了我们所提方法的有效性,并且在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的结果。
代码地址 :https://github.com/NEU-REAL/4D-CS.git
I. INTRODUCTION
LiDAR点云的语义分割是自动驾驶和移动机器人系统中的一项关键任务,它涉及识别每个点的类别。这对于下游任务,包括语义映射和长期自主导航,具有重要意义。
近年来,一些方法尝试对单个LiDAR帧进行语义分割。然而,这些逐帧分割算法忽略了一些有用的时间知识,特别是过去时刻对物体的不同且互补的观察,这使得处理遮挡和稀疏点的情况变得困难。此外,由于独立分离每一帧,这些方法无法区分LiDAR序列中物体的运动状态,导致在映射过程中出现幽灵效应。
为了克服上述限制,一些方法采用多扫描LiDAR点来恢复物体的完整外观,或利用时空特征来提高场景感知能力。此外,它们还探索了从LiDAR序列中提取潜在运动信息的潜力,以识别物体的运动状态。例如,Memory-Seg通过循环更新记忆特征来补偿当前帧由于遮挡造成的信息丢失。SVQNet通过聚合相邻历史点的信息进行局部特征编码,并选择时间上下文来完成不可见的几何形状,从而取得了有希望的结果。
然而,即使考虑了这种时间信息,有时对实例级信息的适当考虑不足,可能导致属于同一物体的点被归类到不同的语义类别。具体来说,如图1(a)所示,大型车辆的分割结果容易出现截断,因为网络通常关注点分类而忽略了实例级别的理解。然后,如图1(b)所示,尽管在某一时刻可以准确预测物体的运动状态,但模型仍然难以确保相邻时间中分割的一致性。因此,如何在时空空间中实现一致的结果呢?一种可能的方法是聚类。对于具有稀疏分布前景物体的室外场景,像DBSCAN这样的聚类方法可以提供完整的物体外观(见图1(e)和(f)),这适用于指导网络生成满足时空一致性的分割结果。
方法论
A. 概述
在本节中,我们提出了一种基于聚类的方法,称为4D-CS,它提高了同一对象所属点的分割结果的一致性。如图2所示,我们的方法包括基于点的分支、基于聚类的分支和点-聚类融合。对于图2(a)中的基于点的分支,我们首先使用自我运动将多帧点云对齐到当前点的坐标系中,并将它们输入骨干网络以提取特征。为了利用过去的知识,我们使用多视角时间融合(MTF)模块来合并多个视图上的时间特征,从而得到增强特征。对于图2(b)中的基于聚类的分支,我们根据历史预测生成聚类标签,并利用它们从点特征中聚合初始实例特征。然后,提出了一个时间聚类增强(TCE)模块来整合时间聚类特征,这些特征随后被分配给前景点以创建精细的实例特征。最后,在图2(c)中的点-聚类融合阶段,我们采用来自两个分支的特征来预测分割结果,然后在自适应预测融合(APF)模块中自适应地优化每个点的语义类别和运动状态。
B. 基于点的分支
如图2所示,我们使用姿态变换矩阵将过去的扫描转换到当前点的坐标系中。通过堆叠它们,我们可以得到密集点云,其中每个点包含3D坐标和距离激光雷达传感器原点的距离d。在点特征提取过程中,我们采用WaffleIron[14]作为我们的骨干网络,它首先结合K最近邻(KNN)和多层感知器(MLP)为每个点获取粗略的局部特征。此后,将这些点映射到不同视图的2D平面上以提取特征,避免了直接处理大量点云的计算负担。具体来说,我们将点特征沿z轴投影到x-y平面上,并利用2D卷积提取语义信息。然后,我们将2D特征反投影到点云上,并再次沿y轴和x轴映射到其他平面上。通过重复上述过程,我们可以实现高效的特征提取并生成点特征,其中是下采样点的数量。
多视角时间融合:为了充分利用时间信息,我们使用MTF模块将历史信息与当前特征相结合。最初,投影矩阵被应用于将历史特征转换到当前帧的坐标系中。然后,如图3(a)所示,我们依次将转换后的特征和输入对应于x-y、x-z和y-z平面的2D融合块中进行时间融合。2D融合的过程如图3(b)所示。首先,将点特征输入沿特定坐标轴投影到2D网格中。然后,我们在同一网格内平均点特征,得到大小为的2D特征。接下来,它们沿通道维度组合,并使用1x1卷积执行特征融合。然后将2D特征反投影到相应的3D点上,替换原始特征。最后,通过在不同视图上执行上述步骤,我们可以嵌入历史知识并获得增强特征,从而减少由于遮挡造成的信息丢失。
C. 基于聚类的分支
大多数语义分割网络[10],[13]通常缺乏实例级感知,这将导致属于同一对象的点的语义预测不一致(图1(a)和(b))。为了解决这个问题,我们旨在利用多扫描的聚类结果作为额外信息来增强语义分割中的时空一致性。
聚类标签生成:由于点云序列的连续性,我们可以采用自我运动将过去的扫描与当前点对齐,并将历史预测分配给当前帧。然后,对于被归类为前景的点,我们可以使用DBSCAN将它们分割成多个聚类并获得聚类标签(图1(e)和(f))。
具体来说,如图4(a)所示,我们通过以下步骤将历史语义预测转移到当前点:(1) 标签初始化:由于关注前景分割的一致性,我们将历史预测映射到背景、前景和道路状。同时,t帧中的所有点都初始化为“未标记”。(2) 非地面标签分配:首先,我们通过变换矩阵将历史非地面点转换到t帧的坐标系中。接下来,我们将3D空间分割成多个大小为的体素,并将历史点输入相应的体素中。通过最多投票操作,基于其点中最常见的类别分配体类。然后,我们根据坐标关系将体类分配给当前帧。(3) 地面标签分配:如果两帧之间存在平移,则当前帧中的地面点可能没有来自历史帧的附近对应点,导致许多地面点在小体素步骤(2)中仍然未标记。因此,我们使用更大更平的体素为“未标记”的点分配道路状标签。
为了获得包含时空信息的前景聚类结果,我们对多帧的堆叠点云进行聚类(图4(b))。然而,由于前景对象可能在移动,一些邻居Missing or unrecognized delimiter for \left\tilde{C}t={c_i}{i=1}^{N_c},其中N_c$是中的第j个点,L表示预测的类别。
实例特征聚合:这部分旨在根据聚类标签收集基于点的分支的所有点特征以产生实例信息。一种简单而有效的方法是将同一聚类中的所有点特征聚集起来$$\left{u_i\in R^D\right}{i=1}^{N_c}。同时,点的坐标也被平均以产生聚类中心G_t=\left{g_i\in R^3\right}{i=1}^{N_c}$。然而,由于点云的稀疏性或遮挡,DBSCAN可能会将同一对象的点分割成多个聚类,导致聚类不能很好地反映实例信息。因此,我们提出了一个时间聚类增强(TCE)模块,通过与多帧相邻聚类的组合来补充聚类特征,并提高聚类信息的完整性。
在TCE中,我们通过变换矩阵将历史聚类中心投影到当前坐标系中,并将其与当前聚类组合以获得新的聚类中心和相应的特征密集点,这是多帧如图所示的。然后,我们保留被归类为前景聚类的点,我们使用线性层o查询。并且特征的uisters 被投影到$$和值向量。之后,我们将的通道分成h组,并使用分组向量注意力[16]来聚合靠近的聚类特征,表示为:
其中是位置编码函数,是不同邻居的所有的集合。表示可学习的分组权重编码。同时,增强的聚类特征表示为。最后,我们将聚类特征分配给相应的前景点。对于剩余的点,我们用零填充它们的特征,并得到与大小相同的最终点级聚类特征。
D. 点-聚类融合
为了结合两个分支的语义特征和实例信息,并获得时空一致的分割结果,我们提出了一个自适应预测融合(APF)模块,在点-聚类融合阶段自适应地合并两个分支的预测结果。如图5所示,对于来自不同分支的特征,我们采用特定的头部分别估计每个点的语义类别和运动状态,获得语义逻辑分数和运动逻辑分数。然后,为了对两个分支的预测逻辑分数进行加权,我们将点特征沿通道维度连接起来,并通过两个不共享权重的MLP计算置信度分数,其值范围从0到1。
之后,置信度分数用于合并t的预测逻辑分数可以表示为以下公式:
E. 损失函数
在训练过程中,给定地面真实标签,我们采用每个点的预测语义逻辑分数和运动逻辑分数来计算损失,如下所示:
其中和分别是语义和运动预测的交叉熵损失。和是语义和运动结果的多项式软最大损失[27]。该损失函数作为一个可微分的替代品,旨在优化用于衡量分割质量的交并比(IoU),从而补偿交叉熵损失在优化目标中的不足。
IV. 实验
A. 数据集
SemanticKITTI[31] 是一个广泛使用的室外场景语义理解数据集。它利用64束激光雷达收集点云,并包含22个激光雷达序列,其中序列00至10为训练集(序列08为验证集),序列11至21为测试集。语义分割任务分为单次扫描(19个类别)和多次扫描(25个类别),前者仅区分对象类别,后者还需识别前景对象的运动状态。此外,SemanticKITTI-MOS是另一个基准,仅确定点的动态和静态状态。另外,nuScenes[32] 由32束激光雷达传感器收集的1000个驾驶场景组成,提供16个语义类别。然后,按照[29],[30]的方法,我们使用真实的3D边界框创建额外的8个移动类别。
B. 评估指标
我们采用交并比(IoU)来评估不同方法。IoU定义为 ,其中TP、FP和FN分别表示真阳性、假阳性和假阴性。由于我们采用了两个分支,我们采用mIoU作为评估指标,它表示所有类别的IoU平均值。对于MOS基准,我们使用移动对象的IoU作为评估指标。
C. 实现细节
在训练和测试过程中,我们使用SemanticKITTI数据集的三连续帧点云作为输入。对于nuScenes数据集,激光雷达以20Hz的频率运行,我们选择时间步长为2的三帧以更好地捕捉对象运动。我们采用WaffleIron[14](6层)作为骨干网络。与[14]类似,我们通过保留每个10厘米体素中的一个点来下采样点云。对于WaffleIron的超参数,我们在SemanticKITTI上使用和40厘米的网格分辨率,在nuScenes上使用和60厘米的网格。对于聚类标签生成,非地面分配的体素大小设置为,地面分配的体素大小为。此外,我们在没有历史特征的情况下训练网络45个周期,使用两块NVIDIA RTX 4090 GPU。之后,冻结骨干网络,并对剩余模块额外训练45个周期。我们采用AdamW[33]优化网络,权重衰减为0.003,批量大小为6。此外,我们的数据增强策略包括随机翻转、旋转、缩放以及与polarmix[14]结合的实例cutmix。
D. 评估结果
定量结果:如表I和表II所示,我们将我们的算法与其他方法在SemanticKITTI和nuScenes的多扫描语义分割任务上进行比较。结果表明,所提出的4D-CS在mIoU方面达到了最先进的性能。与基线[14]相比,我们在大型前景对象上取得了显著改进,卡车提高了22.5%,其他车辆提高了17.0%,动态卡车提高了26.2%,移动的其他车辆提高了14.7%。在表II中,我们的方法在大多数前景对象上也实现了IoU的提升,特别是对于大型对象,如卡车和公共汽车。这表明显式的聚类先验可以帮助网络关注对象的完整空间信息,而不是依赖于其他算法从有限感受野获得的局部特征,从而获得更好的前景对象分割结果。此外,我们在SemanticKITTI的MOS基准测试集上的表现也进行了比较。我们的方法在测试集上超越了最先进的工作MF-MOS[24],IoUM提高了6.8%。这验证了在点和实例级别传输历史特征不仅可以提高分割的完整性,还可以增强模型识别对象运动状态的能力。
定性比较:语义定性结果如图6所示。它显示了基线网络在大对象上的分割结果容易因缺乏实例感知能力而出现截断。相比之下,我们的方法在引入聚类信息后可以实现一致的分割结果。此外,对于图7中显示的移动对象定性结果,基线模型仍然难以完全分割移动对象,而我们的方法成功实现了这一点。总体而言,我们的方法在准确一致地识别前景对象的类别和运动状态方面具有更强的能力。
E. 消融研究
在本节中,我们在SemanticKITTI数据集的验证集上进行了全面的消融实验。
F. 运行时间和内存
在本节中,我们使用NVIDIA RTX 4090 GPU来测量SemanticKITTI数据集上多扫描语义分割的推理时间。使用三帧点云,我们的基线方法(WaffleIron)需要117毫秒,并占用8.2 GB的内存。相比之下,我们提出的算法需要151毫秒的网络处理时间和5毫秒的聚类标签生成时间,使用9.9 GB的内存。
结论
文章的主要贡献如下:
● 一个使用显式聚类信息来解决同一前景物体内点类别不一致的双分支分割网络。
● 一种获取聚类标签的新策略,伴随着三个模块:多视图时间融合、时间聚类增强和
世界模型与自动驾驶场景研究进展

最低0.47元/天 解锁文章
1263

被折叠的 条评论
为什么被折叠?



