我自己的原文哦~ https://blog.51cto.com/whaosoft/11989373
#无图NOA
一场对高精地图的祛魅!2024在线高精地图方案的回顾与展望~
自VectorMapNet以来,无图/轻图的智能驾驶方案开始出现在自动驾驶量产的牌桌上,到如今也有两年多的时间。而『无图NOA』真正开始爆火的节点当属MapTR算法的提出,原来矢量化地图还能这么学习,以前分割的方案开始退出自动驾驶舞台,各家开始真正投入主力量产无图/轻图方案。
首先需要明确一点,无图方案不是完全摒弃高精地图,下游轨迹预测/规控仍然依赖高精地图的输入。『无图』实际指的是不再依赖厂商提供的高精地图,转而使用车载算法实时感知的『局部在线高精地图』。
因此无图方案的核心在于实时在线地图构建的准确性,从技术层面来讲,正常情况下无图的上限就是有图;而在传统高精地图更新不及时的区域(比如施工路段、道路重构路段等),无图方案是更有优势的。在线高精地图的发展也有两年多了,无图一直致力于从『能用』走向『好用』。就带大家盘点一下2024年在线高精地图的主流前沿算法,一探研究趋势,并在文末进行总结。
相关工作
Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping
论文链接:https://arxiv.org/abs/2409.05352v1
阿里巴巴和西交团队的工作:高精地图(HD地图)对于自动驾驶汽车的精确导航和决策至关重要,但其创建和维护带来了巨大的成本和及时性挑战。使用车载传感器在线构建高精地图已成为一种有前景的解决方案;然而,由于遮挡和恶劣天气,这些方法可能会受到不完整数据的阻碍。本文提出了PriorDrive框架,通过利用先验地图的力量来解决这些局限性,显著提高了在线高精地图构建的鲁棒性和准确性。我们的方法整合了各种先前的地图,如OpenStreetMap的标准定义地图(SD地图)、供应商过时的高精地图以及来自历史车辆数据的本地构建地图。为了将这些先验信息有效地编码到在线见图模型中,PriorDrive提出了一种混合先验表示(HPQuery),该表示对不同地图元素的表示进行了标准化。PriorDrive的核心是统一矢量编码器(UVE),它采用双编码机制来处理矢量数据。矢量内编码器捕获细粒度的局部特征,而矢量间编码器集成全局上下文。此外提出了一种segment-level和point-level的预训练策略,使UVE能够学习矢量数据的先验分布,从而提高编码器的泛化能力和性能。通过对nuScenes数据集的广泛测试,PriorDrive与各种在线地图模型高度兼容,并大大提高了地图预测能力。通过PriorDrive框架整合先前的地图,为单一感知数据的挑战提供了一个强大的解决方案,为更可靠的自动驾驶汽车导航铺平了道路。
Neural HD Map Generation from Multiple Vectorized Tiles Locally Produced by Autonomous Vehicles
- 论文链接:https://arxiv.org/abs/2409.03445v1
高精地图厂商四维图新的工作:高精地图是自动驾驶系统的基本组成部分,因为它可以提供有关驾驶场景的精确环境信息。最近关于矢量化地图生成的工作,车辆运行一次只能在自车周围生成65%的局部地图元素,这就留下了一个难题,即如何在高质量标准下构建投影在世界坐标系中的全局高精地图。为了解决这个问题,我们将GNMap作为一个端到端的生成神经网络来自动构建具有多个矢量化图块的高精地图,这些图块是由自动驾驶汽车通过多次旅行在本地生成的。它利用多层和基于注意力的自动编码器作为共享网络,其中的参数是从两个不同的任务(即分别进行预训练和微调)中学习的,以确保生成的映射的完整性和元素类别的正确性。对真实世界的数据集进行了大量的定性评估,实验结果表明,GNMap可以超过SOTA方法5%以上的F1分数,只需少量手动修改即可达到工业使用水平。我们已经在有限公司Navinfo公司部署了它,作为自动构建自动驾驶系统高精地图的不可或缺的软件。
Enhancing Vectorized Map Perception with Historical Rasterized Maps(ECCV2024)
- 论文链接:https://arxiv.org/abs/2409.00620v1
- 开源链接:https://github.com/HXMap/HRMapNet
无图NOA以来,研究人员focus在端到端的在线矢量地图构建上,该技术在鸟瞰图(BEV)空间中实现,希望能够替代传统成本较高的离线高精(HD)地图。但是当前方法在恶劣环境下的准确性和鲁棒性很容易受限。为此本文提出了HRMapNet,其利用低成本的历史光栅化地图来增强在线矢量化地图的感知能力。历史光栅化地图来源于先前预测的结果,因此可以提供当前帧一定的先验信息。为了充分利用历史地图,作者设计了两个模块来增强BEV特征和地图元素的查询。对于BEV特征,本文设计了特征聚合模块,以编码图像和历史地图的特征。对于地图元素的查询,则设计了一个查询初始化模块,以赋予查询从历史地图中得到的先验信息。这两个模块对于在在线感知中利用地图信息至关重要。HRMapNet能够与大多数现有的在线矢量化地图感知方法集成。问鼎nuScenes和Argoverse 2 SOTA。
Online Temporal Fusion for Vectorized Map Construction in Mapless Autonomous Driving
- 论文链接:https://arxiv.org/abs/2409.00593v1
为了减少对高精(HD)地图的依赖,自动驾驶的一个日益增长的趋势是利用车载传感器在线生成矢量化地图。然而目前的方法大多受到仅处理单帧输入的限制,这阻碍了它们在复杂场景中的鲁棒性和有效性。为了克服这个问题,我们提出了一种在线地图构建系统,该系统利用长期的时间信息来构建一致的矢量化地图。首先,该系统有效地将来自现成网络的所有历史道路标记检测融合到语义体素图中,该图使用基于哈希的策略来实现,以利用道路元素的稀疏性。然后通过检查融合信息找到可靠的体素,并逐步聚类到道路标记的实例级表示中。最后,该系统结合领域知识来估计道路的几何和拓扑结构,这些结构可以直接由规划和控制(PnC)模块使用。通过在复杂的城市环境中进行的实验,我们证明了我们系统的输出比网络输出更一致、更准确,并且可以有效地用于闭环自动驾驶系统。
PriorMapNet: Enhancing Online Vectorized HD Map Construction with Priors
- 论文链接:https://arxiv.org/abs/2408.08802v2
北理工和元戎启行团队的工作:在线矢量化高精地图构建对于自动驾驶中的后续预测和规划任务至关重要。遵循MapTR范式,最近的工作取得了值得注意的成就。然而在主流方法中,参考点是随机初始化的,导致预测和GT之间的匹配不稳定。为了解决这个问题,我们引入了PriorMapNet来增强在线矢量化高精地图的构建。我们提出了PPS解码器,它为参考点提供了位置和结构先验。根据数据集中的地图元素进行拟合,先验参考点降低了学习难度,实现了稳定的匹配。此外,我们提出了PF编码器,利用BEV特征先验来增强图像到BEV的转换。此外,我们提出了DMD交叉注意,它分别沿多尺度和多样本解耦交叉注意,以实现效率。我们提出的PriorMapNet在nuScenes和Argoverse2数据集上的在线矢量化高精地图构建任务中实现了最先进的性能。
Enhancing Online Road Network Perception and Reasoning with Standard Definition Maps
- 论文链接:https://arxiv.org/abs/2408.01471v1
- 项目主页:https://henryzhangzhy.github.io/sdhdmap/
用于城市和高速公路驾驶应用的自动驾驶通常需要高精(HD)地图来生成导航。然而在按比例生成和维护高精地图时,会出现各种挑战。虽然最近的在线建图方法已经开始出现,但其在于大范围感知时的性能受到动态环境中严重遮挡的限制。考虑到这些因素,本文旨在在开发在线矢量化高精地图表示时利用轻量级和可扩展的先验标准清晰度(SD)地图。我们首先研究了将原型光栅化SD地图表示集成到各种在线地图架构中。此外,为了确定轻量级策略,我们使用OpenStreetMaps扩展了OpenLane-V2数据集,并评估了图形SD地图表示的好处。设计SD地图集成组件的一个关键发现是,SD地图编码器与模型无关,可以快速适应利用鸟瞰图(BEV)编码器的新架构。我们的结果表明,使用SD图作为在线映射任务的先验可以显著加快收敛速度,并将在线中心线感知任务的性能提高30%(mAP)。此外,我们表明,引入SD图可以通过利用SD图来减少感知和推理任务中的参数数量,同时提高整体性能。
PrevPredMap: Exploring Temporal Modeling with Previous Predictions for Online Vectorized HD Map Construction
- 论文链接:https://arxiv.org/abs/2407.17378v1
时间信息对于检测被遮挡的实例至关重要。现有的时间表示已经从BEV或PV特征发展到更紧凑的查询特征。与上述特征相比,预测提供了最高级别的抽象,提供了明确的信息。在在线矢量化高精地图构建的背景下,这种独特的预测特性可能有利于长时间建模和地图先验的整合。本文介绍了PrevPredMap,这是一个开创性的时间建模框架,利用之前的预测构建在线矢量化高精地图。我们为PrevPredMap精心设计了两个基本模块:之前的基于预测的查询生成器和动态位置查询解码器。具体而言,基于先前预测的查询生成器被设计为对来自先前预测的不同类型的信息进行单独编码,然后由动态位置查询解码器有效地利用这些信息来生成当前预测。此外,我们还开发了一种双模策略,以确保PrevPredMap在单帧和时间模式下的稳健性能。大量实验表明,PrevPredMap在nuScenes和Argoverse2数据集上实现了最先进的性能。
Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks
- 论文链接:https://arxiv.org/abs/2407.13517v2
- 代码链接:https://github.com/SehwanChoi0307/Mask2Map
汉阳大学的工作:本文介绍了Mask2Map,这是一种专为自动驾驶应用设计的端到端在线高精地图构建方法。我们的方法侧重于预测场景中以鸟瞰图(BEV)表示的地图实例的类和有序点集。Mask2Map由两个主要组件组成:实例级掩码预测网络(IMPNet)和掩码驱动映射预测网络(MMPNet)。IMPNet生成掩码感知查询和BEV分割掩码,以在全局范围内捕获全面的语义信息。随后,MMPNet通过两个子模块使用本地上下文信息增强了这些查询功能:位置查询生成器(PQG)和几何特征提取器(GFE)。PQG通过将边界元位置信息嵌入到掩码感知查询中来提取实例级位置查询,而GFE则利用边界元分割掩码来生成点级几何特征。然而,我们观察到Mask2Map的性能有限,这是由于IMPNet和MMPNet之间对GT匹配的不同预测导致的网络间不一致。为了应对这一挑战,我们提出了网络间去噪训练方法,该方法指导模型对受噪声GT查询和扰动GT分割掩码影响的输出进行去噪。我们对nuScenes和Argoverse2基准进行的评估表明,Mask2Map比以前最先进的方法实现了显著的性能改进,分别提高了10.1%mAP和4.1 mAP。
MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation(ECCV 2024)
- 论文链接:https://arxiv.org/abs/2407.11682v1
三星研究院的工作:在线高精地图构建是自动驾驶领域一项重要而具有挑战性的任务。最近研究人员对基于成本效益高的环视相机的方法越来越感兴趣,而不依赖于激光雷达等其他传感器。然而,这些方法缺乏明确的深度信息,需要使用大型模型来实现令人满意的性能。为了解决这个问题,我们首次采用知识蒸馏(KD)思想进行高效的高精地图构建,并引入了一种名为MapDistill的基于知识蒸馏的新方法,将知识从高性能相机LiDAR融合模型转移到仅使用相机的轻量模型。具体而言,我们采用师生架构,即以摄像头LiDAR融合模型为教师,以轻量级摄像头模型为学生,并设计了一个双BEV转换模块,以促进跨模式知识提取,同时保持仅使用摄像头的成本效益部署。此外,我们提出了一种全面的蒸馏方案,包括跨模态关系蒸馏、双层特征蒸馏和映射头蒸馏。这种方法缓解了模式之间的知识转移挑战,使学生模型能够学习改进的特征表示,用于HD地图构建。在具有挑战性的nuScenes数据集上的实验结果证明了MapDistill的有效性,性能提升7.7 mAP或速度提升4.5倍。
Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention(ECCV 2024)
- 论文链接:https://arxiv.org/abs/2407.06683v1
多伦多大学&英伟达等团队的工作:了解道路几何形状是自动驾驶汽车(AV)堆栈的关键组成部分。虽然高精(HD)地图可以很容易地提供此类信息,但它们的标签和维护成本很高。因此,许多最近的工作提出了从传感器数据在线估计HD地图的方法。最近的绝大多数方法将多相机观测值编码为中间表示,例如鸟瞰图(BEV)网格,并通过解码器生成矢量地图元素。虽然这种架构是高性能的,但它会大量抽取中间表示中编码的信息,从而阻止下游任务(例如行为预测)利用它们。在这项工作中,我们建议揭示在线地图估计方法的丰富内部特征,并展示它们如何将在线地图与轨迹预测更紧密地结合起来。通过这样做,我们发现直接访问内部BEV特征可以使推理速度提高73%,对真实世界nuScenes数据集的预测准确率提高29%。
Is Your HD Map Constructor Reliable under Sensor Corruptions?
- 论文链接:https://arxiv.org/abs/2406.12214v2
- 项目链接:https://mapbench.github.io/
三星研究院&悉尼大学等团队的工作:驾驶系统通常依赖高精(HD)地图获取精确的环境信息,这对规划和导航至关重要。虽然目前的高精地图构建器在理想条件下表现良好,但它们对现实世界挑战的弹性,例如恶劣天气和传感器故障,还没有得到很好的理解,这引发了安全问题。这项工作介绍了MapBench,这是第一个旨在评估HD地图构建方法对各种传感器损坏的鲁棒性的综合基准。我们的基准测试共包括29种由摄像头和激光雷达传感器引起的损坏。对31个HD地图构建器的广泛评估显示,在恶劣天气条件和传感器故障下,现有方法的性能显著下降,突显了关键的安全问题。我们确定了增强鲁棒性的有效策略,包括利用多模态融合、先进数据增强和架构技术的创新方法。这些见解为开发更可靠的高精地图构建方法提供了途径,这对自动驾驶技术的进步至关重要。
MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report
- 论文链接:https://arxiv.org/abs/2406.10125v1
滴滴&北邮团队在CVPR 2024挑战赛上的工作:没有高精(HD)地图的自动驾驶需要更高水平的主动场景理解。在本次比赛中,组织者提供了多视角相机图像和标清(SD)地图,以探索场景推理能力的边界。我们发现,大多数现有的算法都是从这些多视角图像中构建鸟瞰图(BEV)特征,并使用多任务头来描绘道路中心线、边界线、人行横道和其他区域。然而,这些算法在道路的远端表现不佳,当图像中的主要对象被遮挡时,它们会遇到困难。因此,在这场比赛中,我们不仅使用多视角图像作为输入,还结合了SD地图来解决这个问题。我们采用地图编码器预训练来增强网络的几何编码能力,并利用YOLOX来提高交通要素检测精度。此外,对于区域检测,我们创新性地引入了LDTR和辅助任务,以实现更高的精度。因此,我们的OLUS最终得分为0.58。
DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction
- 论文链接:https://arxiv.org/abs/2405.05518v2
- 代码链接:https://github.com/lynn-yu/DTCLMapper
时间信息在鸟瞰图(BEV)感知场景理解中起着关键作用,可以缓解视觉信息的稀疏性。然而,在构建矢量化高精晰度(HD)地图时,不加选择的时间融合方法会导致特征冗余的障碍。本文重新审视了矢量化HD地图的时间融合,重点研究了时间实例一致性和时间地图一致性学习。为了改进单帧映射中实例的表示,我们引入了一种新方法DTCLMapper。该方法使用双流时间一致性学习模块,该模块将实例嵌入与几何图相结合。在实例嵌入组件中,我们的方法集成了时态实例一致性学习(ICL),确保向量点和从点聚合的实例特征的一致性。采用矢量化点预选模块来提高每个实例中矢量点的回归效率。然后,从矢量化点预选模块获得的聚合实例特征基于对比学习来实现时间一致性,其中基于位置和语义信息选择正样本和负样本。几何映射组件引入了使用自监督学习设计的映射一致性学习(MCL)。MCL通过关注实例的全局位置和分布约束来增强我们一致学习方法的泛化能力。在公认的基准上进行的广泛实验表明,所提出的DTCLMapper在矢量化映射任务中达到了最先进的性能,在nuScenes和Argoverse数据集上分别达到了61.9%和65.1%的mAP得分。
HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction
- 论文链接:https://arxiv.org/abs/2404.11155v1
港中文团队的工作:近年来,利用全景相机构建矢量化高精地图引起了人们的广泛关注。然而,主流方法中常用的多阶段顺序工作流往往会导致早期信息的丢失,特别是在透视图特征中。通常,在最终的鸟瞰预测中,这种损失被视为实例缺失或形状不匹配。为了解决这个问题,我们提出了一种新的方法,即HybriMap,它有效地利用混合特征的线索来确保有价值的信息的传递。具体来说,我们设计了双增强模块,以便在混合特征的指导下实现显式集成和隐式修改。此外,透视关键点被用作监督,进一步指导特征增强过程。在现有基准上进行的广泛实验证明了我们提出的方法的最先进性能。
MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction(CVPR 2024)
- 论文链接:https://arxiv.org/abs/2404.00876v1
- 代码链接:https://github.com/xiaolul2/MGMap
浙大和有鹿的工作:目前高精晰度(HD)地图构建倾向于轻量级的在线生成趋势,旨在保存及时可靠的道路场景信息。然而地图元素包含强大的形状先验。一些奇形怪状的标注使当前基于检测的框架在定位相关特征范围方面模糊不清,并导致预测中详细结构的丢失。为了缓解这些问题,我们提出了MGMap,这是一种掩模引导的方法,可以有效地突出信息区域,并通过引入学习到的掩模来实现精确的地图元素定位。具体来说,MGMap从两个角度采用了基于增强的多尺度边界元法特征的学习掩模。在实例级别,我们提出了掩码激活实例(MAI)解码器,该解码器通过激活实例掩码将全局实例和结构信息合并到实例查询中。在点级别,设计了一种新的位置引导掩模补丁细化(PG-MPR)模块,从更细粒度的角度细化点位置,从而能够提取特定于点的补丁信息。与基线相比,我们提出的MGMap在不同输入模式下实现了约10mAP的显著改善。大量实验还表明,我们的方法具有很强的鲁棒性和泛化能力。
MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping
- 论文链接:https://arxiv.org/abs/2403.15951v1
- 项目主页:https://map-tracker.github.io/
Wayve等团队的工作:本文提出了一种矢量HD建图算法,该算法将地图表示为跟踪任务,并使用内存延迟历史来确保随时间推移的一致重建。我们的方法MapTracker将传感器流累积到两个潜在表示的存储缓冲区中:1)鸟瞰(BEV)空间中的光栅延迟,2)道路元素(即人行横道、车道分隔线和道路边界)上的矢量延迟。该方法借鉴了跟踪文献中的查询传播范式,该范式明确地将前一帧中的跟踪道路元素与当前帧相关联,同时融合了用距离步长选择的记忆延迟子集,以进一步增强时间一致性。对向量潜势进行解码以重建道路元素的几何形状。该论文还通过以下方式做出了基准贡献:1)改进现有数据集的处理代码,以通过时间对齐产生一致的地面实况,2)通过一致性检查增强现有的mAP度量。MapTracker在nuScenes和Agroverse2数据集上的表现明显优于现有方法,在传统和新的一致性感知指标上分别超过8%和19%。
HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
- 论文链接:https://arxiv.org/abs/2403.08639v2
三星团队的工作:矢量化高精(HD)地图构建需要预测地图元素(如道路边界、车道分隔线、人行横道等)的类别和点坐标。最先进的方法主要基于点级表示学习,用于回归精确的点坐标。然而该范式在获取元素级信息和处理元素级故障方面存在局限性,例如错误的元素形状或元素之间的纠缠。为了解决上述问题,我们提出了一个简单而有效的名为HIMap的HybrId框架,以充分学习和交互点级和元素级信息。具体来说,我们引入了一种名为HIQuery的混合表示来表示所有地图元素,并提出了一个点元素交互器来交互式地提取元素的混合信息,例如点位置和元素形状,并将其编码到HIQuery中。此外,我们提出了一个点元素一致性约束,以增强点级和元素级信息之间的一致性。最后,集成HIQuery的输出点元素可以直接转换为地图元素的类、点坐标和掩码。我们进行了广泛的实验,并在nuScenes和Argoverse2数据集上始终优于以前的方法。值得注意的是,我们的方法在nuScenes数据集上实现了77.8 mAP,至少比之前的SOTA高出8.3 mAP。
EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods
- 论文链接:https://arxiv.org/abs/2402.18278v2
中山大学等团队的工作:高精(HD)地图对于自动驾驶系统至关重要。现有的大多数工作设计了基于DETR解码器的地图元素检测头。然而,初始查询缺乏对物理位置信息的明确结合,而普通的自注意力需要很高的计算复杂性。因此我们提出了EAN MapNet,用于使用锚点邻域高效构建高精地图。首先,我们基于锚点邻域设计查询单元,允许非邻域中心锚点有效地帮助将邻域中心锚点拟合到表示地图元素的目标点。然后利用查询之间的相对实例关系,提出了分组局部self-att(GL-SA)。这有助于同一实例的查询之间的直接特征交互,同时创新性地将本地查询用作不同实例查询之间交互的中介。因此,GL-SA显著降低了自注意力的计算复杂度,同时确保了查询之间有足够的特征交互。在nuScenes数据集上,EAN MapNet经过24个epoch的训练,达到了63.0 mAP的最新性能,比MapTR高出12.7 mAP。此外,与MapTRv2相比,它大大减少了8198M的内存消耗。
ADMap: Anti-disturbance framework for reconstructing online vectorized HD map(ECCV2024)
- 论文链接:https://arxiv.org/abs/2401.13172v2
- 开源链接:https://github.com/hht1996ok/ADMap
零跑&浙大等团队的工作:在自动驾驶领域,在线高精(HD)地图重建对于规划任务至关重要。最近的研究开发了几种高性能的高精地图重建模型来满足这一需求。然而,由于预测偏差,实例向量内的点序列可能会抖动或锯齿状,这可能会影响后续任务。因此,本文提出了抗干扰图重建框架(ADMap)。为了减轻点序抖动,该框架由三个模块组成:多尺度感知neck、实例交互注意力(IIA)和矢量方向差损失(VDDL)。通过以级联方式探索实例之间和实例内部的点序关系,该模型可以更有效地监控点序预测过程。ADMap在nuScenes和Argoverse2数据集上实现了最先进的性能。广泛的结果表明,它能够在复杂和不断变化的驾驶场景中生成稳定可靠的地图元素。
Stream Query Denoising for Vectorized HD Map Construction
- 论文链接:https://arxiv.org/abs/2401.09112v2
中科大&旷视团队的工作:为了提高自动驾驶领域复杂和广泛场景中的感知性能,人们对时间建模给予了特别关注,特别强调了流式方法。流模型的主流趋势涉及利用流查询来传播时间信息。尽管这种方法很流行,但将流式范式直接应用于构建矢量化高精地图(HD地图)并不能充分利用时间信息的内在潜力。本文介绍了流查询去噪(SQD)策略,这是一种在高精地图(HD map)构建中进行时间建模的新方法。SQD旨在促进流模型中映射元素之间时间一致性的学习。该方法涉及对因在前一帧的GT中添加噪声而受到干扰的查询进行去噪。该去噪过程旨在重建当前帧的地面真实信息,从而模拟流查询中固有的预测过程。SQD策略可以应用于这些流式方法(例如StreamMapNet),以增强时间建模。拟议的SQD MapNet是配备SQD的StreamMapNet。在nuScenes和Argoverse2上的大量实验表明,我们的方法在近距离和远距离的所有设置中都明显优于其他现有方法。
MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction
- 论文链接:https://arxiv.org/abs/2401.07323v1
独立研究作者:高精(HD)地图是自动驾驶导航的关键。将运行时轻量级高精地图构建的能力集成到自动驾驶系统中最近成为一个有前景的方向。在这种激增中,视觉感知脱颖而出,因为相机设备仍然可以感知立体信息,更不用说其便携性和经济性的吸引人的特征了。最新的MapTR架构以端到端的方式解决了在线高精地图构建任务,但其潜力仍有待探索。在这项工作中,我们提出了MapTR的全面升级,并提出了下一代高精地图学习架构MapNeXt,从模型训练和缩放的角度做出了重大贡献。在深入了解MapTR的训练动态并充分利用地图元素的监督后,MapNeXt Tiny在不进行任何架构修改的情况下,将MapTR Tiny的map从49.0%提高到54.8%。MapNeXt Base享受着地图分割预训练的成果,将map进一步提高到63.9%,已经比现有技术多模态MapTR提高了1.4%,同时速度提高了1.8倍。为了将性能边界推向下一个水平,我们在实际模型缩放方面得出了两个结论:增加的查询有利于更大的解码器网络进行充分的消化;一个大的主干稳定地提高了最终的准确性,没有花哨的东西。基于这两条经验法则,MapNeXt Huge在具有挑战性的nuScenes基准测试中取得了最先进的性能。具体来说,我们首次将无地图视觉单模型性能提高到78%以上,比现有方法中的最佳模型高出16%。
总结与展望
从今年文章的情况来看,可以总结以下几点趋势:
- 前期工作主要是模型层面的改动:比如模型训练的优化方法、损失、新型注意力机制、Query、Encoder-Decoder的改进等等方式;
- 下半年的文章则聚焦在如何使用额外的信息提升模型性能:比如SD Map、历史地图等等,额外信息的引入能大幅提升模型性能,这块也是业内实际量产的前沿方向,值得更进一步挖局;
- 此外也有一些工作尝试进行蒸馏、研究模型的鲁棒性等,这块对量产的指导意义更强,期待后续有业务数据的反馈。
总结来说,目前在线高精地图是工业界和学术界主流的研究方向,从CVPR/ECCV等顶会也可以反应出这一趋势。模块化方法离不开在线高精地图,端到端更离不开在线地图。但反过来说,在线地图依赖传统高精地图的标注训练。可谓从群众中来,到群众中去。传统高精地图不会湮灭,仍然会在技术发展的洪流中发光发热。
#Robo-GS
开源最Solid的赛博机械臂!机械臂与环境无缝交互
🚨🤖 警报!机器人界的“血案”:特斯拉工厂惊现机械臂“暴走”事件 🚨
去年年末,一则“特斯拉机器人伤人事件”的微博引发了网友的广泛关注和热烈讨论。
📅 时间倒回2023年12月26日,英国小报《每日邮报》爆出猛料,标题惊悚:“特斯拉机器人在得克萨斯州工厂发生严重故障,一名工程师惨遭‘毒手’——现场留下‘血迹’,紧急关闭按钮被工人们火速按下!”😱
📜 但别急,这起事故实际上记录在2021年的特斯拉报告中,并非近期发生。文章中描述了两名目击者惊恐地目睹他们的同事被一台本应用于抓取和移动新铝制汽车零件的机器“袭击”。🏭
根据澎湃新闻2024.1.10 https://www.thepaper.cn/newsDetail_forward_25951876
🤖 机器臂安全,警钟长鸣! 虽说这则网络新闻并非近期发生,但机器臂安全不容小觑。有了xx智能的加持后,或许能一定程度上防止工业机器人伤人事件。然而由于感知判断错误,以及机器臂网络重建误差依然有可能引起的工业事故。为了彻底规避“机械臂搬运零件时发生严重偏移,从而撞到检查设备的工人”这类事故,学者们对于机械臂控制以及机械臂网络重建精度的研究仍在努力探索中。
Real2Sim技术能刚好地帮助机械臂在工作时更好地控制“自己”。近期公开的Robo-GS采用混合表示模型,集成了网格几何、3D高斯核和物理属性,以增强机械臂的数字资产表示。这种混合表示通过高斯-网格-像素绑定技术实现,该技术在网格顶点和高斯模型之间建立了同构映射。这能够实现一个完全可微的渲染管道,该管道可以通过数值求解器进行优化,通过高斯展开实现高保真渲染,并使用基于网格的方法促进机械臂与其环境交互的物理合理模拟。该流程标准化了坐标系统和比例尺,确保了多个组件的无缝集成。除了重建机械臂外,还可以整体重建周围的静态背景和物体,从而实现机械臂与其环境之间的无缝交互。
该项成果还提供了涵盖各种机器人操作任务和机械臂网格重建的数据集,由网格、高斯溅射和真实世界运动的组合表示。这些数据集包括以数字资产形式捕获的现实世界运动,确保了质量和摩擦力的精确表示,这对于机器人操作至关重要。Real2Sim在机器人应用的真实渲染和网格重建质量方面达到了最先进的水平。
Robo-GS: A Physics Consistent Spatial-Temporal Model for Robotic Arm with Hybrid Representation https://arxiv.org/abs/2408.14873
背景知识
看到这里想必大家有几个问题:什么是渲染?什么是高斯溅射?下面在开始正文之前,文章先来了解一些背景知识。
什么是渲染?
渲染是指将三维场景(或模型)转换成二维图像的过程。这包括光照、阴影、纹理等效果的计算,以生成逼真的视觉效果。高保真渲染是指尽可能接近真实世界效果的渲染技术,包括光照、反射、折射等复杂物理现象的模拟。最常用的渲染方法之一就是利用三维场景重建技术,如高斯飞溅和神经辐射场(NeRF)。
- 高斯飞溅技术如何进行三维场景重建?
首先,从多个视角获取场景的图像或深度数据,以及相应的相机参数。在图像中提取特征点(如SIFT、SURF等),并在不同视角间进行匹配,以建立空间中的对应关系。然后利用多视角几何原理(如三角测量)计算匹配特征点的三维坐标,形成初始的三维点云。对于点云中的每个点,根据其位置精度和可能的误差来源(如相机校准误差、匹配误差等),分配一个高斯分布。这个高斯分布的均值即为该点的三维坐标,协方差矩阵反映了该点位置的不确定性。最后,将所有点的高斯分布组合起来,形成一个连续的、概率性的三维场景表示。这个表示可以进一步用于各种应用,如场景可视化、路径规划、碰撞检测等。
- 神经辐射场(NeRF)如何进行三维场景重建?
与传统的三维重建方法(如体素网格、点云等)不同,NeRF采用了一种连续的体积表示方式。这意味着它并不直接存储三维空间中每个点的颜色或密度,而是通过一个神经网络来“学习”这些属性的函数关系。NeRF的神经网络接收两个主要的输入:一是三维空间中的坐标点(x, y, z),它代表了场景中的位置;二是观察方向(θ, φ),它表示从哪个角度观察该点。网络的输出则是该点在给定观察方向下的颜色和体积密度(即该点被占据的可能性)。为了从神经辐射场中生成可视化的图像,NeRF采用了体积渲染技术。这一过程模拟了光线在三维场景中传播并与物质交互的过程。具体来说,它沿着从相机出发到图像平面上每个像素的光线进行采样,对于光线上的每个采样点,使用NeRF网络查询其颜色和密度。然后,根据这些颜色和密度值,以及光线在场景中的传播路径,计算出该像素的最终颜色。
NeRF的训练目标是最小化重建图像与真实图像之间的差异。这通常通过定义一个损失函数来实现,该损失函数计算了重建图像中每个像素的颜色与真实图像中对应像素颜色之间的误差。在训练过程中,通过反向传播算法来优化神经网络的参数,以最小化损失函数。这一过程通常涉及到大量的迭代计算,直到模型达到收敛状态。
特别之处
在了解了以上背景知识后,文章可以进一步看看这篇文章相对于先前的研究有什么特别的贡献了。
- 提出“同构网格-高斯绑定”,实现了机械臂各部分的联动建模
在传统的或经典的机械臂控制方法中,机械臂的每个连杆都是通过预定义的关节连接起来的。控制机械臂沿特定路径运动的主要方式是通过调整各个关节的角度,这种连接方式允许机械臂按照预设的路径运动。但在高斯设置(机械臂的运动或某些特性被建模为高斯分布或高斯过程)中,各个元素(机械臂的连杆、关节或运动参数)之间没有明确的联动定义。即,这些元素被视为彼此独立的,而不是像经典控制方法中那样通过关节相互连接。由于在高斯设置中各个元素之间的独立性,当尝试模拟或控制机械臂的运动时,可能会出现运动不一致的情况,机械臂的运动可能不符合实际的物理规律或预期的运动轨迹。
为此,文章引入了“同构网格-高斯绑定”的概念。同构网格提供了一个统一的框架,用于描述机械臂的整体形状和结构。而高斯绑定则允许文章在这个框架内为每个元素分配一个高斯分布或高斯过程,以模拟其运动特性或不确定性。通过这种方式,文章能够在保持各个元素独立性的同时,实现它们之间的协调和联动,从而解决运动不一致的问题。
- 对机械臂更有效的姿态学习与控制
在Real2Sim2Real范例中,通过基于姿态的控制策略,利用逆运动学和基于扩散的生成模型,将现实世界中的机械臂操作转化为仿真环境中的控制指令,以实现更有效的机器人学习与控制。这种方法的核心在于将机械臂末端执行器在现实世界中的姿态轨迹转换到仿真环境中,以实现从现实到仿真的有效策略迁移。这种控制方法侧重于机械臂末端执行器(如夹爪、工具等)的姿态(位置和方向),通过测量或预设末端执行器在现实世界中的姿态轨迹,可以生成相应的控制指令。在仿真环境中重现末端执行器姿态的轨迹,可以帮助确保仿真训练的有效性和现实世界的一致性。
- 实现更逼真的渲染
以往的研究通常使用NeRF和高斯飞溅来重建机器人操作场景并实现模拟,探索基于高斯的、高度可变形的物体重建,进行机器人仿真和抓取任务。然而,这些方法往往无法实现高保真渲染。因此,为了实现逼真的渲染,文章将传统的基于MLP的变形场替换为数值ODE求解器,以提高四维高斯溅射的质量。
模型架构解析
接下来一起看看文章的模型具体是如何搭建的吧。
文章的数字资产由网格、高斯飞溅和真实世界的运动来表示。在传统的数字资产制作中,主要关注的是纹理网格和材料属性。然而,文章意识到物体的物理参数,如质量和摩擦,在机器人操作中更为重要。每个高斯绑定到一组网格顶点和面,创建高斯-网格-像素绑定,如图3所示。
文章定义投影映射(Projection Mapping)、网格映射(Mesh Mapping)、重投影映射(Re-projection Mapping)来连接高斯飞溅,网格和真实世界运动的表示。其中,投影映射将任何已知的3D点位置使用透视投影模型重新投影到2D图像平面上;网格映射将高斯中心(A)与顶点集合(V)中的每一个顶点关联;重投影映射定义了高斯中心(A)与图像像素位置(P)和顶点集合(V)相关联的同构关系φ,记录真实场景的图像平面、基于网格的模拟引擎的模拟结果和渲染的4D高斯飞溅场景之间转移轨迹。从真实世界的视频到高斯到网格的渐变(向后优化)、从网格到高斯到渲染视频的渐变(前向渲染)遵循以上映射关系。
接下来,文章从单目视频数据中提取机器人臂的链接、对象和背景网格,并将其与物理参数和控制方程相结合,以生成用于仿真的统一机器人描述格式(URDF)模型。具体来说分为以下几步:(1)从视频数据中提取三维网格模型,这些模型能够精确地表示机器人臂的各个部分、操作对象以及背景环境。(2)LLM(Large Language Models)在这里用于推断物理参数,如质量、摩擦系数等,这些参数对于机器人操作和仿真至关重要。(3)控制方程(用于描述和控制机器人运动的数学方程)被嵌入到URDF资产中,有助于在仿真环境中准确地模拟机器人的行为。(4)Panoptic图像分割技术更精确地从视频中提取和重建三维网格,并将它们整合到URDF模型中。(5)采用2DGS(2D Gaussian Splatting)从二维图像中提取三维几何信息,将图像中的像素映射到三维空间中的高斯分布。此外,文章采用场景重新定向技术将重建的场景与仿真引擎的坐标系对齐,并建立了一个统一的坐标系统OpenGL,无缝连接现实世界和模拟场景。
- 在运动控制方程的选择上,将原来的四维重建问题分解为静态和动态两个阶段,使用欧拉表示法处理静态场景,使用拉格朗日表示法处理动态场景。文章采用基于姿态的机械臂控制策略,重点控制末端执行器的姿态,并使用逆运动学来生成现实世界中每个关节的控制信号。在这种方法中,网格充当互连映射。每个网格的运动通过变换矩阵传递到每个绑定到该网格上的高斯,从而引导高斯的运动。
- 动力学控制方程选择牛顿-欧拉方程,生成一个具有机械臂力控制和刚体运动的变换矩阵。
- 最后,为了渲染视图,高斯飞溅将这些3D高斯投影到图像平面上,并计算每个像素的颜色,及每个高斯中心在t时刻的位置更新,从而提取一组轨迹,应用于渲染场景。
实验结果
文章比较了当前最先进的四维高斯喷溅,包括SC-GS和K-Planes,与本文的方法,发现K-Planes和SC-GS都不能优化机械臂和物体运动的转换。图5显示了执行一组轨迹以识别其拐角情况的机器人手臂的重建。本文的方法展示了处理复杂轨迹和运动的能力。
图6显示了推箱子的机械臂的重构。显然,KPlanes和SC-GS无法准确地重建机械臂和刚体的动态运动,这与Robo360的结果一致。相比之下,本文的方法在机器人操作任务中成功地保持了运动和几何一致性。
文章将文章的方法与2DGS Original, Gaustudio, SUGAR和商业3D扫描仪扫描的地面真相进行比较。与SUGAR和Gaustudio相比,文章的方法产生了更好的网格质量,并实现了接触丰富的策略执行。图7显示了与地面真值网格和其他方法相比,文章的网格结果的质量更好。可以看到,在URDF方法中,文章的模型成功地重构了机械臂不同小模块的相接的部位。
表1给出了Gaustudio、Sugar、Robostudio (v1)和Robostudio (Full)的定量比较结果。Robostudio (v1)和Robostudio (Full)之间的区别在于Robostudio (Full)包括二维高斯溅射(2DGS)中的重新定向和网格清洗技术,从而改善了对齐和采样。
总结
文章针对机械手臂操作场景的整体重建,这需要一个可操作的机器人模型,背景和对象的重建,质量和摩擦等物理参数的结合,以及逼真的渲染器。该方法的核心是高斯-网格-像素绑定,它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯被分配一个语义标签和相应的ID,从而能够精确地应用由URDF控制的转换矩阵。这确保了真实世界视频、模拟结果和渲染图像之间轨迹的无缝传输。这种绑定的优点包括在每个表示之间传递端到端的可微分梯度,通过文章最先进的网格重建进行卓越的碰撞检测,以及高渲染质量。系统确保了模拟和现实之间的一致渲染,允许学习策略有效地部署在现实场景中。此外,它还支持在Isaac Sim (Gym)模拟中进行编辑后端,启用新姿态和新策略调整。此外,文章还提出了一种新的数字资产格式,由网格、高斯飞溅和真实世界运动的组合表示。该方法通过整合从真实世界的运动视频中提取的关键物理参数,如质量和摩擦,超越了传统的纹理网格和材料属性。
#ADS断代领先
华为发布首款轿跑SUV
26.8万,打破BBA崇拜的华为,接下来要挑战Model Y了。
刚刚,华为首款轿跑SUV智界R7开订,车长近5米,尺寸介于Model X和Model Y之间。
800V高压平台,最高续航超800km,预售价26.8万元。
同时,年度科技车皇问界M9,新增了五座版车型,46.98万起售。
26.8万起,华为首款轿跑SUV开订
智界R7车长/宽/高分别为4956/1981/1634(mm),比Model Y大得多,外观和智界S7相似,形成了鸿蒙智行家族设计语言。
前排内饰风格也和智界S7相似,椭圆的方向盘,以及超大的中控平台。
前舱部分首发了一项很有趣的功能。
华为将手机上双击截屏的思路,迁移至前备箱,可以敲击开启。
后备箱空间837L,三层分区,可以放下3个28寸大行李箱和1个20寸登机箱。
副驾有零重力座椅,余承东介绍,即便是前排如图中躺下一个女生,后排仍然可以坐人。
展车不久后会到门店,大家可以线下体验体验,验证一下嘴总有没有“以行践言”。
三电方面,搭载800V高压平台,最高续航802km,在纯电的SUV中实现了罕见的“双800”。
长续航主要得益于超低的风阻系数,余承东再次强调,智界R7的风阻系数全球最低。
操控上,前双叉臂后五连杆悬挂,全系标配CDC连续可变阻尼减震器和空气悬架。
以上就是智界R7目前公开的主要信息,预售价格为26.8万元,也就是13台华为三折叠的价格。
比智界S7的预售价格贵了1万元,比Model Y也贵了1.6万元,预计正式上市还会有惊喜。
压轴登场的智界R7,有很多惊喜,但并非是唯一主角。
与华为三折叠同台发布的,还有问界M9五座版。
46.98万起,问界M9五座版上市
问界M9交付以来,在50万元以上SUV市场势如破竹,连续5个月蝉联,累计大定突破13万台。
不过,三排座椅也劝退了一部分潜在用户,比如一孩家庭,日常用不上这么多座位。
所以说此次新增五座版,可以覆盖更大的用户群体。
五座也能变四座,中台配有杯架、储物盒和无线快充:
头枕音响拔掉后,支持“双人沙滩椅模式”:
少了一排座位,后备箱空间自然更富裕了。
五座版后备箱空间达1043L,可以放下4个28英寸的大行李箱以及1个高尔夫球包。
空间更大之外,华为还进行了很多新的设计:
比如类似劳斯莱斯的“揽景座椅”,非常适合钓鱼佬。
配备了储物箱:
装配了麂皮包裹的硬质遮物板以及阻隔器:
底部托盘可以拉出,野外露营时当个餐桌很方便:
除了车座数量变化,还有以下多项升级:
首先是最让人惊讶的是,问界M9可以圆规掉头了。
然后是余承东确认,ADS 3.0明日起鸿蒙智行全系升级,余承东认为ADS 3.0是“断代式领先”,强调车位到车位的体验,“环岛都能开”,这也是此前2.0版本的弱势场景。
其他方面,主要是车内外的一些功能小升级。
车外新增了全新的迎宾灯语。
支持语音控制打开车门:
打开车门来到车内,先来看中控位置,此前曾有人吐槽水晶旋钮功能太少,这次新增悬架高度调节功能和路面辅助模式。
然后是后排,改善了投影幕布体验,防止调节座椅挡住幕布下降:
新车投影幕布还配备了遥控器,老车主后续也会陆续免费送。
最后来看下售价,与六座版相同,有Max和Ultra两个版本。其中只有Ultra版有纯电车型。
Ultra版比Max版多了电动门、华为投影大灯、投影幕布。
Ultra增程版的电池包更大。
有没有很心动?
赛力斯总裁何利扬透露,M9五座版6-8周可交付。
毫无疑问,五座版的上市,会让问界M9在50万元以上SUV市场的统治地位,更加稳固。
问界M9终结了BBA神话,新的问题来了:
智界R7,能不能延续辉煌,把Model Y拉下神坛呢?
#MiniDrive
单卡就能训的VLM来了!中科院提出, 各项指标完爆当前SOTA~
视觉语言模型(VLM)是自动驾驶中的通用端到端模型,通过问答交互实现预测、规划和感知等子任务。然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型(LLM),这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力,因此难以适应自动驾驶中的环视感知。为了解决这些问题,我们提出了一个名为MiniDrive的新框架,该框架结合了我们提出的特征工程混合专家(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE MoE在输入到语言模型之前,有效地将2D特征映射到视觉标记嵌入中。DI适配器使可视令牌嵌入能够随着指令文本嵌入而动态变化,解决了以前方法中同一图像的静态可视令牌嵌入问题。与之前的工作相比,MiniDrive在参数大小、浮点运算和响应效率方面实现了最先进的性能,轻量版本仅包含83M个参数。
开源链接:https://github.com/EMZucas/minidrive
总结来说,本文的主要贡献如下:
- 本文开发了自动驾驶VLMs MiniDrive,它解决了自动驾驶系统VLMs中高效部署和实时响应的挑战,同时保持了出色的性能。该模型的训练成本降低,多个MiniDrive模型可以在具有24GB内存的RTX 4090 GPU上同时进行完全训练;
- MinDrive首次尝试利用大型卷积核架构作为自动驾驶视觉语言模型的视觉编码器骨干,并能够更高效、更快地提取不同图像级别的2D特征。我们提出了特征工程混合专家(FE-MoE),它解决了从多个角度将2D特征高效编码到文本标记嵌入中的挑战,有效地减少了视觉特征标记的数量,并最大限度地减少了特征冗余;
- 本文通过残差结构引入了动态指令适配器,解决了同一图像在输入到语言模型之前的固定视觉标记问题。DI适配器使视觉特征能够动态适应不同的文本指令,从而增强跨模态理解;
- 我们在MiniDrive上进行了广泛的实验,与Drive LM上具有多视图图像输入的自动驾驶VLM相比,实现了最先进的性能。此外,我们在CODA-LM上使用单幅图像输入的性能比普通开源VLM(>7B)平均高出13.2分。
相关工作回顾Vision-Language Models
Transformer架构的成功推动了LLM的发展。在计算机视觉领域,Dosovitskiy等人提出了ViT,它将图像划分为补丁,并根据transformer架构对其进行处理,成功地将其应用于计算机视觉任务。Transformer架构可以有效地学习和表示图像和自然语言。一项开创性的工作是CLIP,它将对比学习用于图像-文本对齐训练,展示了在图像分类任务中优越的零样本能力。Llava冻结了CLIP的视觉编码器(ViT),并在视觉编码器和LLM之间添加了一个线性投影层,旨在将视觉输出表示映射到文本空间中。同样BLIP-2通过更复杂的Q-Former对齐视觉和文本表示。InstructBLIP以BLIP-2为基础,对公共视觉问答数据集进行指令微调。MiniGPT-4将冻结的视觉编码器和Q-Former与类似冻结的LLM Vicuna相结合,将它们与单个投影层对齐。Llava-1.5v通过使用带有多层感知器(MLP)投影层的CLIP-ViT-L-336px,并添加针对学术任务量身定制的VQA数据,通过简单的响应格式化提示,在11个基准测试中实现了最先进的性能,显著提高了数据效率。Phi-3-mini具有默认的4K上下文长度,并引入了使用LongRope技术扩展到128K上下文长度的版本,同时采用了类似于Llama-2的块结构和相同的标记器,实现了轻量级的多模式模型。尽管这些多模态大型模型具有强大的功能,并且有轻量化设计的趋势,但它们的参数数量超过10亿,这使得在许多硬件平台上的部署和实时使用具有挑战性。因此,有必要研究和开发具有较小参数大小和较低计算成本的高效视觉语言模型。
Autonomous Driving Based on LLMs
LLM有效地增强了自动驾驶系统的可解释性及其与人类的互动。这些优势促使研究人员将自动驾驶的多模态数据纳入LLM的训练中,旨在为自动驾驶构建多模态大型模型。Chen等人将矢量化模态信息与LLaMA-7B对齐,以训练自动驾驶的问答模型。训练过程遵循两阶段方法:在第一阶段,向量表示与冻结的LLaMA对齐,而在第二阶段,LoRA用于微调语言模型。DriveGPT4也使用LLaMA作为其大型语言模型,使用CLIP作为视觉编码器。它通过输入视觉和文本信息来生成相应的答案。DriveGPT4操纵ChatGPT/GPT-4生成指令数据集,并在此数据集上进行训练。然而DriveGPT4仅使用单视角图像,限制了其在自动驾驶场景中处理更全面理解的能力。Wang等人开发了DriveMLM,该模型使用LLaMA-7B作为基础语言模型,ViT-g/14作为图像编码器。该模型处理多视图图像、激光雷达点云、交通规则和用户命令,以实现闭环驾驶。受大型语言模型中的思维链方法的启发,Sha等人提出了一种用于驾驶场景的思维链框架,使用ChatGPT-3.5为自动驾驶提供可解释的逻辑推理。Mao等人介绍了GPT Driver,它使用ChatGPT-3.5为自动驾驶汽车创建运动规划器,GPT Driver通过将规划器的输入和输出表示为语言令牌,将运动规划作为语言建模任务进行刷新。Sima等人发布了DriveLM数据集,这是一个图形化的视觉问答数据集,其中包含与感知、行为和自我车辆规划相关的问答对,基于NuScenes数据集的多视图图像数据。为了建立基线,Li等人在这个新数据集上对BLIP-2进行了微调。EM-VLM4AD引入了门控池注意力(GPA),它将多个图像聚合到一个统一的嵌入中,并将其与文本嵌入连接作为LLM的输入,在DriveLM数据集上取得了有前景的结果。
虽然现有的工作提供了巨大的价值,并展示了强大的自动驾驶能力,但大多数模型都有超过10亿个参数。它们主要基于GPT-3.5和LLaMA等大规模语言模型,并依赖于基于ViT架构构建的视觉编码器,如CLIP、ViT-g/14和ViT-B/32。这导致了高昂的计算成本,使这些模型不适合在线场景。尽管有开发轻型自动驾驶车型的趋势,但与大型车型相比,它们的性能仍然不足。
MinDrive方法详解
MiniDrive是自动驾驶领域的一种视觉语言模型,旨在执行视觉问答任务。它通过接收图像和用户指令文本作为输入来生成文本响应。在本节中,我们首先详细介绍MiniDrive的整体框架,然后具体解释每个模块的技术细节和原理,包括视觉编码器、特征工程混合专家(FE-MoE)和动态指令适配器(DI适配器)。
Model Architecture
图2(a)展示了MiniDrive的整体结构。在MiniDrive中,主要有两个分支:视觉和文本。在视觉方面,给定来自车辆的n幅图像作为视觉编码器的输入,每幅图像都接收一组深度2D特征表示。然后,这些特征被输入到FE-MoE中,在那里,多个专家沿着通道维度c压缩信息,并沿着高度h和宽度w维度扩展信息,以生成新的2D特征表示。在FE MoE中,Gate网络确定哪些专家更适合处理每个图像,为每个专家分配不同的权重值。最后,通过加权和来组合新的2D特征表示,以产生新的特征集Vmoe。压扁Vmoe得到V。
在文本侧,通过Tokenizer和Em垫层处理用户在构造中的自然语言,以获得文本T的令牌嵌入。文本T的嵌入序列用作键(k)和值(v),而现阶段的视觉嵌入序列v用作查询(q)。这些被馈送到DI适配器中以计算新的视觉嵌入序列V1,该序列现在结合了来自文本嵌入T的上下文信息,从而能够更好地进行跨模态理解或决策。然后,V1通过残差连接与V组合以形成序列。然后,连接,被用作语言模型的输入。语言模型解码以生成具有最高预测概率的单词序列。整个框架高效地处理多图像输入信息,动态响应用户查询。
Vision Encoder
如图2(b)所示,视觉编码器的骨干网络基于大核神经网络UniRepLKNet(Ding等人,2024),该网络在多种模态上表现出色。它有效地利用了大型内核卷积的特性,无需深入网络层即可实现广泛的接受域。在保持高效计算的同时,它在各种任务中也达到或超过了当前最先进技术的性能。这种通用性和效率使其成为一个强大的模型,在广泛的感知任务中具有潜力。如图3所示,对UniRepLKNet的整体架构进行简要回顾后发现,它主要由多个顺序连接的Stage层组成。每个阶段主要由一系列Lark Block和Smak Block组成。在MiniDrive中,我们使用UniRepLKNet作为视觉网络的骨干,其中输入图像并从最后阶段n获得输出特征图F1。
Feature Engineering Mixture of Experts
在图2(b)中,我们展示了FE-MoE的具体结构,该结构旨在处理来自多幅图像的二维输入特征。每个输入图像对应于视觉编码器输出的特征图F1。为了进一步有效地处理每个图像的2D特征表示,它们被输入到FE-MoE中。首先,门网络使用F1来获得与样本对应的专家选择权重。Gate网络主要由卷积层、最大池化层和线性层组成,如下式所示:
每个专家网络主要由解卷积层、ReLU层和卷积层组成。解卷积层首先执行初始上采样映射,增加特征图宽度和高度的维度以扩展信息量,从而促进后续的映射学习。同时,它减少了原始特征图中的通道数量,以最小化数据冗余并选择最重要的二维特征表示信息,从而显著简化了后续视觉标记的数量。卷积层进一步变换特征,以提高专家的学习能力。公式如下:
在这种情况下,F2表示单个专家的输出。假设图像的第i个专家的权重为Wi,该专家的输出为Fi,专家总数为N,则FE-MoE模型处理后的图像特征Vmoe由以下公式表示:
Dynamic Instruction Adapter
在之前的视觉语言模型中,图像表示在输入语言模型之前是固定的,在进入语言模型进行计算之前,它们对应于各种文本表示。为了使图像表示在输入到语言模型之前能够根据不同的文本表示进行动态转换,从而提高跨模态理解,我们引入了动态指令机制并设计了动态指令适配器。我们使用文本输入序列T作为键(k)和值(v),使用图像输入序列v作为查询(q)。通过交叉注意,我们计算了融合了文本上下文信息的融合序列V。公式如下:
残差通道中的序列通过残差连接与投影层的输出序列连接,作为输入到语言模型之前的视觉表示。附加语言模型输出的培训见附录。
实验结果定量结果
在表1中,我们将MiniDrive的评估结果与之前在测试集上的工作进行了比较,包括EM-VLM4AD和Drive Agent。就指标的整体性能而言,MiniDrive224和MiniDrive384都优于以前的方法,尽管DriveLM Agent在BLEU-4中覆盖了我们,但它的参数计数明显大于我们的,达到3.96B。
计算分析
本节主要比较MiniDrive和一系列现有视觉语言模型在参数计数、浮点运算(FLOP)和内存使用(GB)方面的差异。结果如表2所示。以224的输入图像分辨率为例,MiniDrive在所有三个方面都表现出了卓越的性能。
定性示例
在图4中,我们展示了MiniDrive在三个不同任务中对看不见的样本的实际响应。为了对MiniDrive对多视图图像输入的感知进行可解释性分析,我们分析了MiniDrive在各种场景下的激活图。在图4(a)中,MiniDrive演示了对多个图像输入的感知问答,蓝色框表示用户指令中“左后”位置引用的图像。红色框对应于MiniDrive的响应,主要关注该图像,在指定位置识别“许多汽车、一辆卡车和一名行人”。在图4(b)中,MiniDrive演示了如何为多个图像输入规划问答。根据用户的指令和空间术语“CAM_FRONT”,MiniDrive会聚焦在相应正面图像左侧的红色框上。这种关注与人们在做出规划决策时考虑的因素相一致,包括行车道标记和自我汽车左侧的车辆。在图4(c)中,MiniDrive演示了多个图像输入的预测性问答。根据用户预测“左前”位置行人运动的指令,MiniDrive会关注相应位置图像中的行人,并用红色框突出显示。综上所述,MiniDrive在激活图中关注的对象与人类驾驶员在驾驶过程中遵循的推理一致,表明MiniDrive具有一定程度的可靠性和可解释性。
消融实验
为了验证每个模块的有效性,我们设计了一系列消融实验。在表3中,我们研究了FE-MoE和动态指令适配器(DI适配器)对MiniDrive的影响。当FE-MoE和动态指令适配器分别引入时,各种指标的结果都有所改善,当两个模块同时引入时,效果更好。这表明了模块之间机制的有效性。其他消融实验的详细信息见附录。
进一步分析
尽管MiniDrive被设计为用于接收多图像输入的自动驾驶问答模型,但它从多个图像中提取、压缩和重新学习信息,作为语言模型的文本令牌。然而它仍然可以用于单个图像输入任务。我们将其与CODA-LM上现有的主流开源和闭源通用模型进行了比较,如表4所示。很明显,尽管MiniDrive只有83M个参数,但它表现出了卓越的性能,优于开源模型,接近闭源模型的性能。由于训练数据的分布问题,我们认为这是MiniDrive识别“圆锥体”能力强的主要因素。
结论
本文介绍了MiniDrive,这是一种最先进的自动驾驶轻量级视觉语言模型。我们介绍了FE-MoE和DI-Adapter机制,提出了一种将2D卷积特征映射到语言模型的文本标记中的新方法。我们的模型在DriveLM和CODA-LM两个数据集上取得了出色的结果。未来,我们的目标是开发一个具有视频输入的实时响应模型,以进一步推进自动驾驶技术。
限制
MiniDrive构建了专用于自动驾驶领域的VLM,并在当前的主流基准测试中取得了优异的成绩。然而它仍然缺乏一定程度的泛化能力,我们认为这是由于训练样本的局限性造成的。现有的自动驾驶领域需要更多的公共数据集和开发工作。此外,MiniDrive的培训主要集中在基于指令的数据集上,它仍然会遇到幻觉问题。
#GraspSplats
xx智能再发力!高效抓取,准确性和效率都提升
机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要,并且随着视觉语言模型(VLMs)的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距,现有方法依赖于通过可微渲染或基于点的投影方法的神经场(NeRFs)。然而,我们证明NeRFs由于其隐式性而不适用于场景变化,而基于点的方法在没有基于渲染的优化的情况下,对于部件定位不准确。为了解决这些问题,我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法,GraspSplats在不到60秒的时间内生成高质量的场景表示。我们进一步通过展示GraspSplats中明确且优化的几何形状足以自然支持(1)实时抓取采样和(2)使用点跟踪器的动态和关节物体操作,来验证基于高斯表示的优势。我们在Franka机器人上进行了大量实验,证明GraspSplats在各种任务设置下显著优于现有方法。特别是,GraspSplats优于基于NeRF的方法(如F3RM和LERF-TOGO)以及二维检测方法。
原文链接:https://arxiv.org/pdf/2409.02084
领域背景介绍
基于部件级理解的零样本高效操作对于下游机器人应用至关重要。设想一个被部署到新家庭的厨房机器人:在给定包含语言指令的食谱后,机器人通过把手拉开抽屉,通过手柄抓住工具,然后推回抽屉。为了执行这些任务,机器人必须动态理解部件级的抓取功能,以便与物体进行有效交互。最近的研究工作,通过将大规模预训练视觉模型(如CLIP)的参考特征嵌入到神经辐射场(Neural Radiance Fields, NeRFs)中来探索这种理解。然而,这些方法仅提供目标级别的场景静态理解,并且需要数分钟的时间来训练场景,这导致在场景发生任何变化后都需要进行昂贵的重新训练。这一局限性极大地阻碍了涉及物体位移或需要部件级理解的实际应用。另一方面,基于点的方法,通过对二维特征进行反投影,在特征构建方面效率很高,但在处理视觉遮挡时遇到困难,并且往往无法在没有进一步优化的情况下推断出细粒度的空间关系。
除了动态和部件级的场景理解外,实现精细操作还要求机器人对场景的几何和语义都有深入的理解。为了从粗略的二维视觉特征中获得这种能力,需要进一步的优化来弥合二维到三维的差距。基于NeRF的方法通过可微渲染促进了这种理解。然而,NeRFs从根本上来说是隐式表示,这使得它们难以编辑以适应场景变化,从而导致静态假设。为了解决动态问题,一些工作通常使用三维密集对应关系来预测抓取姿态,其中基于参考状态中的关键点识别出可靠的抓取点,然后将其应用于不同的视角或物体位置。然而,这些方法在跟踪物体状态随时间的变化和处理相同物体方面面临挑战。
为此,本文提出了GraspSplats。给定来自校准相机的带姿态的RGBD帧,GraspSplats通过3DGS(3D Gaussian Splatting,3DGS)构建了一个高保真表示,该表示作为显式高斯椭球体的集合。GraspSplats在不到30秒的时间内重建场景,并支持静态和刚性变换的高效部件级抓取,从而实现了如跟踪部件物体等现有方法无法实现的操作。GraspSplats从深度帧的粗略几何形状初始化高斯分布;同时,使用MobileSAM和MaskCLIP实时计算每个输入视图的参考特征。这些高斯分布通过可微光栅化进一步优化几何、纹理和语义。用户可以提供一个目标名称查询(例如,“杯子”)和部件查询(例如,“手柄”),以便GraspSplats能够高效地预测部件级可抓取性并生成抓取建议。GraspSplats直接使用显式高斯原语在毫秒级内生成抓取建议,为此扩展了现有的抓取生成器。此外,还进一步利用显式表示来在物体位移下保持高质量表示。使用点跟踪器,GraspSplats粗略地编辑场景以捕捉刚性变换,并通过部分场景重建进一步优化它。
本文在一台台式计算机上实现了GraspSplats,并搭配真实的Franka Research (FR3)机器人来评估其在桌面操作中的有效性。GraspSplats中的每个组件都非常高效,并且在经验上比现有工作快一个数量级(10倍)——包括计算二维参考特征、优化三维表示和生成二指抓取建议。这使得在手臂扫描的同时并行生成GraspSplats表示成为可能。在实验中,GraspSplats的性能优于基于NeRF的方法(如F3RM和LERF-TOGO)以及其他基于点的方法。
本文贡献主要有三个方面:
提出了一个使用三维高斯溅射(3DGS)进行抓取表示的框架。GraspSplats高效地重建了具有几何、纹理和语义监督的场景,在准确性和效率方面都优于基线方法,实现了零样本部件级抓取。
开发了一种可编辑的高保真表示技术,该技术超越了静态场景中的零样本操作,进入了动态和关节物体操作领域。
进行了广泛的真实机器人实验,验证了GraspSplats在静态和动态场景中零样本抓取的有效性,展示了方法相对于基于NeRF或基于点的方法的优越性。
相关工作一览
语言引导的操作。为了支持零样本操作,机器人必须利用从互联网规模数据中学习到的先验知识。最近有一些工作使用二维基础视觉模型(如CLIP、SAM或GroundingDINO)来构建开放词汇量的三维表示。然而,这些方法大多依赖于简单的二维反投影。没有进一步的基于渲染的优化,它们通常无法提供精确的部件级信息。最近,基于DFF和LERF的研究工作,研究人员发现将特征蒸馏与神经渲染相结合,可以为机器人操作提供有前景的表示,因为它同时提供了高质量的语义和几何信息。值得注意的是,LERF-TOGO提出了条件CLIP查询和DINO正则化,以实现基于部件的零样本操作。F3RM从少量演示中学习抓取。Evo-NeRF专注于针对堆叠透明物体的NeRF,这在概念上与我们的方法正交。然而,这些方法都是基于NeRF的,而NeRF本质上是隐式的。尽管某些NeRF表示可以适应于动态运动的建模,如基于网格的方法,但显式方法更适合于动态场景的建模。
抓取姿态检测。在机器人操作中,抓取姿态检测一直是一个长期的研究课题。现有方法大致可分为两类:端到端方法和基于采样的方法。端到端方法为抓取姿态提供了简化的流程,并融入了学习的语义先验(例如,通过手柄抓取的杯子)。然而,这些方法通常要求测试数据模式(如视角、目标类别和变换)与训练分布完全匹配。例如,LERF-TOGO通过为输入生成数百个使用不同变换的点云来解决GraspNet的视角变化问题,这需要大量的计算时间。另一方面,基于采样的方法不学习语义先验,但当存在显式表示时,它们能提供可靠且快速的结果。在本研究中,发现显式的高斯基元自然地与基于采样的方法相结合,而GraspSplats中嵌入的特征则通过语言指导来补充语义先验。这种直观的组合使得在动态和杂乱环境中高效地、准确地采样抓取姿态成为可能。
并行工作。同时,多种方法开始将3DGS与二维特征相结合。这些工作中的大多数仅关注外观编辑。我们基于特征溅射构建了GraspSplats,因为其在工程上进行了优化,并进一步将整体重建时间缩短到十分之一。在准备本工作过程中,出现了一项并行工作。与我们的工作类似,Zheng等人[40]也将高斯溅射与特征蒸馏相结合用于抓取。然而没有处理面向任务的操作中的部件级查询,并且仍然主要关注静态场景。尽管他们简要展示了高斯基元在处理移动物体方面的潜力,但他们仍然做出了一个强烈的假设——只有当物体被机械臂移动时,物体表示才会发生位移。这样的假设在涉及外部力量(例如,被其他机器或人类移动)的更一般场景中是不充分的。此外,他们仍然需要昂贵的参考特征生成。最新的并行工作[41]使用高斯溅射进行机器人操作,但它仅融合了来自几个固定camera的数据,因此没有解决部件级操作问题。GraspSplats扩展了高斯溅射,作为解决这些问题的一个有前途的替代方案。
使用3D特征溅射进行高效操作
问题定义。我们假设有一个带有平行夹爪的机器人、一个经过校准的手腕内置RGBD相机以及一个经过校准的第三人称视角相机。给定一个包含一组物体的场景,目标是让机器人通过语言查询(例如,“厨房刀”)来抓取并提起物体。可选地,还可以进一步提供部分查询以指定要抓取的部分(例如,“手柄”),以实现面向任务的操控。值得注意的是,与以往的工作不同,我们不假设场景是静态的。相反,我们的目标是设计一种更通用的算法,即使物体在移动,也可以连续进行部分级别的抓取可负担性和采样。
背景。原始的Gaussian Splatting专注于新视角合成,并且仅限于仅使用纹理信息作为监督。最近的一些工作试图将GS扩展到重建密集的2D特征。更具体地说,GraspSplats使用溅射算法来渲染深度、颜色以及密集的视觉特征。
其中,、和分别是每个高斯项相对于相机原点的距离、潜在特征向量和颜色,α是每个高斯项的透明度,且索引i∈N按的升序排列。遵循惯例,我们进一步假设每个高斯项的特征向量是各向同性的。然后,使用L2损失对渲染的深度、图像和特征进行监督。请注意,所有近期的工作都遵循与等式1类似的范式。
概述。为了支持开放式抓取,GraspSplats提出了三个关键组件。概述如图2和图3所示。首先,一种使用新颖参考特征和几何正则化来有效构建场景表示的方法。其次,一种使用3D条件语言查询和扩展的对极抓取proposal直接在3D高斯上生成抓取建议的方法。最后,一种在目标位移下编辑高斯的方法,该方法可实现动态和关节式目标操作。
1.构建特征增强的3D高斯体
使用可微分的栅格化将2D特征提升到3D表示。尽管现有的特征增强的GS(Gaussian Splatting)工作提供了部分级别的理解,但一个常被忽视的弱点是场景优化开始之前的高昂开销。这个开销可以进一步分解为(1)昂贵的参考特征计算或(2)源自SfM(Structure from Motion,运动恢复结构)预处理的稀疏高斯体的密集化。
高效的层次化参考特征计算。现有方法在将粗糙的CLIP特征正则化方面花费了大部分计算资源——无论是通过数千个多尺度查询,还是通过基于掩码的正则化和昂贵的网格采样。
这里提出了一种使用MobileSAMV2来高效地正则化CLIP的方法。我们生成了层次化的特征,包括目标级和部件级,这些特征专为抓取而设计。给定一张输入图像,MobileSAMV2会预测出与类别无关的边界框集合和一组目标掩码{M}。对于目标级特征,首先使用MaskCLIP来计算整个图像的粗略CLIP特征。然后遵循Qiu等人的方法,并使用带掩码的平均池化来根据{M}对目标级CLIP特征进行正则化。
对于部件级特征,从中提取图像块,以便在MaskCLIP上进行批量推理。由于融入了从SA-1B数据集中学到的目标先验知识,因此N远小于通过均匀查询进行高效推理所需的图像块数量。然后,我们对特征进行插值,以将它们重新映射回原始图像的形状,并对多个实例取平均值,以形成用于部件级监督的。
在可微分栅格化过程中,我们引入了一个具有两个输出分支的浅层MLP(多层感知机),该MLP将等式1中的渲染特征作为中间特征输入。第一个分支渲染目标级特征,第二个分支渲染部件级特征和,即, = ,其中和分别使用和通过余弦损失进行监督。在联合损失Lobj + λ · Lpart中将部件级项的权重λ设置为2.0,以强调部件级分割。
通过深度进行几何正则化。现有的特征增强的GS方法没有对几何进行监督。在GraspSplats中,将来自深度图像的点投影为初始高斯体的中心。此外,在训练过程中使用深度作为监督。经验上,这种额外的几何正则化显著减少了训练时间,并获得了更好的表面几何形状。
2.静态场景:部件级目标定位和抓取采样
为了支持高效的零样本部件级抓取,GraspSplats执行目标级查询、条件部件级查询和抓取采样。与基于NeRF的方法不同,后者需要从隐式MLP中提取与语言对齐的特征和几何形状,这需要昂贵的渲染过程,而GraspSplats则直接在高斯原语上操作,以实现高效的定位和抓取查询。开放词汇目标查询。我们首先执行目标级开放词汇查询(例如,“杯子”),其中我们使用语言查询来选择要抓取的目标,并可选择使用否定查询来过滤掉其他目标。我们通过直接识别那些各向同性CLIP特征与正查询比负查询更紧密对齐的3D高斯体来实现这一点。特征-文本比较过程遵循标准的CLIP实践。
开放词汇条件部件级查询。正如Rashid等人所讨论的,CLIP表现出类似词袋的行为(例如,“杯子手柄”的激活往往同时包含杯子和手柄)。因此,有必要执行条件查询。虽然LERF-TOGO需要两步(渲染-体素化)过程,但GraspSplats原生支持基于高斯原语的CLIP条件查询。特别是,在给定从上一操作分割出的目标后,我们只需用新的部件级查询重复该过程,并将高斯体集合限制在分割出的目标上。图3给出了这种部件级条件的定性示例。
使用高斯Primitives进行抓取采样。直接在高斯Primitives上进行抓取采样,以实现流畅的抓取。为此,将GraspSplats与GPG(一种基于采样的抓取proposal)相结合。首先定义一个工作空间,它是从分割出的目标部件扩展而来的三维空间。扩展半径是高斯Primitives尺度最长轴之和与夹持器碰撞半径之和。然后从中采样N个点。在这些采样点的邻域内(其中表示从选定点开始指定距离内的区域),我们聚合具有渲染法线的高斯Primitives,并使用平均法线方向计算抓取采样的参考坐标系。
其中,(g)表示高斯Primitives g的单位表面法线。在每个采样点p的参考坐标系中,执行局部网格搜索以找到候选抓取位置,其中夹持器的手指在终端候选抓取位置与分割部件的几何形状接触。
3.动态场景:实时跟踪与优化
使用针对语义和几何优化的表示,将GraspSplats扩展到跟踪目标位移并实时编辑高斯Primitives是很自然的。值得注意的是,这种操作对于现有的基于NeRF的方法来说是一个挑战。多视图目标跟踪与关键点。假设有一个或多个已校准的摄像头,且没有以ego为中心的运动。给定一个目标语言查询,我们分割其3D高斯Primitives并将2D掩码渲染到摄像头上。然后,我们将渲染的掩码离散化为一系列点,作为点跟踪器的输入,该跟踪器连续跟踪给定点的2D坐标。使用深度将这些2D对应关系转换为3D,为了过滤掉噪声对应关系,使用简单的DBSCAN聚类算法来过滤掉3D离群点。最后,对于剩余的对应点,使用Kabsch算法求解SE(3)变换,并将其应用于分割后的3D高斯Primitives。对于多个摄像头,将所有摄像头估计的3D对应关系附加到Kabsch算法的方程组中。请注意,位移可以由机械臂或其他外力产生。部分微调,编辑后的场景可能在初始重建过程中未观察到的区域(例如,位移物体下方的表面)出现不希望的伪影。可选地,GraspSplats支持使用位移前后渲染的目标掩码进行部分场景再训练,这比完全重建要高效得多。
实验对比
#PPAD
用于端到端自动驾驶的预测与规划迭代交互
原标题:PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving
论文链接:https://arxiv.org/pdf/2311.08100
代码链接:https://github.com/zlichen/PPAD
作者单位:HKUST DeepRoute.AI
论文思路:
本文提出了一种用于端到端自动驾驶的新型预测与规划的交互机制,称为PPAD(预测与规划迭代交互自动驾驶)。该机制通过逐时间步的交互更好地整合了预测与规划。自车在每个时间步都基于周围代理(如车辆和行人)的轨迹预测及其局部道路状况进行运动规划。与现有的端到端自动驾驶框架不同,PPAD以自回归方式在每个时间步交错进行预测和规划过程,从而建模自车、代理和动态环境之间的交互,而不是简单地依次进行预测和规划的单一顺序过程。具体而言,本文设计了自车与代理、自车与地图、自车与鸟瞰图(BEV)的交互机制,通过层次化动态关键目标注意力来更好地建模这些交互。在nuScenes基准测试上的实验表明,本文的方法优于当前的先进方法。
主要贡献:
本文提出了PPAD,通过迭代的预测与规划方式优化自车、代理和环境之间的交互。迭代优化能够在规划任务中更好、更自然地建模交互和博弈。预测过程处理更细粒度和复杂的未来不确定性,以进行多代理环境的学习,而规划过程则为自车规划一步的未来轨迹。
本文通过层次化动态关键目标注意力,逐步建模自车、代理、环境和BEV特征图之间的细粒度交互,强调空间局部性。
在nuScenes和Argoverse数据集上进行的实验表明,本文的方法在效果上优于当前的先进方法。
论文设计:
深度学习技术的蓬勃发展为自动驾驶提供了强大的支持,得益于便捷且可解释的离散模块设计,自动驾驶领域已经取得了许多令人振奋的重要里程碑。最近,规划导向的理念在追求更高效的端到端驾驶系统方面引起了业界的共鸣,这也是本研究的重点。
传统的自动驾驶系统方法通常将系统分解为模块化组件,包括定位、感知、跟踪、预测、规划和控制,以实现可解释性和可视性。然而,这种方法存在几个缺点:1)随着系统复杂性的增加,模块之间的误差积累变得更加显著。2)下游任务的性能高度依赖于上游模块,这使得构建统一的数据驱动基础设施非常困难。
最近,端到端自动驾驶由于其简洁性而受到广泛关注。基于学习架构,提出了两种主要的方法。第一种方法直接将原始传感器数据作为输入,不经过任何视图转换来作为场景理解的中间表示,直接输出规划轨迹或控制命令。另一种方法基于鸟瞰图(BEV)表示,充分利用查询生成中间输出,以此作为指导来产生规划结果。其最大的优势之一在于可解释性。在这项工作中,本文遵循了第二种方法的设计。
VAD [23] 和 UniAD [19] 是典型的单步运动规划方法,只考虑了代理、自车与周围环境(如地图元素)之间的单步交互。ThinkTwice [22] 将其扩展为一个两阶段框架,以增强博弈或交互过程。QCNet [56] 和 GameFormer [21] 也重复地建模轨迹预测任务。运动规划作为一个计算问题,需要找到一系列有效轨迹,通常基于周围代理的预测、环境理解以及历史和未来的情境。这也可以被视为一种游戏,其中代理根据其他代理的意图和所遇环境不断规划其下一步行动,通过增量式的动作最终实现其目标。为了在端到端自动驾驶中建模这些预测与规划的动态交互,关键在于通过多步建模来考虑预测轨迹的可能变化,以规划出可行的轨迹。
受VAD [23]的启发,本文旨在将逐步的预测与规划引入一个基于学习的框架。直观上,预测和规划模块可以被建模为一个运动预测任务,即通过给定的历史信息预测未来的路径点。每个时间步的预测和规划模块的结果高度依赖于彼此。因此,本文需要迭代和双向地考虑代理与代理、代理与环境之间的交互,以最大化在给定其他代理观测下代理预测的期望。本文提出了PPAD,通过逐步规划自车的未来轨迹,在一个矢量化学习框架中建模逐时间步的双向交互或博弈,如图1所示。PPAD包括预测和规划过程。对于每个运动预测步骤:
- 预测过程通过代理与环境之间的交叉注意力和自注意力生成当前步骤的运动状态,以建模细粒度的双向交互。本文考虑了自车-代理-环境-BEV的交互,以在所有交通参与者之间传播特征。
- 规划过程基于期望过程预测当前步骤的运动轨迹。
图1:本文提出的PPAD框架的高级示意图。蓝色的代理意图直行,而红色的自车计划变道。图1(a)展示了典型的单步方法,由于缺乏深入的交互,可能导致无效的运动规划并引发事故。图1(b)展示了在PPAD架构下自车与代理之间的博弈过程。在预测过程中,代理通过加速执行一个果断的计划,以阻止自车阻挡其路线。自车的规划过程基于代理之前的预测过程来规划轨迹。自车减速以避免潜在事故,然后变道以实现其驾驶目标。
图2:本文提出的自动驾驶框架PPAD的整体架构。它由感知Transformer和迭代预测-规划模块组成。感知Transformer将场景上下文编码为代理查询、地图查询和BEV查询。然后,预测-规划模块交替进行代理运动预测和自车规划的过程N次。在整个迭代的预测和规划过程中,自车、代理、地图元素和BEV特征之间进行深入交互。在预测过程中,代理最初打算直行,并未意识到自车的潜在运动。经过与自车、地图元素和BEV特征的交互后,代理计划果断加速。在随后的规划过程中,自车通过与更新后的代理查询交互,了解到代理将加速。最终,自车计划先减速,然后为安全起见进行变道。
本文在图2中展示了整体框架PPAD,该框架由感知Transformer和本文提出的迭代预测-规划模块组成。感知Transformer将场景上下文编码为BEV特征图,并进一步解码为矢量化的代理和地图表示。迭代预测-规划模块通常包括预测和规划过程,沿时间维度剖析自车与代理之间的动态交互。最终,它预测代理的运动并规划自车的未来轨迹。
图像特征模块使用共享的图像骨干网络(例如,ResNet [15])来提取不同摄像头视角的图像特征。
BEV特征模块将来自多视角摄像头的语义特征转换为统一的鸟瞰图(BEV)。具体而言,本文继承了BEVFormer [29, 47]的编码器来构建BEV特征。网格状的可学习BEV查询
矢量化特征模块受到VAD [23]范式的启发,本文也通过检测解码头 [29, 58] 和地图元素解码头 [31] 将场景上下文编码为矢量化表示,生成 个学习的代理查询 和 个学习的地图查询 。将附加独立的基于MLP的解码器来产生辅助输出,这些解码器以学习到的查询为输入,并预测代理属性(位置、尺寸、类别等)或地图属性(类别和由点描述的地图向量)。此外,代理查询将与可学习的运动嵌入结合,以建模代理的多样化运动。带有运动的代理表示为 。类似地,自车被建模为三种模式,代表高层次的驾驶指令:直行、左转和右转,其形式为 。
迭代预测-规划模块以交错方式预测自车和代理的未来轨迹。与传统的一次性预测所有轨迹的方法不同,本文的PPAD框架通过迭代代理运动预测和自车规划过程来详细说明每一步的运动规划。得益于PPAD框架,本文可以进行深入设计,以粗到细的方式在场景上下文中强化关键目标的交互(见第3.3节)。本文通过将噪声轨迹作为每一步的预测,并训练PPAD框架在下一个时间步重建其原始位置(见第3.4节),进一步提高自车的驾驶性能。
实验结果:
图3:PPAD的定性结果。图中的绿色框表示自车,红色框表示其他代理。
总结:
本文提出了一种新颖的自动驾驶框架PPAD。不同于以往缺乏深入交互建模的方法,本文将规划问题视为自车与代理之间的多步预测与规划博弈过程。通过PPAD架构,本文提出的层次化动态关键目标注意力被纳入其中,以在每一步学习局部和全局场景上下文,最终规划出更精确的轨迹。在训练过程中,采用了置信度感知的碰撞约束和噪声轨迹,以进一步提高驾驶安全性。总体而言,本文提出的新颖PPAD在现有的先进方法上实现了出色的性能,本文希望PPAD框架能激励业界进行更多探索。
#可提示的闭环交通仿真
英伟达新作
- 论文链接:https://arxiv.org/pdf/2409.05863
- 项目主页:https://ariostgx.github.io/ProSim/
摘要
本文介绍了可提示的闭环交通仿真。仿真是安全且高效的自动驾驶开发的基石。仿真系统的核心应该是生成逼真、反应灵敏且可控的交通模式。本文提出了ProSim,这是一种多模态可提示的闭环交通仿真框架。ProSim允许用户给出一组复杂的数值提示、分类提示或者文本提示,以引导每个智能体的行为和意图。然后,ProSim以闭环方式生成交通场景,并且建模每个智能体与其他交通参与者的交互。本文实验表明,ProSim在不同用户提示下实现了较高的提示可控性,同时在Waymo Sim Agents挑战赛(没有给定提示)中达到了具有竞争力的性能。为了支持对可提示交通仿真的研究,本文创建了ProSim-Instruct-520k,这是一种多模态提示-场景配对的驾驶数据集,包含超过520k个现实世界驾驶场景的10M多条文本提示。
主要贡献
本文的贡献为如下三方面:
1)本文引入了ProSim,这是首创的闭环交通仿真框架;
2)本文创建了ProSim-Instruct-520k,这是一种大规模的多模态提示-场景驾驶数据集,它是首个包含丰富语义智能体运动标签和文本说明的驾驶数据集;
3)本文将发布ProSim的代码和检查点以及ProSim-Instruct-520k的数据、基准和标注工具,以促进智能体运动仿真研究。
论文图片和表格
总结
本文提出了ProSim,这是一种多模态可提示的闭环交通仿真框架。在用户给定一组复杂的多模态提示的情况下,ProSim以闭环方式模拟交通场景,同时引导智能体遵循提示。ProSim在不同的复杂用户提示下展现出高度的真实感和可控性。本文还开发了ProSim-Instruct-520k,这是首个多模态提示-场景配对的驾驶数据集,其包含超过520K个场景和10M+条提示。本文相信,ProSim模型和数据集套件将为未来对驾驶场景以内和以外的可提示人类行为仿真进行研究。
局限性:ProSim尚不支持任意的提示。复杂的智能体交互(例如,“<A0>从左车道超车<A1>”)或者更为复杂的模态(例如,提示<A0>使用其前视图像)将作为今后的工作。
#自动驾驶3D占用预测(Occupancy Prediction)算法调研
在自动驾驶感知任务中,传统的3D场景理解方法大多数都集中在3D目标检测上,难以描述任意形状和无限类别的真实世界物体。3D占用网络(Occupancy Network)是特斯拉在2022年提出的一种新型感知网络,这种感知网络借鉴了机器人领域中的占用网格建图的思想,将感知环境以一种简单的形式进行在线3D重建。简单来说,就是将机器人周围的空间划分为一系列网格单元,然后定义哪个单元被占用,哪个单元是空闲的,通过预测3D空间中的占用概率来获得一种简单的3D空间表示,这样就可以更全面地实现3D场景感知。
近期对最近几年自动驾驶领域中的3D占用网络算法(主要是基于纯视觉)和数据集做了一些调研,本文将做一个简单的汇总。
1. 论文和算法
综述论文
《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》
MonoScene
论文:https://arxiv.org/pdf/2112.00726.pdf
代码:https://github.com/cv-rits/MonoScene
数据集:NYUv2(室内),SemanticKITTI
首个单目3D语义占用预测算法,是后续算法的baseline。
TPVFormer
论文:https://arxiv.org/pdf/2302.07817.pdf
代码:https://github.com/wzzheng/TPVFormer
数据集:SemanticKITTI,Panoptic nuScenes
该算法以环视图像为输入,训练过程中以激光雷达的语义标签为真值去学习实现3D占用预测。作者提出了一种三视角( tri-perspective view,TPV)表示法,能够有效地描述3D场景的细粒度结构。为了将图像特征转换到3D TPV空间,提出了一种基于注意力机制的TPVFormer模型。
SurroundOcc
论文:https://arxiv.org/pdf/2303.09551.pdf
代码:https://github.com/weiyithu/SurroundOcc
数据集:nuScenes,SemanticKITTI
该算法从输入的多个相机的RGB图像中去实现3D语义占用预测,训练时的语义真值是从激光点云的语义信息中产生。
算法流程如下:
根据稀疏的点云语义信息生成稠密的3D占用语义真值过程:
在RTX 3090 GPU上与其他几个算法的推理时间对比:
OccFormer
论文:https://arxiv.org/pdf/2304.05316.pdf
代码:https://github.com/zhangyp15/OccFormer
数据集:SemanticKITTI,Panoptic nuScenes
该算法提出使用一个双路transformer结构用于处理由相机数据生成的3D体素特征,它可以有效地捕获具有局部和全局路径的细粒度细节和场景级布局。
双路transformer结构:
VoxFormer
论文:https://arxiv.org/pdf/2302.12251.pdf
代码:https://github.com/NVlabs/VoxFormer
数据集:SemanticKITTI
算法框架如上图所示,模型支持输入单帧或多帧图像数据。采用MobileStereoNet(可换成其他深度估计网络)做深度估计,占用预测网络采用轻量级的2D CNN网络LMSCNet。该算法的特点是比较轻量级,对小目标的检测效果较好,模型参数较少,训练时需要的GPU显存少于16GB。缺点是远距离性能需要提升,因为远距离深度估计不准确。
OccupancyDETR
论文:https://arxiv.org/pdf/2309.08504.pdf
代码:https://github.com/jypjypjypjyp/OccupancyDETR
数据集:SemanticKITTI
算法框架如上图所示,由一个类似DETR的目标检测网络(Deformable DETR)和3D占用解码器模块组成,用目标检测模块来引导对3D语义占用网格的预测。把目标检测网络输出的bounding box作为位置先验,并利用物体的隐藏特征作为上下文,然后用一个空间transformer解码器用来提取每个目标的3D占用网格。
算法的详细流程如下:
- 对于一张输入图像,首先采用ResNet50骨干网络提取特征,然后将这些多尺度特征传入一个可变形编码器进行进一步编码。
- 通过可变形DETR解码器解码固定数量的查询,然后传递给分类、2D框和3D框这三个检测头网络。分类头和2D框头网络的结果是目标检测中的常规结果,根据分类头的输出选择高置信度的结果作为检测到的物体。
- 这些高置信度物体的3D框(相机坐标系,根据相机外参转到占用网格坐标系)作为每个物体的位置先验,用于在3D占用解码器中提供位置嵌入,并把可变形DETR解码器获得的特征作为上下文,3D占用解码器基于可变形DETR编码器编码的多尺度特征去预测每个物体的3D占用网格。
3D占用解码器的数据流程图如下:
该算法的特点是对小目标的检测性能好,速度快,计算资源消耗少,训练时只需要一个RTX 3090 GPU,缺点是对道路、人行横道这些类别的预测效果不好。
FB-OCC( CVPR 2023 3D占用预测挑战赛冠军)
论文:https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf
代码:https://github.com/NVlabs/FB-BEV
数据集:nuScenes
算法框架如上图所示,该算法由FB-BEV算法衍生而来。视图变换模块是纯视觉3D感知算法的核心,作者设计了两个视图变换模型:一个前向投影模块(List-Splat-Shoot)和一个反向投影模块( BEVFormer)。在FB-OCC中,使用前向投影来生成初始的3D体素表示,然后将3D体素表示压缩成一个扁平的BEV特征图。BEV特征图被视为BEV空间内的查询,并与图像编码器特征进行关联,以获取密集的几何信息。最后,将3D体素表示和优化的BEV表示的融合特征输入到后续的任务头中。
除了模型结构,作者还重点对模型预训练技术进行了精心设计。首先在大规模2D目标检测数据集Object 365上对骨干网络进行训练,使得网络具备语义感知能力。接下来,在nuScenes数据集上再对网络进行专注于深度估计的预训练。由于深度预训练缺乏语义级别的监督,为了减轻模型过度偏向深度信息的风险,可能导致丧失语义先验知识(特别是考虑到大规模模型容易出现过拟合的情况),作者同时预测2D语义分割标签以及深度预测任务。
使用2D图像语义标签和深度图真值,作者联合深度估计任务和语义分割任务对模型进行训练。这种预训练任务与最终的占用预测任务密切相关,可以利用深度值和语义标签直接生成3D占用结果。预训练模型作为改进的起点,为后续的占用预测任务训练提供了帮助。
该算法是为参加比赛设计的,所以整体显得有点笨重,训练时设置batch size为32,需要32个A100 GPU进行训练。
BEVDet-Occ
论文:暂无,从BEVDet衍生到Occupancy Prediction任务
代码:https://github.com/HuangJunJie2017/BEVDet
SimpleOccupancy
论文:https://arxiv.org/pdf/2303.10076.pdf
代码:https://github.com/GANWANSHUI/SimpleOccupancy
数据集:DDAD,Nuscenes
该算法采用自监督的方式实现3D占用预测。
SparseOcc
论文:https://arxiv.org/pdf/2312.17118.pdf
代码:https://github.com/MCG-NJU/SparseOcc
数据集:Occ3D-nuScenes
下面两篇文章是对该算法的解读:
https://zhuanlan.zhihu.com/p/709576252
https://zhuanlan.zhihu.com/p/691549750
SelfOcc
论文:https://arxiv.org/pdf/2311.12754.pdf
代码:https://github.com/huang-yh/SelfOcc
项目主页:https://huang-yh.github.io/SelfOcc/
数据集:Occ3D-nuScenes,SemanticKITTI
鉴于之前的方法都需要可靠的3D语义信息来监督学习,但是3D语义真值又很难获取,因此SelfOcc希望仅使用视频序列采用自监督学习的方式来实现3D语义占用预测,以降低模型训练难度。
算法框架如下:
OccNeRF
论文:https://arxiv.org/pdf/2312.09243.pdf
代码:https://github.com/LinShan-Bin/OccNeRF
数据集:Occ3D-nuScenes
该算法采用自监督学习的方式去实现基于多相机数据输入的3D语义占用预测。为了解决无界场景的问题,作者提出参数化占用场,将无限空间缩小到有界体素内;为了利用时间光度损失,作者对参数化坐标进行体素渲染,得到多帧多摄像头深度图。对于语义占用预测,作者采用Grounded-SAM、Grounding DINO来生成2D语义伪标签。
RenderOcc
论文:https://arxiv.org/pdf/2309.09502.pdf
代码:https://github.com/pmj110119/RenderOcc
数据集:nuScenes,SemanticKITTI
该算法从多视图图像中提取NeRF风格的3D体积表示,并使用体积渲染技术来建立2D重建,从而实现从2D语义和深度标签的直接3D监督,减少了对昂贵的3D占用标注的依赖。实验表明,RenderOcc的性能与使用3D标签完全监督的模型相当,突显了这种方法在现实世界应用中的重要性。
算法框架如下图所示:
SGN
论文:https://arxiv.org/pdf/2312.05752.pdf
代码:https://github.com/Jieqianyu/SGN
数据集:SemanticKITTI,SSCBench-KITTI-360
论文提出了一种新型的端到端基于纯视觉的3D占用预测框架,称为Sparse Guidance Network(SGN)。SGN的核心思想是利用几何先验和占用信息,从具有语义和占用意识的种子体素向整个场景扩散语义。与传统方法不同,SGN采用了一种密集-稀疏-密集的设计,并引入了混合引导和有效的体素聚合来加强类内特征的分离和加速语义扩散的收敛。此外,SGN还利用了各向异性卷积来实现灵活的接收场,同时减少计算资源的需求。
FlashOcc
论文:https://arxiv.org/pdf/2311.12058.pdf
代码:https://github.com/Yzichen/FlashOCC
数据集:Occ3D-nuScenes
FlashOcc通过下面两种方法对现有基于体素级3D特征的占用预测任务进行提升:(1) 用2D卷积替换3D卷积; (2) 用通道-高度变换替换从3D卷积得到的占用预测。
FlashOcc专注于以即插即用的方式增强现有模型,它可以分为五个基本模块: (1) 用于提取图像特征的2D图像编码器。(2) 将2D图像特征映射到BEV表征的视图转换模块。(3) 用于提取BEV特征的BEV编码器。(4) 预测每个体素分割标签的占用预测头。(5) 集成历史信息以提高性能的时序融合模块(可选)。
FlashOcc的特点是速度快,计算资源消耗少,方便部署。
POP3D
论文:https://openreview.net/pdf?id=eBXM62SqKY
代码:https://github.com/vobecant/POP3D
FastOcc
论文:https://arxiv.org/pdf/2403.02710.pdf
代码:暂未开源(不开源就挺尴尬的)
数据集:Occ3D-nuScenes
Co-Occ
论文:https://arxiv.org/pdf/2404.04561.pdf
代码:https://github.com/Rorisis/Co-Occ
项目主页:https://rorisis.github.io/Co-Occ_project-page/
数据集:SemanticKITTI、NuScenes
该论文提出一种基于激光-相机数据的多模态3D占用预测算法,算法框架如下:
OccGen
论文:https://arxiv.org/pdf/2404.15014.pdf
代码:(coming soon)
项目主页:https://occgen-ad.github.io/
该论文提出一种noise-to-occupancy的生成式3D占用预测算法。
Cam4DOcc
论文:https://arxiv.org/pdf/2311.17663
代码:https://github.com/haomo-ai/Cam4DOcc
数据集:NuScenes、Lyft
MonoOcc
论文:https://arxiv.org/pdf/2403.08766v1
代码:https://github.com/ucaszyp/MonoOcc
数据集:SemanticKITTI
该论文提出一个单目3D占用预测算法框架,通过一个辅助语义损失作为对框架浅层的监督和一个图像条件交叉注意力模块来改进单目占用预测的效果,另外该算法训练的时候采用蒸馏模块,以低成本将时间信息和更丰富的知识从较大的图像主干网络传输到单目语义占用预测框架中。
HyDRa
论文:https://arxiv.org/pdf/2403.07746
代码:https://github.com/phi-wol/hydra
该论文提出一种基于相机和毫米波雷达的多模态3D感知框架,实现3D目标检测、语义占用预测多任务感知。
PanoOcc
论文:https://arxiv.org/pdf/2306.10013
代码:https://github.com/Robertwyq/PanoOcc
现有的自动驾驶感知任务(如目标检测、道路结构分割、深度估计等)仅关注整体3D场景理解任务的一小部分。这种分治的策略简化了算法开发过程,但却失去了问题的端到端统一解决方案。在本文中,作者通过基于纯视觉的3D全景分割来解决这一限制,旨在实现仅限摄像头的3D场景理解的统一占用表示。为了实现这一目标,作者提出一种名为PanoOcc的新方法,它利用体素查询以由粗到细的方案从多帧和多视角图像中聚合时空信息,将特征学习和场景表示集成到统一的占用表示中。PanoOcc在nuScenes数据集上实现了基于摄像头的语义分割和全景分割的全新最佳结果。此外,该方法还可以轻松扩展到密集占用预测任务中,并在Occ3D基准上表现出色。
GaussianFormer
论文:https://arxiv.org/abs/2405.17429
代码:https://github.com/huang-yh/GaussianFormer (暂时只放出demo)
ViewFormer
论文:https://arxiv.org/pdf/2405.04299
代码:https://github.com/ViewFormerOcc/ViewFormer-Occ
作者还开源了一个可视化工具,可以对点云目标检测、Occ预测结果等进行可视化:https://github.com/xiaoqiang-cheng/Oviz
HTCL
论文:https://arxiv.org/pdf/2407.02077
代码:https://github.com/Arlo0o/HTCL
Panoptic-FlashOcc
论文:https://arxiv.org/pdf/2406.10527v1
代码:https://github.com/Yzichen/FlashOCC
Panoptic-FlashOcc是目前速度和精度最优的全景占用预测网络,它在FlashOcc的基础上实现了全景占用(Panoptic occupancy)。全景占用旨在将实例占用(instance occupancy)和语义占用(semantic occupancy)整合到统一的框架中。
作者解读:https://zhuanlan.zhihu.com/p/709393871
COTR
论文:https://arxiv.org/pdf/2312.01919
代码:https://github.com/NotACracker/COTR.git
2. 数据集
SemanticKITTI
论文:https://arxiv.org/pdf/1904.01416v3.pdf
下载地址:https://opendatalab.com/OpenDataLab/SemanticKITTI
Occ3D
论文:https://arxiv.org/pdf/2304.14365.pdf
下载地址:https://tsinghua-mars-lab.github.io/Occ3D/
该数据集基于Waymo和nuScenes数据集构建了用于3D占用网格预测的数据集Occ3D-Waymo和Occ3D-nuScenes。
OpenOccupancy
论文:https://arxiv.org/pdf/2303.03991.pdf
GitHub:https://github.com/JeffWang987/OpenOccupancy
该数据集基于nuScenes数据集构建。
OpenOcc
论文:https://arxiv.org/pdf/2306.02851.pdf
GitHub:https://github.com/OpenDriveLab/OccNet
该数据集基于nuScenes数据集构建。
SSCBench
论文:https://arxiv.org/pdf/2306.09001.pdf
GitHub:https://github.com/ai4ce/SSCBench
该数据集基于KITTI-360、 nuScenes、Waymo等数据集构建。
OpenScene
GitHub:https://github.com/OpenDriveLab/OpenScene
相比现有数据集,OpenScene具有Occupancy Flow标签:
LightwheelOcc
GitHub: https://github.com/OpenDriveLab/LightwheelOcc
这是一个合成数据集。
3. 参考资料
- https://www.thinkautonomous.ai/blog/occupancy-networks/
- https://github.com/chaytonmin/Awesome-Occupancy-Prediction-Autonomous-Driving
- https://github.com/keithAND2020/awesome-Occupancy-research
- https://github.com/zya3d/Awesome-3D-Occupancy-Prediction
- https://bbs.xiaopeng.com/article/1777353
- https://zhuanlan.zhihu.com/p/675424447
- https://www.zhihu.com/question/629557685
- https://zhuanlan.zhihu.com/p/678276259
#奥迪再放大招
跻身智驾顶流?
在国家大力支持以旧换新、以及重磅新车的密集上市之下,今年的“金九银十”,似乎比往年来得更持久一些。
即将开幕的广州车展作为国补的“末班车”,吸引了不少用户的关注。上百个汽车品牌也带来了多达1171台展车,其中还有78台全球首发车型,可见车企们的重视程度。
就在这个节骨眼上,社长嗅到了一个非同寻常的信号:奥迪Q6L e-tron以及即将在广州车展首发的奥迪Q6L Sportback e-tron,很可能搭载华为深度定制的智驾解决方案!
从官方“双激光雷达+视觉融合感知,实现‘无图’L2++级智能驾驶辅助能力”的表述、以及实车的传感器来看,大概率是华为的ADS方案。
那么,为什么奥迪这家百年传统品牌会找到华为合作智驾?如此有噱头的话题,双方为什么又有些“遮遮掩掩、秘而不宣”?
这件事,还要从30多年前说起。
01. 奥迪的“在中国、为中国”
1986年4月份,国内开始要把汽车制造业作为支柱产业。
但在当时的时代背景下,外资品牌势必会对羸弱的本土汽车企业形成降维打击。
壮士断腕地停产中国品牌,通过合资的方式吸收国外的先进技术,成了当时的唯一解。
同年,奥迪从千里之外的德国来到长春,和一汽就奥迪100项目进行研究与谈判。
尽管在德国人眼里,80年代的长春实在有些荒凉。但时任大众汽车董事长的哈恩博士很快意识到,这里有着良好的汽车工业根基,也将会是奥迪进入中国发展的绝佳契机。
为此,奥迪不仅以1000万马克的低价转让了奥迪100生产线,如果双方后续能够继续合作生产高尔夫和捷达,还能再免除1900万元的技术转让费!
甚至奥迪还主动请缨,把一汽已经引进的克莱斯勒488发动机匹配到了奥迪100的车身上,只为了给合作伙伴再省一笔发动机的费用。
随着一系列“诚意换真心”的操作,双方正式开始了长达36年、且依然在延续的甜蜜期。
但有意思的是,和其他合资品牌不同,一汽和奥迪并不是“以市场换技术”的交易关系,而是更像一对并肩作战的朋友。
最能说明奥迪“在中国、为中国”的,是1996年1月份和中方签署的一份奥迪A6(C5)联合研发协议。
研发的核心,正是中方为了满足中国用户对后排腿部空间的需求,所提出的加长。
虽然奥迪方面认为,A6作为大众集团唯一的行政级轿车空间完全够用,但依然对中国用户的需求表达了理解和尊重。
最终历时3年,国产A6相比全球车型实打实地加长了90mm轴距,但造型和性能并没有受到太多影响。收获市场认可的同时,也开创了豪华品牌为中国用户定制车型的先河。
时至今日,加长已经不再是稀罕事。但当时第一批开上新车的车主们,或许很难想象20多年后的中国已经成为首屈一指的汽车大国,产销出口量均已位列全球第一。
这不仅要归功于外资品牌的支持和几代中国汽车人的努力,还有科技时代的悄然来临。
02. 科技大佬,强强联手?
相信有不少小伙伴已经发现了,这几个月新能源渗透率正式突破50%,成了多数人的选择。
但很多人不知道的是,去年L2级智驾的渗透率就已经达到了47.3%,已经下放到了几万块钱的车上;智能互联功能,更是在某些“老旧燃油车”上成了标配!
而到了高端电动车领域,车企们为了给用户提供安全便捷的用车体验,也在高阶智驾领域展开了新一轮的军备竞赛。
这时,大家第一个想到的肯定是在技术上较为领先,表现也最突出的华为了。
在今年大火的端到端算法装车之前,车企们普遍采用的是“规则型”算法。就有点像是解方程,只需要输入数据和规则,就能得出答案。比的就是谁的规则更细致,计算过程更快。
这一阶段,华为的优势在于“让车辆具有上帝视角”的BEV鸟瞰视图,和GOD异形障碍物识别。遇到人类很难反应过来的紧急情况,依然能高效地触发AEB,避免事故发生。
但正因为算法需要完全遵守规则,当遇到不那么规则的路况、比如前方出现障碍车辆、非机动车抢道的时候,规则型算法就有些无能为力了。
端到端算法,刚好能解决这个问题。它的工作原理有些像chatGPT,通过大量的人类司机驾驶视频来训练,试图理解发生了什么、应该如何判断,又应该如何操控车辆。
所以现在华为的智驾,已经能在适应规则的基础之上,开起来和老司机一样丝滑了。
而从奥迪官方公布的信息来看,奥迪Q6L e-tron家族的自适应巡航辅助 Pro 和泊车辅助 Pro,能够拥有道路结构理解、交通规则认知、行车轨迹的精细规控和拟人的决策能力这四项能力。
并且从网上流出的素材来看,遇到障碍物和障碍车辆不会再傻乎乎地等到天荒地老,而是能够绕行;在导航的配合下,也能选择合适的车道通过交叉路口和环岛;甚至能学会在满足交通规则、不影响后车行驶的前提下,完成加速超车变道!
更简单的高速领航辅助、从停车场入口到停车位的全程自动泊入泊出、以及加减速转弯更加丝滑这些“相对基础”的功能,也同样不在话下。
(图片来源网络。但看到这里,怎么感觉这套智驾华里华气的)
不过为了实现这些,奥迪还为这台车打造了“满血版”的硬件方案——
双激光雷达+5个毫米波雷达+11个高清摄像头+12个超声波雷达的硬件,规格甚至比智界R7和问界M9还高,能带来宽阔的视角和精准的识别能力。
嵌入式激光雷达的设计,让车顶不再“长犄角”,也同时满足了设计美学和功能性的统一。
或许只有奥迪+华为的组合,才能把这套顶级硬件发挥到极致,做到类人的智驾体验。
那么,到底奥迪为什么要上这么高阶的智驾?
社长倒是觉得,原因或许写在这句耳熟能详的广告语里:突破科技,启迪未来。
(奥迪德国官网上的品牌标签,翻译过来也是“领先优势源于技术”)
纵观奥迪的百年发展史,无论是标志性的quattro四驱系统、LED大灯/流水式尾灯/矩阵式大灯、全铝车身乃至智能座舱,安全和舒适都是奥迪不懈的追求。
这种对新技术的渴望与驾乘体验的考虑,或许正是奥迪采用高阶智驾的根本原因。
03. 奥迪的智能化时代
然而只有对技术的渴望,还远远不够。就像当年奥迪100能够兼容克莱斯勒488发动机一样,新车的电子电气架构和整车平台,在技术能力上必须能兼容高阶智驾才行。
这时,奥迪对大众集团的资源整合能力,就立了大功。
就比如奥迪Q6L e-tron家族的全新域控E³ 1.2电子电气架构,就是由Cariad负责开发的。
它的“高性能计算平台”HCP采用了5台高性能计算机,分管驱动系统和悬架、智驾系统、座舱的信息和娱乐功能、灯光/空调/座椅等舒适功能、以及联网/数据传输这5个部分,共同构成了全新域控E³ 1.2电子电气架构的中枢神经系统。
因此只需要为负责智驾的HCP2注入代码,对负责驱动的HCP1进行控制,就能无缝衔接全新的智驾功能,未来可以通过OTA进行升级,并且这个架构5年内仍将是第一梯队。
Q6L e-tron家族能够实现“类似人类老司机”的丝滑智驾体验,也离不开奥迪对驱动和电气系统的研发和标定。
举个例子,在其他车辆强行加塞的时候,有些智驾会一脚急刹闷在那,不仅体验不好,也会因为机械刹车介入无法回收能量,变相提升能耗;
但Q6L e-tron家族的全域动能回收能提供220kW的回收功率,覆盖95%的日常工况,甚至是ABS触发后都能回收。提升制动力的同时,也能带来更长的续航。
在起步和刹停的时候,它前后轴之间的动力输出、动能回收和传统机械刹车之间的切换都是由中央车辆动力学域控制器分配的,能够完美执行智驾系统的操作指令,体感上会更舒适。
再加上奥迪和保时捷联合研发的高端纯电平台-PPE平台,保时捷负责开发的车身和悬架,奥迪负责开发的驱动系统和电气系统,Cariad负责开发的整车软件和电子架构,这才有了集百家之所长、机械和智能双优的奥迪Q6L e-tron家族。
04. 写在最后
在不久的将来,车企和科技公司的跨领域合作,很可能会成为新的趋势。这种各取所长的合作方案,必然会为用户带来更加出色的用车体验。
至于这次合作为什么迟迟没有官宣,社长觉得主要有三种可能性。
首先,一汽奥迪的风格更像是踏实做产品,而不是凭营销出圈。没有试驾车可以给用户深度体验之前,不会大肆进行宣传报道。
其次,双方在汽车行业中的地位和影响力并不需要谁蹭谁的流量,“低调行事”才是最优解。
最后还有一种可能,从一汽奥迪的动作来看,智驾体验有可能会带来新的惊喜,也许在等一个合适的契机引爆“王炸事件”。
就是不知道一汽奥迪会不会放下百年品牌的身段,和华为一同举办一场“遥遥领先”的发布会了
#V2X-Radar
强强联手!清华&UCLA&NTU推出V2X-Radar数据集:重新定义车路协同感知边界~
论文标题:V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception
论文地址:https://arxiv.org/pdf/2411.10962
代码仓库:https://github.com/yanglei18/V2X-Radar
数据集主页:http://openmpd.com/column/V2X-Radar
动机与背景
感知是自动驾驶系统的核心环节。尽管已有大量单车感知方法,但遮挡现象和感知范围限制仍导致严重安全隐患。这类问题的本质在于,单车仅能通过单一视角感知环境,无法获取全局信息,从而影响导航决策的可靠性。
近年来,协同感知通过车-路多视角信息共享,成为突破单车感知局限的重要方向。已有研究证明,该技术可有效扩展感知边界并消除遮挡盲区。然而,当前主流协同感知数据集(如OpenV2V、V2X-Sim、DAIR-V2X)存在显著缺陷:仅依赖Camera和LiDAR传感器,忽视了4D Radar的独特价值。4D Radar能够在雨雪雾等恶劣天气中展现出卓越的鲁棒性,这已在K-Radar、Dual-Radar等单车数据集得到验证。但在协同感知领域,4D Radar相关数据集的缺失严重阻碍了相关研究。为此,我们提出了首个融合4D Radar传感器,面向真实场景的大规模协同感知数据集V2X-Radar。其核心贡献包括:
(1) 我们提出了V2X-Radar,首个包含LiDAR/Camera/4D Radar传感器,且面向真实场景的多模态协同感知数据集。数据采集覆盖了不同天气(晴天 / 雨天 / 雾天 / 雪天)和时段(白天 / 黄昏 / 夜间),重点关注对单车自动驾驶极具挑战的复杂路口场景。这些场景包含影响车辆安全的遮挡盲区,为协同感知研究提供了丰富的极端案例。
(2) 数据集总计包含20K帧LiDAR点云、40K帧图像和20K帧4D Radar点云数据,并对包括轿车、卡车、公交车、骑行者和行人在内的5个交通参与者类别进行三维目标框标注,总计标注框高达350K。
(3) 我们分别在V2X-Radar-C协同感知、V2X-Radar-I路侧感知和V2X-Radar-V单车感知三个子数据集上,针对现有算法开展了实验验证,并构建算法基准,以促进该领域的后续研究。
V2X-Radar数据集介绍1. 数据采集系统
数据采集系统由车端平台(图 2 (a))和路侧单元(图 2 (b))两部分组成。两者均配备了包括 4D Radar、LiDAR和多视角Camera在内的传感器。采用GPS/IMU惯导系统实现高精度定位,辅助车端平台与路侧单元之间的初始点云配准。同时集成了C-V2X 通信单元以实现无线数据传输。传感器布局配置详见图2,详细规格列于表2。
2. 传感器标定与点云配准
通过传感器标定实现单一车端平台或路侧单元上Camera、LiDAR和 4D Radar传感器间的空间同步。Camera内参标定采用张正友标定法。LiDAR与Camera间的外参标定,以棋盘格为参照,选取100组由LiDAR三维空间点与Camera图像像素对应点构成的点集,通过最小化2D-3D点对应重投影误差求解获得。LiDAR与4D Radar传感器间的外参标定,以金属制角反射器为参照,选取若干组由LiDAR三维空间点与4D Radar 三维空间对应点构成的点集。通过最小化对应点的均方差距离求解获得。传感器标定效果图如图3所示。
对于车端平台与路侧单元之间的LiDAR点云配准,首先基于RTK高精定位实现点云配准初始化,随后通过CBM自动配准算法并结合手动调整优化实现最终配准。点云配准效果可视化如图4所示。
3. 数据采集
我们收集了15小时的协同数据,总计包含540K个帧,涵盖了各种天气状况,如晴天、雨天、雾天和雪天,采集时间跨越白天、黄昏和夜晚(如图8所示)还包括具有挑战性的典型路口场景。从这些数据中手动挑选出最具代表性的40个序列,组成了V2X-Radar-C协同感知子数据集;每个序列时长在10到25秒之间。采集频率为10Hz。在此基础上,额外增加了10个单独车端视角数据序列来创建V2X-Radar-V车端感知子数据集,并额外增加了10个单独路侧视角数据序列来形成V2X -Radar-I路侧感知子数据集。与V2X-Radar-C协同感知数据级相比,V2X-Radar-V和V2X-Radar-I都涵盖了更多种类的场景。 经统计,V2X-Radar数据集总计包含20K帧LiDAR点云数据、40K帧Camera图像数据和20K帧4D Radar点云数据。
4. 数据统计
V2X-Radar数据集统计情况如图5所示,其中,图5(a)展示了数据集中白天与夜间场景下五种类别的物体分布情况;图5(b)显示了每个类别3D边界框内激光雷达点云的最大和平均数量;图5(c)展示了不同物体边界框内4D Radar点云密度分布情况。最后,图5(d)显示每帧协同感知数据中的标注框数量可达90个,与KITTI或 nuScenes等车端数据集相比有显著增加,这表明通过车路协同感知可有效提升单车感知对周围场景的感知能力。
任务定义与基准实验
V2X-Radar数据集可分别服务于单端感知任务和车路协同感知任务。
(1) 单端3D目标检测任务
单端3D目标检测任务是指单独基于路侧单元或车辆平台上的传感器数据进行 3D目标检测。具体涉及两个不同的任务:基于V2X-Radar-I子数据集进行路侧3D 目标检测,以及基于V2X-Radar-V子数据集进行车端3D目标检测。
单端3D目标检测任务的主要技术难点包括 (i)单模态编码:将Camera图像、LiDAR密集点云以及4DRadar带有多普勒信息的稀疏点云编码为3D空间表示,这对精确的单模态3D目标检测至关重要。(ii)多模态融合:在融合来自不同传感器的多模态信息时,需虑空间对齐、时间对齐和传感器故障等问题。解决这些问题对于实现可靠的多模态 3D 目标检测至关重要。
指标评测采取与KITTI数据集相同的评测方法,分别对基于LiDAR点云数据的方法,如PointPillars、SECOND、CenterPoint 和 PV-RCNN;基于Camera图像数据的方法,如SMOKE、BVDepth、BEVHeight 和 BEVHeight++;以及基于4D Radar稀疏点云数据的方法,如 RDIoU 和 RPFA-Net开展了基准测试,详细指标情况见表3和表4。
(2) 车路协同3D目标检测任务
车路协同3D目标检测任务是指同时利用车端平台和路侧单元上的传感器,实现以自车为中心的3D目标检测,旨在解决单车对的遮挡和远距离区域的感知能力不足问题。
车路协同3D目标检测任务的主要技术难点包括 (i) 空间不同步:定位误差会导致车端平台与路侧单元间的相对位姿关系存在偏差,因而将路侧单元坐标系中的数据转换至车端平台坐标系中时,会出现针对同一目标来自于不同平台传感器的点云数据全局偏移问题。(ii)时间不同步:数据传输过程中的通信延迟,会造成单车平台与智能路边单元的传感器数据时间戳不一致。将数据统一到统一坐标系中时,会出现针对统一动态目标的局部不对齐问题。
指标评测采取与V2V4Real、V2X-REAL数据集相同的评测方法,在两种基本配置下进行:(i)同步配置,忽略通信延迟;(ii)异步配置,通过获取带有前一时间戳的路边样本,模拟数据传输延迟。使用在交并比(IoU)阈值为0.5和0.7时的平均精度(AP)评估目标检测性能,通过平均兆字节(AM)计算传输成本。分别针对前融合、特征融合和后融合方法开展性能评测,重点关注特征融合相关方法,分别对F-Cooper、V2X-ViT、CoAlign和HEAL开展基准测试。详细指标情况见表5。
结论与展望
本文提出了首个大规模的、基于真实场景的、且包含4D Radar传感器的多模态协同感知数据集,将之命名为V2X-Radar。旨在推动4D Radar传感器在车路协同感知领域应用。该数据集涵盖了不同时间、天气条件下的复杂路口场景,包含20K 帧LiDAR点云数据、40K帧Camera图像数据和20K帧4D Radar点云数据,针对交通参与者目标对象的三维标注框规模高达350K。为支持多种感知任务研究,数据集被细分为用于协同感知的V2X-Radar-C子数据集、用于路侧感知的V2X-Radar-I子数据集和用于单车感知的V2X-Radar-V子数据集,并对相关感知算法进行了基准测试。目前该数据集主要聚焦于3D目标检测,且在异步协同感知方面采用了固定时延模拟。未来计划扩展任务类型,增加目标跟踪和轨迹预测功能,并在真实的CV2X通信时延下评估性能 。
#MiLA
南大&小米最新工作!环视视频生成世界模型新SOTA!MiLA
- 论文标题:MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.15875
- 项目主页:https://github.com/xiaomi-mlab/mila.github.io
核心创新点:
1. Coarse-to-(Re)fine 分层生成框架
提出两阶段视频生成流程:
- Coarse阶段:生成低帧率锚帧(Anchor Frames),作为全局场景结构基准;
- Refine阶段:基于锚帧通过插值生成高帧率视频,同时引入联合去噪与校正流(JDC),在插值过程中同步优化锚帧的静态结构保真度与动态物体连续性,有效抑制累积误差与运动失真。
2. 联合去噪与校正流(Joint Denoising and Correcting Flow, JDC)
- 通过噪声分解与重参数化技术,将锚帧噪声建模为结构化噪声(静态背景误差)与随机噪声(动态物体失真)的混合分布;
- 设计动态噪声调度策略,联合优化低帧率锚帧的校正与高帧率插值帧的平滑性,显著提升长视频的动态连贯性。
3. 时序渐进去噪调度器(Temporal Progressive Denoising Scheduler, TPD)
- 提出基于余弦退火函数的非均匀去噪策略,对时间邻近帧施加强时序依赖约束,优先去噪靠近条件帧的片段;
- 通过“快-慢”模式优化去噪轨迹,早期帧快速收敛以提供上下文,后期帧精细化调整,最终实现全序列同步高质量生成。
4. 多模态融合与多视角对齐机制
- 集成相机参数、路径点(Waypoints)与文本描述等多模态条件,通过傅里叶嵌入与MLP实现跨模态特征融合;
- 设计多视图增强空间注意力,扩展DiT模块的跨视图感受野,确保多视角视频的空间对齐与几何一致性。
BadToken
- 论文标题:BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
- 论文链接:https://arxiv.org/abs/2503.16023
核心创新点:
1. 双模式后门行为定义
- Token-substitution :通过替换输出序列中的特定源词元(如"red"→"green"),实现语义翻转的隐蔽攻击
- Token-addition :在输出尾部注入预设恶意词元序列(如恶意URL),保持语义完整性的同时嵌入有害信息
2. 优化目标建模
- 提出有效性损失(Lbd)与 效用损失(Lcl)的联合优化框架,平衡攻击成功率与模型性能保持
- 引入嵌入损失(Lemb)约束视觉编码器,通过教师模型蒸馏保持多模态对齐特性
3. 跨任务泛化性
- 在图像描述、视觉问答等任务中验证攻击有效性(ASR>95%),且能规避现有防御(如输入净化、微调)
- 在自动驾驶(交通灯状态篡改)和医疗诊断(恶意用药建议注入)场景中验证实际威胁
4. 隐蔽性增强机制
- 通过触发器与目标词元的细粒度关联,实现仅修改关键词元 的高隐蔽攻击(ATS>0.75)
- 支持多目标攻击(同时嵌入多个触发器-目标词元对)
AutoDrive-QA- Automated Generation
- 论文标题:AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
- 论文链接:https://arxiv.org/abs/2503.15778
核心创新点:
1. 统一结构化评估框架的构建
- 提出AutoDrive-QA基准测试,通过整合多源异构数据集(DriveLM、NuScenes-QA、LingoQA),首次系统覆盖自动驾驶三大核心任务——感知(Perception)、预测(Prediction)和规划(Planning),并标准化问答格式,解决了现有评估体系碎片化的问题。
2. 领域导向的干扰项自动生成技术
- 基于大型视觉语言模型(VLMs)设计自动化流水线,结合驾驶领域错误模式(如传感器误判、逻辑不一致、领域概念误解等),生成高真实性干扰项(Distractors)。与传统方法相比,该方法通过任务特定错误建模(Task-Specific Error Modeling)显著提升干扰项的语义相关性与挑战性,减少因干扰项过于简单导致的评估偏差。
3. 零样本性能评估与细粒度错误分析
- 在零样本(Zero-Shot)设置下,验证多模型(如GPT-4V、Qwen2-VL系列)的性能边界。实验表明,模型在感知任务(平均74.94%)表现最优,预测任务(65.33%)挑战最大。进一步通过干扰项选择追踪,量化错误类型分布(如感知任务中45.74%为领域概念错误),揭示模型在视觉理解、逻辑推理等维度的薄弱环节。
4. 可扩展的评估方法论创新
- 提出多智能体协同过滤机制,结合生成-评估-优化循环,确保生成的多选题(MCQ)满足单正确解、无冗余干扰项等约束条件,同时支持大规模数据集的高效转换(如处理超50万QA对),为自动驾驶模型的迭代与跨数据集泛化提供标准化工具。
GASP
- 论文标题:GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.15672
- 项目主页:https://research.zenseact.com/publications/gasp/
核心创新点:
1. 几何-语义联合预训练框架
提出统一的4D时空表征学习范式 ,通过三个协同任务实现多模态特征融合:
- 几何占用预测 :建模动态场景的连续4D占用场(3D空间+时间),捕捉环境结构演变
- 语义特征蒸馏 :预测DINOv2视觉基础模型的高层语义特征,注入语义先验
- 自车路径预测 :通过隐式 ego-path occupancy 建模车辆可行空间,增强运动理解
2. 时空连续场表示
- 突破传统离散化预测局限,采用隐式神经场(Implicit Neural Fields) 表征时空连续的几何-语义信息,支持任意时空坐标(x,y,z,t)的查询,提升动态场景泛化能力。
3. 多源自监督信号融合
- 创新性整合三类自监督信号:
- LiDAR射线几何约束 (含缺失射线负样本挖掘)
- 图像语义特征蒸馏 (基于位置编码去噪的DINOv2特征)
- 自车运动轨迹先验 (多模态路径概率场建模)
4. 数据增强策略
- 提出旋转增强(±20°随机旋转) 消除方向偏置,结合缺失LiDAR射线推理 提升几何表征鲁棒性,在Argoverse2等数据集实现语义占用预测(↑15.5mAP)、在线建图(↑5.8mIoU)等下游任务的显著提升。
数据驱动方法在全自动驾驶系统中展现出显著优势,但构建鲁棒性系统需收集长尾和稀有场景数据,这需要持续投入大量设备与人力资源。为此,世界模型应运而生,其通过处理历史观测数据和人类指令生成场景表征,可合成一致的序列数据,有效解决分布外(out-of-distribution)挑战。
近年来,结合规划信号生成高质量视频的世界模型框架取得显著进展,但长期视频生成仍面临两大挑战:
- 误差累积问题 :理想情况下需同时生成所有帧,但计算资源与内存需求过高。现有方法多采用分批次生成策略,基于先前生成帧递归预测新帧,导致长期视频中静态背景与动态物体质量下降。
- 场景一致性维持 :仅依赖初始时刻的条件帧和场景描述时,首帧的控制力随时间衰减,导致后续帧场景退化与连贯性丢失。尽管现有工作尝试引入额外控制信号(如高精地图、3D框),但如何在无额外信号下保持时空一致性仍待探索。
为此,我们提出MiLA——基于潜在扩散模型 (Latent Diffusion Models, LDM)的鲁棒视频生成框架,仅依赖简单场景描述或路径点(waypoints)控制信号,生成长期高保真视频(图1对比了MiLA与Vista的生成效果)。 具体而言,MiLA采用分治生成框架 (Divide-and-Conquer):
- 粗生成阶段 (Coarse):生成低帧率锚定帧(low FPS anchor frames);
- 精修正阶段 (Re(fine)):通过插值模型生成高帧率视频,同时修正锚定帧伪影。
进一步地,我们提出:
- 联合去噪与修正流(JDC) :同步优化锚定帧与插值帧,解决动态物体失真问题;
- 时间渐进去噪调度器(TPD) :增强时间信息传递,提升视频整体保真度。 主要贡献如下:
- 提出MiLA框架,通过粗到精流程生成长达1分钟的高保真驾驶场景视频;
- 设计JDC模块修正锚定帧伪影,并通过TPD模块优化时间一致性;
- 在nuScenes数据集上验证MiLA在长短期视频生成任务中均达到SOTA性能。
相关工作回顾
世界模型
世界模型是指能够学习模拟环境并预测其动态变化的生成模型,使得在模拟空间中训练智能体成为可能。这类模型广泛应用于游戏仿真、xxx体以及自动驾驶场景。在自动驾驶领域,世界模型通常根据预测形式分为两类:
- 3D场景表征预测:Vidar和LidarDM通过预测未来激光雷达点云来推断几何信息;其他工作则基于未来占用状态(occupancy prediction)构建世界模型。
- RGB视频生成:由于数据可扩展性和易获取性,基于视觉的世界模型范式更受关注。DriveDreamer及其扩展工作利用高精地图、3D边界框和初始参考帧预测未来状态;ADriver-I通过自回归生成策略结合路径点预测模块;Vista提出了高分辨率长期生成框架,但仍在长视频保真度上存在局限。
长期视频生成
现有长期视频生成方法可分为两类(图2):
- 自回归生成范式:通过递归生成新批次帧,但误差累积问题未被有效解决。近期工作提出异步扩散流程,将批次生成分解为逐帧生成,但未根本解决误差传播。
- 分治生成范式:通过锚定帧生成与插值分离的策略提升效率。Nuwa-XL改进模型结构以增强性能;近期研究探索异步时序采样策略,但未解决锚定帧伪影问题。
关键挑战:锚定帧的稀疏性导致时序依赖减弱,表现为动态物体运动不稳定与视频平滑性下降(图5)。现有方法未充分关注锚定帧伪影对整体质量的影响,这为长期视频生成带来潜在瓶颈。
方法详解
模型概述
我们采用基于DiT(的视频生成模型Open-Sora作为MiLA的主干架构。如图3所示,MiLA基于输入的参考帧生成多视角未来帧,其中V、N、S分别表示视角数量、条件帧数和总噪声帧数。
灵活的条件嵌入
为通过路径点和相机参数引导生成,我们使用傅里叶嵌入(Fourier embedding)结合多层感知机(MLP)将条件参数编码为嵌入向量。具体而言,将相机参数与路径点集合与帧嵌入h_f融合:
多视角增强空间注意力
通过扩展DiT块的空间感受野以包含所有视角的图像块,实现多视角对齐生成:
其中Q、K、V为输入帧嵌入的投影结果,维度为。
预备知识:修正流(Rectified Flow)
修正流是一种基于常微分方程(ODE)的分布迁移方法,通过插值中间状态实现从初始分布x₀到目标分布x₁的转换:
在扩散模型中,x₀通常为高斯噪声(x₀~N(0,1)),公式可简化为:
通过预测速度场v(xₜ, t),最终目标可通过积分得到:
长期视频生成框架
图3展示了MiLA的“粗到精(修正)”生成流程:
- 粗生成阶段:采用分治策略生成低帧率锚定帧(low FPS anchor frames)。
- 精修正阶段:通过递归策略结合前一步的高帧率帧(high FPS)和锚定帧,插值生成完整视频。
此设计增强了运动动态捕捉能力,同时修正锚定帧的伪影。
联合去噪与修正流(JDC)
分治框架依赖锚定帧保证结构一致性,但稀疏的时序分布会导致动态物体运动不稳定。为此,我们提出联合去噪与修正流模块,同步优化锚定帧与插值帧:
- 噪声分解:将锚定帧噪声分解为结构化与随机分量:
- 噪声添加:向预测锚定帧添加混合噪声:
通过推导噪声方差σ²(公式11),确保噪声分布符合标准扩散模型假设。
时间渐进去噪调度器(TPD)
为了提高整体视频的保真度,我们设计了一个特定的去噪调度器。我们的关键见解如图7b所示。通过单个去噪步骤,更接近条件帧的帧往往具有更好的保真度。这种现象提出了一个有趣的假设,是否有可能用更少的步骤预测更早的帧?基于这一假设,我们可以很容易地提出另一个假设。先前帧的更快揭示是否为后续帧提供了更详细的信息,从而提高了后续帧的生成质量。
为了正确利用这些观测值,我们设计了一个函数,将所有噪声帧集合的噪声时间帧索引s∈s和去噪时间戳t作为变量,并计算去噪调度系数。该功能应满足以下要求:
- 一个去噪批次内的所有帧必须同时达到最终的去噪状态。
- 早期帧在最初的几个步骤中会进行更大规模的降噪处理,并迅速达到几乎降噪的状态。
- 尾部帧的去噪调度程序应遵循慢-快模式,在最后几个步骤中,其规模将显著提高。
其中s为归一化的时序索引(公式14),通过余弦函数实现非线性调度(图4b)。
损失函数
训练目标为最小化预测速度场v与真实流场y的差异:
其中m_s为锚定帧噪声掩码,y为真实帧与噪声帧的差异向量。
实验结果分析
实验设置
数据集与评估指标
所有实验均在nuScenes数据集上进行,该数据集包含700个训练场景和150个验证场景,场景覆盖波士顿和新加坡的驾驶环境,每个场景约20秒,包含360度高分辨率图像。
评估指标采用Frechet初始距离(FID)和Frechet视频距离(FVD),数值越低表示生成质量越优。为全面评估多视角生成效果,扩展以下指标:
- FIDfront/FVDfront:评估前视图视频质量;
- FIDt0–t1s/FVDt0–t1s:评估从t₀到t₁秒时间段内的前视图生成质量。
特征提取分别采用预训练的Inception-v3网络(输出2048维特征)和I3D网络。
评估结果
定性分析
图6展示了MiLA生成的多视角驾驶场景视频效果。与Vista相比,MiLA在细节保真度(如白色货车轮廓)和时空一致性上显著提升。放大视图(图6a)进一步验证了MiLA对动态物体的建模能力。
定量分析
表1对比了MiLA与其他方法在nuScenes验证集上的性能:
- 多视角生成:MiLA的FIDmulti为3.0,FVDmulti为18.2,优于次优方法DriveDreamer-2(FIDmulti 4.9,FVDmulti 36.3);
- 长视频生成(表2):在8–10秒区间,MiLA的FIDfront为42.6,显著低于Vista(71.0)。
长视频生成对比
图5对比了不同生成框架的效果:
- 递归框架(Recurrent):长期生成中背景与动态物体质量下降;
- 分治框架(Divide-and-Conquer):锚定帧伪影导致运动不连贯;
- MiLA:通过修正流与渐进去噪,在保持结构一致性的同时提升动态流畅性。
消融实验
模块有效性验证(表4)
- JDC模块:引入后FIDfront从9.1降至8.0,FVDfront从81.3降至63.6;
- TPD调度器:进一步将FIDfront优化至5.5,FVDfront降至38.1。
噪声参数影响(图7)
- α₁(锚定帧噪声比例):过高(α₁=0.8)导致结构失真,过低(α₁=0.2)修正效果不足,α₁=0.5为最优;
- α₂(插值帧噪声比例):与α₁协同调整,平衡伪影抑制与动态保真度。
TPD调度器效果(表3)
- 不同帧率:生成12帧(12fps)时,TPD使FIDfront从9.1降至8.0;
- 长视频扩展:生成24帧时,TPD将FVDmulti从45.6优化至36.3。
结论
在本文中,我们提出了MiLA——一种基于世界模型框架的驾驶场景视频生成方法,能够根据先前帧和未来路径点生成视频。为实现这一目标,我们提出了一种粗到精(修正)框架:首先生成低帧率锚定帧,随后通过插值生成高帧率帧并联合修正锚定帧。此外,我们设计了联合去噪与修正流(JDC)和时间渐进去噪调度器(TPD)模块以增强时间一致性。实验表明,MiLA在长期高保真视频生成任务中达到最先进性能。最后,我们希望MiLA能为从业者在长期高保真世界模型领域提供启发。
#面向主动探索的可信xx问答
近日,中山大学HCP-Lab联合鹏城实验室、香港科技大学提出面向主动探索的可信xx问答数据基准EXPRESS-Bench,支持智能体主动探索,并针对现有xx问答数据集中存在的关键问题(如答案模糊性)进行了优化,以提升任务执行的可靠性和评估的准确性。
作者:Kaixuan Jiang1, Yang Liu1, Weixing Chen1, Jingzhou Luo1, Ziliang Chen2, Ling Pan3, Guanbin Li1,2, Liang Lin1,2
单位:1中山大学,2鹏城实验室,3香港科技大学
项目主页:https://hcplab-sysu.github.io/EXPRESS-Bench/
论文地址:https://arxiv.org/pdf/2503.11117
背景
xx问答(Embodied Question Answering, EQA)是xx智能领域的一项前沿研究任务,要求xx智能体在三维环境中自主导航、探索并收集视觉信息,以回答有关场景的问题。与传统的问答系统依赖静态图像或预定义知识库不同,EQA 需要智能体进行顺序决策,通过主动探索动态获取关键信息,从而生成答案。因此,传统的 QA 方法难以适用于 EQA,因为它们缺乏对动态环境、多步骤推理以及xx导航的建模能力。这种感知、推理和行动的独特组合使 EQA 成为一个引人注目但又具有挑战性的问题,对机器人、虚拟助手和自动导航等现实世界的应用具有重要意义。
然而,现有xx问答任务仍存在诸多问题,包括:
- 智能体利用虚假相关性生成答案,而非真正推理,导致回答的可靠性不足;
- 问题设计的模糊性和场景复杂性使得答案的唯一性难以保证;
- 现有指标无法评估答案的可信度,并且难以有效检测模型幻觉。
将 EXPRESS-Bench 与其他 EQA 基准进行比较。自上而下的地图中的橙色轨迹显示了来自 EXPRESS-Bench 的一个完整探索路径,关键路径点处的观察图像展示在右上角。此路径对应的相关数据如橙色框所示。蓝色轨迹模拟 OpenEQA 的情景记忆,它经过目标附近但并未在那里结束。黄色框模拟了 HM-EQA 中如何生成多项选择数据,它没有提供相应的探索路径。对于每个问题,agent的答案都基于终止位置处的视觉观察,并根据每个数据集的评估方法进行评分。与 HM-EQA 和 OpenEQA 可能根据答案相似性给出更高的分数不同,EXPRESS-Bench 会根据agent的观察结果调整不正确或捏造的答案的分数。
主要贡献
- 推出了 EXPRESS-Bench,这是一个高质量、大规模的 EQA 基准,支持主动探索,解决了现有数据集存在的答案模糊性问题,并减少了对静态先验知识的依赖。
- 提出了混合探索框架 Fine-EQA,结合粗粒度边界探索和细粒度目标导向探索,提升了导航效率,实现对任务相关区域的精细探索,建立了 EQA 任务新的基线。
- 引入了探索答案一致性指标EAC,同时评估答案的正确性和可靠性,比传统指标更加严格地衡量模型性能。
基准
与视觉问答数据集相比,EQA 数据集是在三维空间中构建的,包含静态场景描述和动态交互,因此其构建是一项更具挑战性的任务。并且,3D 环境的复杂性往往会导致答案不唯一,使得模型评估具有挑战性。此外,现有数据集很少支持主动探索。针对以上几个方面,我们提出了一个探索感知的 EQA 基准EXPRESS-Bench,它通过以下方式进行构建:
1)轨迹生成阶段:
- 在场景中随机选取可导航的起始位置与目标位置,生成从起点到目标点的最短路径,并记录每一步智能体的坐标、方向及视觉观测信息。鉴于模拟环境的规模很大,将初始位置和目标位置限制在同一楼层。
- 以第一人称视角记录完整探索过程,并生成轨迹视频。
2)问答对生成阶段:
- 在目标位置,结合视觉观察和示例问答对,将数据输入多模态大模型,由其生成日常家庭场景中自然对话风格的问题与答案。
- 采用开放式答案,避免数据偏差,提高模型推理能力。
3)数据筛选阶段:
- 手动筛选问题,确保所有问题的答案唯一且与场景高度相关。
- 必要时,指定问题的相关区域。
EXPRESS-Bench的构建过程。
最终,EXPRESS-Bench 包含 777 条轨迹和2,044 组问答数据,覆盖七类问题:状态、知识、位置、属性、计数、存在和对象。
EXPRESS-Bench 数据统计。
与现有EQA基准的对比。
模型Fine-EQA
agent 最初使用基于边界的策略进行粗粒度探索,然后在确定与任务相关的区域后切换到面向目标的细粒度探索。区域内的最大探索次数可防止过度搜索,促使agent返回基于边界的探索或聚焦次相关的区域。在此过程中,VLMs 不断评估所获取信息的相关性和完整性,指导agent决定继续探索还是根据最新的视觉输入生成答案。
在探索过程中,agent使用 3D 体素图维护整体的环境表示,该图投影到 2D 平面图以跟踪探索状态和空间占用情况。
全局语义图指导基于边界的探索
- 在每个时间步,agent 将其当前的 RGB 观测投影到2D 平面图上,并应用最远点采样来识别最大化空间覆盖的可导航点。这些采样点P被反向投影到原始 RGB 图像上,结合局部与全局语义值对全局语义图进行更新。
- 根据2D平面图判断边界点并进行聚类以获得候选边界点。每个候选边界点根据其语义值、探索方向上的探索率、占用率和与当前位置的距离赋予相应的权重,作为概率从中随机选择一个作为下一个探索的位置。
功能区域语义图引导任务相关区域内的深入探索
- 利用 LLMs 解析问题,确定相关区域并进行优先级排序。
- 根据agent的视觉观察,结合 VLMs 对区域类型和区域内点的置信度更新功能区域语义图。当 agent 识别到任务相关区域时,基于功能区域语义图对全局语义图进行掩蔽操作,使智能体优先探索任务相关区域。为了防止重复探索,先前访问过的位置在语义图内会获得较低的语义值。
评估指标
探索答案一致性指标。
正确性分数和接地性分数由VLMs给出:
其中,是给定的问题,是正确答案,是模型的响应,是 agent 终止位置处第一人称视角下的视觉观察。最终答案的分数计算为*。
- 模型响应正确性:
表示不考虑答案接地性的C
- 任务完成效率:
其中,N是问题总数,表示 agent 沿着足以完成任务的路径导航的距离(数据生成时记录的最短导航距离),是代理在探索期间移动的实际距离。
- 与目标位置的测地距离
其中,是终止探索位置,是目标位置。
实验分析
我们在 EXPRESS-Bench 上对各种模型进行广泛的评估。
EXPRESS-Bench 上模型的性能比较。
- 被动观察的环境信息未能给模型带来较大的性能提升;
- 具有主动探索能力的智能体表现出增强的环境感知能力,并且表现优于几乎所有非探索性模型;
- Fine-EQA 在各种指标上都表现良好;
- 现有模型与人类表现相比仍然存在显著差距。
#ORION
基于VLM引导动作生成的端到端框架~
论文链接:https://arxiv.org/pdf/2503.19755
项目主页:https://xiaomi-mlab.github.io/Orion/
摘要
本文介绍了ORION:基于视觉语言引导行为生成的整体端到端自动驾驶框架。由于端到端(E2E)自动驾驶方法的因果推理能力有限,它在交互式闭环评估中仍然难以做出正确决策。当前的方法试图利用视觉语言模型(VLMs)的强大理解和推理能力来解决这一困境。然而,由于语义推理空间和行为空间中的纯数值轨迹输出之间存在差距,很少有用于E2E方法的VLMs在闭环评估中表现良好。为了解决这个问题,本文提出了ORION,这是一种基于视觉语言引导行为生成的全面E2E自动驾驶框架。ORION独特地结合了聚合长期历史上下文的QT-Former、用于驾驶场景推理的大型语言模型(LLM)和用于精确轨迹预测的生成规划器。ORION进一步对齐了推理空间和行为空间,为视觉问答(VQA)和规划任务实现统一的E2E优化。本文方法在具有挑战性的Bench2Drive数据集上实现了令人印象深刻的闭环性能,驾驶得分(DS)为77.74和成功率(SR)为54.62%,这比最先进的(SOTA)方法高出14.28的DS和19.61%的SR。
主要贡献
本文的贡献为如下三方面:
1)本文提出了ORION,这是一种基于视觉语言引导行为生成的全面E2E自动驾驶框架。得益于生成模型能够表征数据的潜在分布,本文通过生成规划器弥补了VLM的推理空间和轨迹的行为空间之间的差距,使VLM能够理解场景并且引导轨迹生成;
2)ORION中的QT-former有效地捕获了长期时间依赖性,使得模型能够将时间视觉上下文集成到推理和行为空间中;
3)ORION在Bench2Drive闭环基准上表现出色。实验结果还表明,ORION与各种生成模型兼容,这进一步证明了所提出框架的灵活性。
论文图片和表格
总结
本文主要着重于端到端自动驾驶的VLM方法在将VLM的推理空间与用于规划的纯数值行为空间对齐方面所面临的挑战。因此,现有方法同时分析驾驶场景并且输出高质量多模态预测轨迹并非易事。为了解决这个问题,本文提出了ORION,这是一种通过视觉语言引导行为生成的整体端到端自动驾驶框架。本文通过利用生成规划器并且结合长期视觉上下文,有效地连接了视觉-推理-行为空间。大量实验验证了所提出框架的灵活性和优越性,结果表明,ORION在闭环规划评估方面取得了显著改进,其超越了SOTA方法。
局限性:尽管ORION在Bench2Drive的闭环仿真环境中表现良好,但是它受到实时驾驶场景中可扩展VLM的高计算复杂度限制。未来,本文将通过模型压缩和剪枝等技术来降低ORION的复杂度,从而使得模型能够实现实时自动驾驶。
#小米汽车亏损62亿,雷军长舒一口气~
小米的上限仍是个谜。。。雷军和他的小米又刷屏了。
上一次获得如此高关注度,还是上一次,这位互联网顶流的一举一动如今都是谈资。
一向对财务数据敬而远之的雷军,罕见用“史上最强”为小米集团年报庆贺。
图源:微博@雷军
2024年全年,总收入达到3659亿元,创历史新高,同比增长35.0%。
这背后是一个全面开花的商业版图,智能手机业务、IoT与生活消费产品业务、互联网服务收入、智能电动汽车等,集体迸发撑起了小米集团这个庞大体量。
小米汽车无疑是其中最大的亮点,雷军昨日发微博称“交付了第20万辆小米汽车”,为一对新婚夫妻车主送上祝福,还补充了一句“首发不到一年时间”。
的确,短短一年小米汽车带给雷军以及整个车圈太多惊喜,而这还只是开始,没人知道这个初出茅庐的新生代上限在哪!
不过有一点值得关注,财报显示电动汽车等创新业务经调整净亏损62亿,按136854台的全年交付量计算,相当于每台车亏损4.5万元。
难怪无数网友怒赞雷军是在做慈善,还不断向其投注新的产品期待,当年那一句“交个朋友”的含金量还在不断上升。
前些日子,伴随着小米汽车的强势表现小米股价随之上涨,媒体擅自为雷军冠以首富的头衔,但后者连连否认,如今财报强势亮相,网友直接宣布,稳了!雷总首富稳了!
3月18日,小米集团股价以57.65港元/股报收,最新市值为1.45万亿港元。
展开来看小米的财报,第四季度尤为亮眼,是首次单季度营收过千亿,净利润83亿也创历史新高,远超机构预估的52亿。
支撑小米盈利的主要是这几个业务:
首先是基本盘,手机,主打性价比的红米以及闯入高端市场的小米Ultra系列,销量十分坚挺,出货量已经连续十几个季度稳居全球第三,这一块贡献了21.8%的增长。
考虑到折叠屏市场以及AI元素的迭代,这一领域仍有不俗的增长空间。
其次是生活消费产品业务,包括小家电、空调冰箱洗衣机、手环等,主打的就是一个通过性价比整顿行业,让友商无路可走。
图源:微博@雷军
值得一提的是空调业务,2024年排名中国空调市场第四,卢伟冰前些日子在微博展望:米家空调全年公开市场销量目标第3,未来5年成为数一数二的空调品牌。
我想友商心中是崩溃的,一个跨行业的小米能把传统制造大厂卷到如此高度,从这个角度来看格力专卖店改名董明珠健康家是不是合理了许多,不做战略升级、不主动求变,未来会更加艰难。
尤其现在汽车业务的出现,补齐了小米人车家全生态的最后一块拼图,这个护城河的建立往后只会越来越坚固,还能见缝插针吸收其他品牌的消费者过来,这方面小米眼馋的,还是苹果那帮用户。
不得不提一下贾跃亭,早些年就构建了宏大的生态圈构想,可惜只停留在了想。
如果你问小米业绩已经至山巅了吗?我想还远未达到,因为小米最宝贵的财富雷军,目前开发程度可能还不足50%。
就拿最近卫生巾品牌暴雷来说,网友更关注的是雷军何时出手,评论区里“雷总,求求了,咱们做卫生巾吧”的呐喊此起彼伏,仿佛泼天富贵在求着其接手。
这一幕咱们并不陌生,之前的拍立得就从畅想走向了现实,而且上市直接售罄,长期一机难求。
甚至于前些日子雷军身穿的皮衣、慢跑鞋,都因为这个男人成为了最新时尚单品,其路人缘和带货能力可见一斑。
值得探究的还有那个“不争气的孩子”——小米汽车。
以后来者的视角来看,小米造车的确是一次豪赌,且没有退路。
途中还历经有同样野心的苹果倒在了造车路上,我想彼时雷军的心中是颤抖的,好在小米汽车依托庞大的用户基础、技术与供应链整合、长期坚守的用户思维以及生态协同,走出了一条专属于自身的发展之路。
年报显示,2024年,小米SU7系列交付量达136854辆,同时将扩充产能,保障交付,全力冲刺2025年小米汽车交付35万台的目标。
图源:微博@雷军
不过很多人关注的重点是为什么小米汽车卖一辆亏4.5万?
其实,亏损称得上是新势力的“入场券”,目前来看,实现盈利的也就理想、问界、零跑这几家。
经常关注车圈的朋友不会陌生,车企们时常一边更新“史上最强”、“高歌猛进”的财报,一边又擦鼻涕抹泪,痛诉当下亏了多少钱,貌似人人都难逃“亏钱卖车”。
小鹏去年的那句誓言令人记忆深刻:在血海中游泳,一直游到海水变蓝!
简单归纳这个问题,首先是前期巨大的研发投入,涵盖三电系统、智能驾驶、芯片以及基础设施等领域,这些能够弯道超车传统车企的地方,全是真金白银砸出来的。
图源:微博@雷军
而且最要命的是,一旦上道车门焊死没有下车的机会,前期的量变都是为了最终的质变做准备,但质变何时来,谁也说不准。
以蔚来为例,最近几年销量端不见起色,但年研发投入从几十亿增长到百亿,一直在硬撑。
而且就算销量猛增,还得考虑毛利率问题。
尤其现在车圈进入淘汰赛阶段,各个品牌都在想方设法压低价格,行业价格战让每一个车企都无法独善其身,只能削尖脑袋跟上大流。
不过小米汽车是幸运的,上市即卖爆的成绩使得其少了许多后顾之忧,获得了消费市场和资本市场的认可,资金链就有了保障,跳过了生存危机考验。
而且其通过低价高配的策略以及雷军的个人IP效应,迅速建立起高端化品牌形象,极大地拓宽了小米汽车未来的发展空间。
接下来要做的,就是如何平衡爆款策略与长期技术沉淀,将“幸运”转化为行业领先的可持续优势。
在很多场合,雷军都谈到了顺势而为的商业哲学,最经典的当属在书中提到的那句:仅靠聪明和勤奋是远远不够的,关键是要找到时代的风口,顺势而为。
不过雷军以及小米在贯彻这一方针时有独特的理解和判断:稳扎稳打,切忌一口吃成胖子。
例如在手机业务竞争激烈的那几年,提出的目标是“每年提高1个点的市占率”,尽管售货量长期稳居世界前五,但小米依旧没有冒进。
汽车业务同样如此,在研发费用以及基础设施建设上,始终管控在一个合理范围,避免盲目追高,将自己置身于危险之中。
正是这般挥洒自如的策略,让小米一步步走到了今天的高度。
不过目前看来,小米还远未到躺平的时候,警惕危机爆发十分必要。
就拿最近火热的小米SU7 ultra为例,有的车主深夜飙车开到了300公里/小时,喜提手铐一副,还让各城市都对这款车紧张了起来。
图注:车主驾驶小米SU7 Ultra深夜狂飙
其实雷军多次强调,要敬畏马力,要去安全的赛道里体验性能。
但对于飙车党而言,警言不痛不痒,之前雷军在直播时谈到SU7 ultra的安全问题时,表示要设置电子围栏,通过车辆的坐标位置来决定启用多少性能,如果定位不在赛道,那么就会限制其速度,目的就是为了防止城市飙车问题,不过这个电子围栏目前并未在量产车上装备。
这是一个比较棘手的难题,一方面消费者是奔着性能和品牌来选购的汽车,另一方面如果限制性能发挥,岂不是背刺了消费者,所以如何更好的权衡这个问题,值得小米头疼。
还有一个挑战是AI能力。
目前小米AI在智能手机以及IoT产品上,联动能力稍弱于友商,小米同样深知这一点,卢伟冰表示:2025年,小米300亿元研发费用中,有1/4会投入AI领域。小米正在全力推动AI技术在各个终端产品的落地,未来将用AI重构澎湃OS底层,目标是2到3年完成向AIOS的进化。
未来如果能够拿出一套打通人车家全生态的AI强势方案,那么友商恐怕又要挠头了。
十年前,小米站在风口,十年后,更为复杂的市场环境小米完成了转型。
#MoLe-VLA
计算成本降低5.6倍!实现高效机器人操作
多模态大语言模型(MLLMs)在理解复杂的语言和视觉数据方面表现出色,使通用机器人系统能够解释指令并执行实体任务。然而,其在现实世界中的部署受到大量计算和存储需求的阻碍。最近对大语言模型(LLM)层中同质性模式的研究启发了稀疏化技术来应对这些挑战,如早期退出和token剪枝。然而,这些方法往往忽略了最后几层对下游机器人任务语义信息编码的关键作用。与神经科学中浅脑假说(SBH)的最新突破以及模型稀疏化中的专家混合概念相一致,我们将每个LLM层视为一个专家,并提出了一种混合层视觉语言动作模型(MoLe-VLA或简称MoLe)架构,用于动态激活LLM层。我们为MoLe引入了时空感知Router(STAR),它可以根据机器人的当前状态选择性地仅激活部分层,模仿大脑中专门用于认知和因果推理的独特信号通路。此外,为了弥补MoLe中LLM认知能力的损失,我们设计了认知自蒸馏(CogKD),通过利用认知特征来增强对任务需求的理解并生成与任务相关的动作序列。在RLBench模拟和现实世界环境中进行的大量实验证明了MoLe-VLA在效率和性能方面的优越性,在十个任务中平均成功率提高了8%,同时最多可将LLM中的计算成本降低5.6倍。
项目链接:https://sites.google.com/view/mole-vla
行业背景介绍
多模态大语言模型(MLLMs)的迅速发展展示了它们整合复杂语言和视觉表示的能力,这激发了通用机器人和实体智能体的发展,使其能够进行视觉语言理解、人机交互,并在操作任务中灵活解决问题。初步的视觉语言动作(VLA)模型,如RT-2和OpenVLA,已经显示出使用MLLMs进行端到端机器人控制的可行性,实现了强大的策略和涌现能力,包括对未见物体的泛化和对新命令的理解。然而,在现实世界的机器人系统中部署MLLMs面临着重大挑战,因为其计算需求高,包括大量的内存使用、功耗和时间延迟,这与机器人平台资源受限和实时性的要求相冲突。例如,一个70亿参数的VLA模型在商用级GPU(如RTX 4090)上运行时,通常实现的推理频率约为5-12Hz,这与Franka机械臂所需的50 - 1000Hz控制频率相差甚远。
最近的研究发现,LLM层中存在显著的冗余,特别是在机器人任务中,各层之间的同质性模式导致计算成本高昂,但性能提升有限。例如,DeeR表明,与使用6层相比,使用Flamingo模型的全部24层仅将任务成功率提高了3.2%,而在Calvin LH-MTLC上的计算成本却增加了4倍。同样,我们对OpenVLA与RLBench的分析显示,连续层输出之间的余弦相似度超过90%,而第一层和最后一层的特征差异显著。这表明有跳过相邻层以减少计算的潜力,但也凸显了早期退出策略的局限性,因为丢弃较深层可能会丢失关键的语义信息。受浅脑假说(SBH)的启发,该假说认为大脑通过浅层平行的皮质 - 皮质下环路来平衡深层层次结构,以进行认知和因果推理,我们在VLA模型中提出了一种选择性层激活策略。方法模仿了大脑的动态深度 - 并行平衡,仅激活与任务相关的层,以提高效率和适应性,在VLA模型设计中体现了SBH的原则。
这里引入了混合层视觉语言动作模型(MoLe-VLA),在LLMs的输入阶段加入了一种新颖的层选择路由器,以实现模型的稀疏化。设计模仿了SBH中描述的大脑决策过程,通过动态选择具有不同层组合的最佳前向路径。受专家混合(MoE)中路由机制的启发,我们将这一概念垂直扩展,以实现层级激活。将每个LLM层视为一个独立的专家,并利用一种受生物启发的路由器来管理层跳过,模仿大脑对皮质 - 皮质下环路的选择性激活。与混合深度(MoD)不同,MoD将输入token分配给不同的专家,由于各层的感知水平不同,可能会导致token级的不一致性,而我们提出的MoLe在整体处理输入特征的同时,动态选择最相关的层。
传统的MoE或MoD路由器依赖简单的线性层,往往无法捕捉动态实体智能任务中推理所需的关键时空信息。为了解决这一限制,提出了时空感知路由器(STAR),它独立处理视觉输入的空间特征和文本输入的时间依赖关系。通过将这些关键属性组合成统一的表示,STAR使LLM层的选择与当前环境的需求相匹配。STAR通过为每个层生成softmax概率并选择概率最高的前k层来动态激活最相关的层。通过充分利用时空信息,STAR确保准确高效地适应实体智能任务的动态特性,在降低计算开销的同时实现最佳性能。
尽管如此,跳过某些层不可避免地会降低模型的认知表达能力。为了解决这个问题,提出了认知自蒸馏(CogKD),这是一种新的方法,在减轻认知崩溃的同时保留抓取能力。在CogKD中,原始的全层模型作为教师,而MoLe层跳过模型作为学生。受启发,引入了一个可学习的认知token,它有效地整合了视觉token和语言指导,以增强对任务需求的理解,并生成与任务相关的动作序列。通过分析认知token和学生token之间的相似性,我们识别出代表学生需要学习的任务关键信息的感兴趣token(ToIs)。这些ToIs为自适应地重新加权蒸馏过程提供了精确的指导,确保学生模型专注于关键的认知特征,同时始终从层跳过效率中受益。
MoLe在性能和效率提升方面的有效性在现实世界和RLBench模拟环境中得到了验证,基于各种VLA模型与最先进的基线进行对比。大量的机器人实验表明,MoLe将计算成本降低了5.6倍,同时将模型性能提高了8%。这项工作主要贡献如下:
- 我们从浅脑假说中获得灵感,开发了MoLe框架,该框架模仿了人类大脑中的信号流,并通过路由器实现动态层激活,以提高模型效率。
- 我们提出了一种新颖的层决策路由器STAR,它充分利用机器人输入的时空信息,做出更准确的激活决策。
- 我们引入了自我知识蒸馏范式CogKD,以恢复由于稀疏LLM中层跳过而丢失的认知信息,从而提高整体性能。
相关工作汇总1)视觉语言动作模型
大语言模型(LLMs)和视觉语言模型(VLMs)的显著成功推动了VLA模型的快速发展,VLA模型通过结合动作生成扩展了VLMs。VLA模型旨在弥合感知与行动之间的差距,使机器不仅能够解释和理解视觉和文本输入,还能基于这种理解生成并执行动作。通过整合视觉和语言信息,这些模型产生更复杂、具有情境感知的输出,以适应现实世界环境,推进了它们在动态和实体智能任务中的适用性。
2)高效多模态大语言模型
随着VLA模型的发展,提高推理效率已成为一个关键的研究领域。现有工作可分为三大策略:高效架构设计、模型压缩和动态网络。然而,现有的早期退出方法常常忽略了最后几层的重要性,这些层与下游任务的语义相关性更强。在动态网络的基础上,我们的工作结合知识蒸馏实现了层跳过机制,在优化模型性能的同时减少了冗余计算。
3)稀疏专家混合
虽然激活稀疏性已被广泛研究,但稀疏MoE模型架构在LLMs中显示出显著优势。有研究证明了它们在推理过程中仅激活计算图的一小部分就能有效利用大量参数的能力。在LLMs和VLMs时代,MoE已成为一种被广泛采用且有效的架构。例如,有研究在各种视觉理解基准测试中实现了与LLaVA-1.5-7B相当的性能,甚至在对象幻觉基准测试中超越了LLaVA-1.5-13B,而仅使用了30亿个稀疏激活参数。此外,有研究采用路由器动态选择计算路径,如标准块计算或残差连接。虽然我们的模型与该研究有相似之处,但不同之处在于我们使用路由器选择所有标准块计算,从而实现了更全面的层激活方法。
MoLe-VLA方法
1)预备知识:专家混合
MoE范式通过条件计算在保持计算效率的同时增强模型容量。对于输入,标准的MoE层定义为:
其中,是专家的数量,表示第个专家网络,是满足的门控函数。门控权重的计算方式为:
其中,和是可学习参数。为了提高效率,通常会应用具有前k选择的稀疏门控。为了解决负载不平衡问题(即过多输入被路由到少数专家),引入了负载平衡损失:
其中,如果第个专家通过前k门控机制被选择用于输入,则,否则。这种损失鼓励平衡地利用专家,并提高计算效率。
2)混合层:MoLe-VLA
视觉语言动作模型。机器人在接收到长度为的语言指令时,在时间步从传感器(例如相机的RGB图像)接收观察,以预测具有7个自由度(DoF)的夹爪的动作空间来执行:
其中,、和是末端执行器的相对平移偏移量,、、表示旋转变化,表示夹爪的开合状态。
我们的VLA模型主要由视觉编码器、MLLM 和动作模块组成。视觉编码器由DINO-v2和Siglip组成,它将输入图像编码为一系列信息token。为了进行多模态融合,在视觉编码器生成的视觉表示之上建立MLLM,其作为有效的多模态特征提取器,形式化表示如下:
其中,输出表示在时间步时我们的MLLM最后一层的隐藏状态序列,对应于认知token。这作为后续动作模块解释并推导所需动作的条件。遵循CogAct,动作模块将从输出特征中提取的认知特征作为输入,并预测最终动作。
MoLe-VLA的视觉、语言和动作模块通过最小化动作模块预测的噪声与真实噪声之间的均方误差进行端到端训练。以扩散头为例,损失函数定义为:
其中,是在第个去噪步骤中对有噪声动作预测的噪声,是相应的真实值。
通过MoLe路由器的层跳过机制。MoLe-VLA以提高LLM在机器人任务中的效率,因为在机器人任务中许多Transformer层由于推理需求较为简单而未得到充分利用。MoLe采用轻量级路由器在推理过程中自适应地跳过非必要的Transformer层,在保持性能的同时降低计算成本。
如图2所示,对于给定的具有层的MLLM ,MoLe路由器处理输入嵌入并生成二进制门控向量,其中。为了确保效率,仅将中的前个值设置为1,这决定了哪些层使用隐藏特征执行,而其余层则被跳过:
与传统的将token分配给专家的MoE路由器不同,MoLe路由器跳过整个层,避免了冗余计算。这提高了推理效率和响应速度,使MoLe特别适合像操作和导航这样的实时机器人任务,这些任务需要轻量级和自适应的处理。MoLe的完整伪代码在算法1中给出。
3)时空感知路由器
我们提出了一种全新的路由机制,它能协同利用视觉输入的空间结构和语言输入的时间依赖关系,为视觉语言动作(VLA)任务动态选择合适的大语言模型(LLM)层。给定视觉特征和文本特征,通过一个可学习矩阵,将这两种模态投影到一个共享的潜在空间中:
我们从计算空间路由权重,以此来捕捉空间特征:
其中,是高斯误差线性单元(GELU)激活函数。同时,利用一个Transformer模块从导出时间路由权重,之后进行平均池化:
一个动态温度因子,通过的[CLS]标记计算得出,用于调节路由的锐度:
其中,是sigmoid函数。最终的专家门控权重,将和结合起来,由进行缩放,并通过Gumbel-Softmax进行可微选择计算:
通过整合空间和时间信息,我们的方法能让路由器选择合适的LLM层,自适应地优化VLA任务的性能。这种方法效率很高,每个样本仅需次浮点运算,相比之下,标准的专家混合(MoE)框架则需要次,这里且。这样的设计确保了高适应性和计算效率。
4)认知自知识蒸馏
在实现高效的层跳过机制的同时,我们还设计了一种自蒸馏策略,来弥补稀疏LLM中的认知损失,如图3所示。这里将原始模型作为教师模型,MoLe模型作为学生模型。一种常见的蒸馏token的方法是逐token地模仿张量。
形式上,对于教师网络的token和学生网络的token,可以通过token重建来实现模仿:
然而,上述公式对每个token同等对待和蒸馏,这并不恰当。例如,与文本描述相关的视觉token应该受到更多关注。
因此,引入了一个可学习的嵌入,称为认知token,以实现自适应蒸馏。具体来说,它被插入到底层,有效地整合视觉token和语言指令,以便更好地理解任务需求,并生成与任务相关的动作序列。教师模型和学生模型分别有各自的和。在蒸馏过程中,通过计算认知token和学生token之间的相似度来获取感兴趣token(ToIs):
其中,表示Sigmoid函数。接下来,利用教师和学生认知token生成的ToIs的交集,来决定每个token的蒸馏程度,这里,因为蒸馏token应该包含对教师模型和学生模型都重要的token。因此,上述公式可以更新为:
此外,以前述方式将反向KL散度与认知token结合,得到Log-reversek,以增强分布约束:
最终的认知自知识蒸馏(CogKD)损失可以表示为:
其中,是一个因子,设置为0.5以平衡损失。
对于教师模型的更新,用预训练参数初始化两个模型,并使用指数移动平均(EMA)来更新教师模型:
这里,表示时间步,我们将更新权重设置为0.999。我们最终的训练目标可以通过结合、和来表示:
其中,和是两个超参数,默认设置为0.5和0.1。
5)优化目标
对于教师模型的更新,使用预训练参数初始化两个模型,并采用指数移动平均(EMA)来更新教师模型:
在这个设置中,代表时间步,将更新权重设定为0.999。
最终的训练目标由、和组合而成:
其中,和是两个超参数,默认分别设为0.5和0.1。
实验分析
1)实验设置细节
- 仿真与实际部署:为评估方法并展示其泛化能力,在CoppeliaSim模拟器中的RLBench以及实际环境中开展实验:
- RLBench包含10个不同的桌面任务,由Franka Panda机器人和前置摄像头完成。这些任务涵盖从物体操作到环境交互,如关闭盒子、合上笔记本电脑盖、放下马桶座圈、将垃圾放入垃圾桶、扫到簸箕里、关闭冰箱、将电话放在底座上、从架子上取下雨伞、从衣架上取下相框以及调整时钟。任务数据通过预定义的路标点和Open Motion Planning Library生成。参照先前工作,每个任务包含100条使用基于帧的方法采样的训练轨迹,并在训练工作空间内对每个任务进行25次试验评估。
- 实际部署实验在配备3D打印UMI夹爪的Franka Research 3(FR3)机器人上进行,涉及三个任务。安装在手腕上的GoPro 9相机捕捉现实世界的视觉观测数据。我们为每个任务收集50个演示,包括拔充电器、拉抽屉和倒水,在定义的工作空间范围内使用手持UMI夹爪完成。一个智能体在所有任务上进行训练,并在训练工作空间内对每个任务进行10次试验评估。成功率通过人工评估确定,并作为评估指标。
- 基线对比:MoLe-VLA的创新之处在于其新颖的、可插入的MoLe架构,该架构加速了VLA推理,同时提高了机器人的成功率。为评估其有效性,我们将MoLe与两种动作生成范式下的三种最先进的VLA方法进行比较:一是自回归模型,包括使用LLaMA进行离散动作预测的OpenVLA;二是基于扩散的模型,如通过扩散头预测动作块的CogAct。此外,还评估了几种VLA效率基线:RoboMamba,它用轻量级的Mamba模型取代了基于Transformer的LLMs;DeeR,它实现了LLMs的早期退出;MoD,它在各层之间动态分配输入token;以及Random-skip,它随机跳过LLM层。为确保公平比较,后三种基线在CogAct上采用相同设置实现,DeeR使用单相训练并加载完整模型。我们将MoLe与两种VLA模型集成,形成MoLe-OpenVLA和MoLe-CogAct,二者默认均跳过50%的层。
- 训练与评估细节:为保证公平比较,所有基线均使用相同的任务配置进行训练。每个方法均加载其官方预训练参数,并遵循各自的训练设置。对于MoLe-VLA,单视图RGB输入被调整为224×224大小,机器人状态与预测动作(7自由度末端执行器姿态)对齐。模型使用批量大小为64、每个样本8个扩散步骤进行训练,视觉和语言模块使用预训练权重。视觉模块包含DINO-v2和SigLIP,语言模块LLAMA-2和动作模块DiT-Base进行端到端训练,学习率恒定为,训练100次迭代。使用PyTorch的全分片数据并行(FSDP)框架,在8个NVIDIA A800 GPU上进行约1.5小时的训练。
2)仿真实验定量结果
- 性能提升:在十个RLBench任务上,仅使用LLM一半的层以提高效率,将所提出的MoLe方法与最先进的VLA模型进行性能比较。基于OpenVLA和CogAct骨干网络实现的MoLe,在成功率和效率方面均表现卓越。值得注意的是,MoLe-CogAct达到了最高的平均成功率60.8%,超过了如DeeR(59.2%)和MoD(56.4%)等竞争效率方法,因为这些方法忽略了语义最丰富的层,导致token级感知不一致,MoLe-CogAct在关闭冰箱和扫到簸箕等任务上有显著改进。同样,MoLe-OpenVLA相较于原始OpenVLA有10.2%的提升。尽管MoLe仅需981.5和985.8 GFLOP的计算量,但在效率和成功率上均超过了DeeR和MoD,突出了其平衡计算成本和任务性能的能力。这些结果强调了MoLe作为机器人操作中可插入LLM架构的有效性。
- 效率分析:为展示MoLe-VLA的效率,我们分析了随着跳过层数增加时成功率的变化。MoLe在仅使用19%计算量的情况下,实现了与全层骨干网络相似的成功率,且推理速度快两倍。值得注意的是,MoLe-OpenVLA大幅超越了原始OpenVLA。此外,表2提供了模型效率的详细统计信息。MoLe实现了最高的效率,推理时每次迭代仅需0.309秒,同时保持60.8%的最高平均成功率。这些结果凸显了MoLe在平衡效率和性能方面的优越性。
- MoLe量化分析:在表3中突出了MoLe在8位量化下相较于FP16精度的CogAct的效率。MoLe实现了更高的成功率(58.8%)和4.11Hz的频率,仅使用8887MB的GPU内存,为CogAct的55%。这表明MoLe在量化后能够以显著更低的计算成本保持卓越性能。
- 可扩展性评估:表4展示了在RLBench上,与全层CogAct相比,提出的MoLe在不同模型规模下的可扩展性。MoLe始终实现更高的平均成功率,在小型、基础和大型模型上分别提升了2.7%、3.6%和1.5%。值得注意的是,MoLe-Large实现了71.5%的平均成功率,展示了其有效利用增加的模型容量的能力。这些结果验证了MoLe在不同计算预算和模型规模下的稳健性和适应性。
- 消融实验:表5展示了在RLBench仿真环境中,STAR路由器和CogKD损失及其变体的消融实验结果。基线CogAct(Ex0)的平均成功率为57.2%,而将STAR与认知token集成(Ex2-1)后,性能提升至58.3%,展示了它们的协同作用。使用定制的CogKD损失变体可进一步提升性能,结合STAR、认知token和Reserve KL损失(Ex2-3)可达到59.4%,添加MSE和Reserve KL损失(Ex2-4)可实现最佳性能60.8%,相较于基线提升了3.6%。这些结果突出了STAR捕捉时空依赖的能力,以及认知token在自知识蒸馏中的重要性。
3)实际任务评估
我们进行了涉及与各种现实世界物体交互的实验,结果总结在表6中。结果表明,MoLe在三个任务中均表现出色。值得注意的是,在具有挑战性的倒水任务中,该任务需要精确的3D位置和旋转预测,MoLe取得了令人瞩目的80%成功率。这些结果突出了MoLe在将LLM计算成本降低50%的情况下,仍保留理解3D空间场景并进行准确预测的能力。
4)定性结果
如图5所示,我们可视化了三个现实世界和三个RLBench仿真任务的操作过程。MoLe-VLA能够准确预测连续的7自由度末端执行器姿态,从而沿着规划轨迹精确执行任务。例如,在倒水任务中,MoLe-VLA成功抓取杯子,提起水壶,将其定位在碗上方,并平稳旋转夹爪以控制水流。
参考
[1] MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation.