51c自动驾驶~合集27

whaosoft-143

已于 2025-04-01 13:38:06 修改

阅读量1.3k

点赞数 23

分类专栏：人工智能文章标签：人工智能

于 2024-11-18 09:09:09 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143843668

版权

人工智能专栏收录该内容

364 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11989373

#无图NOA

一场对高精地图的祛魅！2024在线高精地图方案的回顾与展望~

自VectorMapNet以来，无图/轻图的智能驾驶方案开始出现在自动驾驶量产的牌桌上，到如今也有两年多的时间。而『无图NOA』真正开始爆火的节点当属MapTR算法的提出，原来矢量化地图还能这么学习，以前分割的方案开始退出自动驾驶舞台，各家开始真正投入主力量产无图/轻图方案。

首先需要明确一点，无图方案不是完全摒弃高精地图，下游轨迹预测/规控仍然依赖高精地图的输入。『无图』实际指的是不再依赖厂商提供的高精地图，转而使用车载算法实时感知的『局部在线高精地图』。

因此无图方案的核心在于实时在线地图构建的准确性，从技术层面来讲，正常情况下无图的上限就是有图；而在传统高精地图更新不及时的区域（比如施工路段、道路重构路段等），无图方案是更有优势的。在线高精地图的发展也有两年多了，无图一直致力于从『能用』走向『好用』。就带大家盘点一下2024年在线高精地图的主流前沿算法，一探研究趋势，并在文末进行总结。

#Robo-GS

开源最Solid的赛博机械臂！机械臂与环境无缝交互

🚨🤖 警报！机器人界的“血案”：特斯拉工厂惊现机械臂“暴走”事件 🚨

去年年末，一则“特斯拉机器人伤人事件”的微博引发了网友的广泛关注和热烈讨论。

📅 时间倒回2023年12月26日，英国小报《每日邮报》爆出猛料，标题惊悚：“特斯拉机器人在得克萨斯州工厂发生严重故障，一名工程师惨遭‘毒手’——现场留下‘血迹’，紧急关闭按钮被工人们火速按下！”😱

📜 但别急，这起事故实际上记录在2021年的特斯拉报告中，并非近期发生。文章中描述了两名目击者惊恐地目睹他们的同事被一台本应用于抓取和移动新铝制汽车零件的机器“袭击”。🏭

根据澎湃新闻2024.1.10 https://www.thepaper.cn/newsDetail_forward_25951876

🤖 机器臂安全，警钟长鸣！虽说这则网络新闻并非近期发生，但机器臂安全不容小觑。有了xx智能的加持后，或许能一定程度上防止工业机器人伤人事件。然而由于感知判断错误，以及机器臂网络重建误差依然有可能引起的工业事故。为了彻底规避“机械臂搬运零件时发生严重偏移，从而撞到检查设备的工人”这类事故，学者们对于机械臂控制以及机械臂网络重建精度的研究仍在努力探索中。

Real2Sim技术能刚好地帮助机械臂在工作时更好地控制“自己”。近期公开的Robo-GS采用混合表示模型，集成了网格几何、3D高斯核和物理属性，以增强机械臂的数字资产表示。这种混合表示通过高斯-网格-像素绑定技术实现，该技术在网格顶点和高斯模型之间建立了同构映射。这能够实现一个完全可微的渲染管道，该管道可以通过数值求解器进行优化，通过高斯展开实现高保真渲染，并使用基于网格的方法促进机械臂与其环境交互的物理合理模拟。该流程标准化了坐标系统和比例尺，确保了多个组件的无缝集成。除了重建机械臂外，还可以整体重建周围的静态背景和物体，从而实现机械臂与其环境之间的无缝交互。

该项成果还提供了涵盖各种机器人操作任务和机械臂网格重建的数据集，由网格、高斯溅射和真实世界运动的组合表示。这些数据集包括以数字资产形式捕获的现实世界运动，确保了质量和摩擦力的精确表示，这对于机器人操作至关重要。Real2Sim在机器人应用的真实渲染和网格重建质量方面达到了最先进的水平。

Robo-GS: A Physics Consistent Spatial-Temporal Model for Robotic Arm with Hybrid Representation https://arxiv.org/abs/2408.14873

背景知识

看到这里想必大家有几个问题：什么是渲染？什么是高斯溅射？下面在开始正文之前，文章先来了解一些背景知识。

什么是渲染？

渲染是指将三维场景（或模型）转换成二维图像的过程。这包括光照、阴影、纹理等效果的计算，以生成逼真的视觉效果。高保真渲染是指尽可能接近真实世界效果的渲染技术，包括光照、反射、折射等复杂物理现象的模拟。最常用的渲染方法之一就是利用三维场景重建技术，如高斯飞溅和神经辐射场(NeRF)。

高斯飞溅技术如何进行三维场景重建？

首先，从多个视角获取场景的图像或深度数据，以及相应的相机参数。在图像中提取特征点（如SIFT、SURF等），并在不同视角间进行匹配，以建立空间中的对应关系。然后利用多视角几何原理（如三角测量）计算匹配特征点的三维坐标，形成初始的三维点云。对于点云中的每个点，根据其位置精度和可能的误差来源（如相机校准误差、匹配误差等），分配一个高斯分布。这个高斯分布的均值即为该点的三维坐标，协方差矩阵反映了该点位置的不确定性。最后，将所有点的高斯分布组合起来，形成一个连续的、概率性的三维场景表示。这个表示可以进一步用于各种应用，如场景可视化、路径规划、碰撞检测等。

神经辐射场（NeRF）如何进行三维场景重建？

与传统的三维重建方法（如体素网格、点云等）不同，NeRF采用了一种连续的体积表示方式。这意味着它并不直接存储三维空间中每个点的颜色或密度，而是通过一个神经网络来“学习”这些属性的函数关系。NeRF的神经网络接收两个主要的输入：一是三维空间中的坐标点（x, y, z），它代表了场景中的位置；二是观察方向（θ, φ），它表示从哪个角度观察该点。网络的输出则是该点在给定观察方向下的颜色和体积密度（即该点被占据的可能性）。为了从神经辐射场中生成可视化的图像，NeRF采用了体积渲染技术。这一过程模拟了光线在三维场景中传播并与物质交互的过程。具体来说，它沿着从相机出发到图像平面上每个像素的光线进行采样，对于光线上的每个采样点，使用NeRF网络查询其颜色和密度。然后，根据这些颜色和密度值，以及光线在场景中的传播路径，计算出该像素的最终颜色。

NeRF的训练目标是最小化重建图像与真实图像之间的差异。这通常通过定义一个损失函数来实现，该损失函数计算了重建图像中每个像素的颜色与真实图像中对应像素颜色之间的误差。在训练过程中，通过反向传播算法来优化神经网络的参数，以最小化损失函数。这一过程通常涉及到大量的迭代计算，直到模型达到收敛状态。

特别之处

在了解了以上背景知识后，文章可以进一步看看这篇文章相对于先前的研究有什么特别的贡献了。

提出“同构网格-高斯绑定”，实现了机械臂各部分的联动建模

在传统的或经典的机械臂控制方法中，机械臂的每个连杆都是通过预定义的关节连接起来的。控制机械臂沿特定路径运动的主要方式是通过调整各个关节的角度，这种连接方式允许机械臂按照预设的路径运动。但在高斯设置（机械臂的运动或某些特性被建模为高斯分布或高斯过程）中，各个元素（机械臂的连杆、关节或运动参数）之间没有明确的联动定义。即，这些元素被视为彼此独立的，而不是像经典控制方法中那样通过关节相互连接。由于在高斯设置中各个元素之间的独立性，当尝试模拟或控制机械臂的运动时，可能会出现运动不一致的情况，机械臂的运动可能不符合实际的物理规律或预期的运动轨迹。

为此，文章引入了“同构网格-高斯绑定”的概念。同构网格提供了一个统一的框架，用于描述机械臂的整体形状和结构。而高斯绑定则允许文章在这个框架内为每个元素分配一个高斯分布或高斯过程，以模拟其运动特性或不确定性。通过这种方式，文章能够在保持各个元素独立性的同时，实现它们之间的协调和联动，从而解决运动不一致的问题。

对机械臂更有效的姿态学习与控制

在Real2Sim2Real范例中，通过基于姿态的控制策略，利用逆运动学和基于扩散的生成模型，将现实世界中的机械臂操作转化为仿真环境中的控制指令，以实现更有效的机器人学习与控制。这种方法的核心在于将机械臂末端执行器在现实世界中的姿态轨迹转换到仿真环境中，以实现从现实到仿真的有效策略迁移。这种控制方法侧重于机械臂末端执行器（如夹爪、工具等）的姿态（位置和方向），通过测量或预设末端执行器在现实世界中的姿态轨迹，可以生成相应的控制指令。在仿真环境中重现末端执行器姿态的轨迹，可以帮助确保仿真训练的有效性和现实世界的一致性。

实现更逼真的渲染

以往的研究通常使用NeRF和高斯飞溅来重建机器人操作场景并实现模拟，探索基于高斯的、高度可变形的物体重建，进行机器人仿真和抓取任务。然而，这些方法往往无法实现高保真渲染。因此，为了实现逼真的渲染，文章将传统的基于MLP的变形场替换为数值ODE求解器，以提高四维高斯溅射的质量。

模型架构解析

接下来一起看看文章的模型具体是如何搭建的吧。

文章的数字资产由网格、高斯飞溅和真实世界的运动来表示。在传统的数字资产制作中，主要关注的是纹理网格和材料属性。然而，文章意识到物体的物理参数，如质量和摩擦，在机器人操作中更为重要。每个高斯绑定到一组网格顶点和面，创建高斯-网格-像素绑定，如图3所示。

文章定义投影映射(Projection Mapping)、网格映射(Mesh Mapping)、重投影映射(Re-projection Mapping)来连接高斯飞溅，网格和真实世界运动的表示。其中，投影映射将任何已知的3D点位置使用透视投影模型重新投影到2D图像平面上；网格映射将高斯中心（A)与顶点集合（V）中的每一个顶点关联；重投影映射定义了高斯中心(A)与图像像素位置(P)和顶点集合(V)相关联的同构关系φ，记录真实场景的图像平面、基于网格的模拟引擎的模拟结果和渲染的4D高斯飞溅场景之间转移轨迹。从真实世界的视频到高斯到网格的渐变(向后优化)、从网格到高斯到渲染视频的渐变(前向渲染)遵循以上映射关系。

接下来，文章从单目视频数据中提取机器人臂的链接、对象和背景网格，并将其与物理参数和控制方程相结合，以生成用于仿真的统一机器人描述格式（URDF）模型。具体来说分为以下几步：（1）从视频数据中提取三维网格模型，这些模型能够精确地表示机器人臂的各个部分、操作对象以及背景环境。（2）LLM（Large Language Models）在这里用于推断物理参数，如质量、摩擦系数等，这些参数对于机器人操作和仿真至关重要。（3）控制方程（用于描述和控制机器人运动的数学方程）被嵌入到URDF资产中，有助于在仿真环境中准确地模拟机器人的行为。（4）Panoptic图像分割技术更精确地从视频中提取和重建三维网格，并将它们整合到URDF模型中。（5）采用2DGS（2D Gaussian Splatting）从二维图像中提取三维几何信息，将图像中的像素映射到三维空间中的高斯分布。此外，文章采用场景重新定向技术将重建的场景与仿真引擎的坐标系对齐，并建立了一个统一的坐标系统OpenGL，无缝连接现实世界和模拟场景。

在运动控制方程的选择上，将原来的四维重建问题分解为静态和动态两个阶段，使用欧拉表示法处理静态场景，使用拉格朗日表示法处理动态场景。文章采用基于姿态的机械臂控制策略，重点控制末端执行器的姿态，并使用逆运动学来生成现实世界中每个关节的控制信号。在这种方法中，网格充当互连映射。每个网格的运动通过变换矩阵传递到每个绑定到该网格上的高斯，从而引导高斯的运动。
动力学控制方程选择牛顿-欧拉方程，生成一个具有机械臂力控制和刚体运动的变换矩阵。
最后，为了渲染视图，高斯飞溅将这些3D高斯投影到图像平面上，并计算每个像素的颜色，及每个高斯中心在t时刻的位置更新，从而提取一组轨迹，应用于渲染场景。

实验结果

文章比较了当前最先进的四维高斯喷溅，包括SC-GS和K-Planes，与本文的方法，发现K-Planes和SC-GS都不能优化机械臂和物体运动的转换。图5显示了执行一组轨迹以识别其拐角情况的机器人手臂的重建。本文的方法展示了处理复杂轨迹和运动的能力。

图6显示了推箱子的机械臂的重构。显然，KPlanes和SC-GS无法准确地重建机械臂和刚体的动态运动，这与Robo360的结果一致。相比之下，本文的方法在机器人操作任务中成功地保持了运动和几何一致性。

文章将文章的方法与2DGS Original, Gaustudio, SUGAR和商业3D扫描仪扫描的地面真相进行比较。与SUGAR和Gaustudio相比，文章的方法产生了更好的网格质量，并实现了接触丰富的策略执行。图7显示了与地面真值网格和其他方法相比，文章的网格结果的质量更好。可以看到，在URDF方法中，文章的模型成功地重构了机械臂不同小模块的相接的部位。

表1给出了Gaustudio、Sugar、Robostudio (v1)和Robostudio (Full)的定量比较结果。Robostudio (v1)和Robostudio (Full)之间的区别在于Robostudio (Full)包括二维高斯溅射(2DGS)中的重新定向和网格清洗技术，从而改善了对齐和采样。

总结

文章针对机械手臂操作场景的整体重建，这需要一个可操作的机器人模型，背景和对象的重建，质量和摩擦等物理参数的结合，以及逼真的渲染器。该方法的核心是高斯-网格-像素绑定，它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯被分配一个语义标签和相应的ID，从而能够精确地应用由URDF控制的转换矩阵。这确保了真实世界视频、模拟结果和渲染图像之间轨迹的无缝传输。这种绑定的优点包括在每个表示之间传递端到端的可微分梯度，通过文章最先进的网格重建进行卓越的碰撞检测，以及高渲染质量。系统确保了模拟和现实之间的一致渲染，允许学习策略有效地部署在现实场景中。此外，它还支持在Isaac Sim (Gym)模拟中进行编辑后端，启用新姿态和新策略调整。此外，文章还提出了一种新的数字资产格式，由网格、高斯飞溅和真实世界运动的组合表示。该方法通过整合从真实世界的运动视频中提取的关键物理参数，如质量和摩擦，超越了传统的纹理网格和材料属性。

#ADS断代领先

华为发布首款轿跑SUV

26.8万，打破BBA崇拜的华为，接下来要挑战Model Y了。

刚刚，华为首款轿跑SUV智界R7开订，车长近5米，尺寸介于Model X和Model Y之间。

800V高压平台，最高续航超800km，预售价26.8万元。

同时，年度科技车皇问界M9，新增了五座版车型，46.98万起售。

26.8万起，华为首款轿跑SUV开订

智界R7车长/宽/高分别为4956/1981/1634（mm），比Model Y大得多，外观和智界S7相似，形成了鸿蒙智行家族设计语言。

前排内饰风格也和智界S7相似，椭圆的方向盘，以及超大的中控平台。

前舱部分首发了一项很有趣的功能。

华为将手机上双击截屏的思路，迁移至前备箱，可以敲击开启。

后备箱空间837L，三层分区，可以放下3个28寸大行李箱和1个20寸登机箱。

副驾有零重力座椅，余承东介绍，即便是前排如图中躺下一个女生，后排仍然可以坐人。

展车不久后会到门店，大家可以线下体验体验，验证一下嘴总有没有“以行践言”。

三电方面，搭载800V高压平台，最高续航802km，在纯电的SUV中实现了罕见的“双800”。

长续航主要得益于超低的风阻系数，余承东再次强调，智界R7的风阻系数全球最低。

操控上，前双叉臂后五连杆悬挂，全系标配CDC连续可变阻尼减震器和空气悬架。

以上就是智界R7目前公开的主要信息，预售价格为26.8万元，也就是13台华为三折叠的价格。

比智界S7的预售价格贵了1万元，比Model Y也贵了1.6万元，预计正式上市还会有惊喜。

压轴登场的智界R7，有很多惊喜，但并非是唯一主角。

与华为三折叠同台发布的，还有问界M9五座版。

46.98万起，问界M9五座版上市

问界M9交付以来，在50万元以上SUV市场势如破竹，连续5个月蝉联，累计大定突破13万台。

不过，三排座椅也劝退了一部分潜在用户，比如一孩家庭，日常用不上这么多座位。

所以说此次新增五座版，可以覆盖更大的用户群体。

五座也能变四座，中台配有杯架、储物盒和无线快充：

头枕音响拔掉后，支持“双人沙滩椅模式”：

少了一排座位，后备箱空间自然更富裕了。

五座版后备箱空间达1043L，可以放下4个28英寸的大行李箱以及1个高尔夫球包。

空间更大之外，华为还进行了很多新的设计：

比如类似劳斯莱斯的“揽景座椅”，非常适合钓鱼佬。

配备了储物箱：

装配了麂皮包裹的硬质遮物板以及阻隔器：

底部托盘可以拉出，野外露营时当个餐桌很方便：

除了车座数量变化，还有以下多项升级：

首先是最让人惊讶的是，问界M9可以圆规掉头了。

然后是余承东确认，ADS 3.0明日起鸿蒙智行全系升级，余承东认为ADS 3.0是“断代式领先”，强调车位到车位的体验，“环岛都能开”，这也是此前2.0版本的弱势场景。

其他方面，主要是车内外的一些功能小升级。

车外新增了全新的迎宾灯语。

支持语音控制打开车门：

打开车门来到车内，先来看中控位置，此前曾有人吐槽水晶旋钮功能太少，这次新增悬架高度调节功能和路面辅助模式。

然后是后排，改善了投影幕布体验，防止调节座椅挡住幕布下降：

新车投影幕布还配备了遥控器，老车主后续也会陆续免费送。

最后来看下售价，与六座版相同，有Max和Ultra两个版本。其中只有Ultra版有纯电车型。

Ultra版比Max版多了电动门、华为投影大灯、投影幕布。

Ultra增程版的电池包更大。

有没有很心动？

赛力斯总裁何利扬透露，M9五座版6-8周可交付。

毫无疑问，五座版的上市，会让问界M9在50万元以上SUV市场的统治地位，更加稳固。

问界M9终结了BBA神话，新的问题来了：

智界R7，能不能延续辉煌，把Model Y拉下神坛呢？

#MiniDrive

单卡就能训的VLM来了！中科院提出, 各项指标完爆当前SOTA~

视觉语言模型（VLM）是自动驾驶中的通用端到端模型，通过问答交互实现预测、规划和感知等子任务。然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型（LLM），这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力，因此难以适应自动驾驶中的环视感知。为了解决这些问题，我们提出了一个名为MiniDrive的新框架，该框架结合了我们提出的特征工程混合专家（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE MoE在输入到语言模型之前，有效地将2D特征映射到视觉标记嵌入中。DI适配器使可视令牌嵌入能够随着指令文本嵌入而动态变化，解决了以前方法中同一图像的静态可视令牌嵌入问题。与之前的工作相比，MiniDrive在参数大小、浮点运算和响应效率方面实现了最先进的性能，轻量版本仅包含83M个参数。

开源链接：https://github.com/EMZucas/minidrive

总结来说，本文的主要贡献如下：

本文开发了自动驾驶VLMs MiniDrive，它解决了自动驾驶系统VLMs中高效部署和实时响应的挑战，同时保持了出色的性能。该模型的训练成本降低，多个MiniDrive模型可以在具有24GB内存的RTX 4090 GPU上同时进行完全训练；
MinDrive首次尝试利用大型卷积核架构作为自动驾驶视觉语言模型的视觉编码器骨干，并能够更高效、更快地提取不同图像级别的2D特征。我们提出了特征工程混合专家（FE-MoE），它解决了从多个角度将2D特征高效编码到文本标记嵌入中的挑战，有效地减少了视觉特征标记的数量，并最大限度地减少了特征冗余；
本文通过残差结构引入了动态指令适配器，解决了同一图像在输入到语言模型之前的固定视觉标记问题。DI适配器使视觉特征能够动态适应不同的文本指令，从而增强跨模态理解；
我们在MiniDrive上进行了广泛的实验，与Drive LM上具有多视图图像输入的自动驾驶VLM相比，实现了最先进的性能。此外，我们在CODA-LM上使用单幅图像输入的性能比普通开源VLM（>7B）平均高出13.2分。

相关工作回顾Vision-Language Models

Transformer架构的成功推动了LLM的发展。在计算机视觉领域，Dosovitskiy等人提出了ViT，它将图像划分为补丁，并根据transformer架构对其进行处理，成功地将其应用于计算机视觉任务。Transformer架构可以有效地学习和表示图像和自然语言。一项开创性的工作是CLIP，它将对比学习用于图像-文本对齐训练，展示了在图像分类任务中优越的零样本能力。Llava冻结了CLIP的视觉编码器（ViT），并在视觉编码器和LLM之间添加了一个线性投影层，旨在将视觉输出表示映射到文本空间中。同样BLIP-2通过更复杂的Q-Former对齐视觉和文本表示。InstructBLIP以BLIP-2为基础，对公共视觉问答数据集进行指令微调。MiniGPT-4将冻结的视觉编码器和Q-Former与类似冻结的LLM Vicuna相结合，将它们与单个投影层对齐。Llava-1.5v通过使用带有多层感知器（MLP）投影层的CLIP-ViT-L-336px，并添加针对学术任务量身定制的VQA数据，通过简单的响应格式化提示，在11个基准测试中实现了最先进的性能，显著提高了数据效率。Phi-3-mini具有默认的4K上下文长度，并引入了使用LongRope技术扩展到128K上下文长度的版本，同时采用了类似于Llama-2的块结构和相同的标记器，实现了轻量级的多模式模型。尽管这些多模态大型模型具有强大的功能，并且有轻量化设计的趋势，但它们的参数数量超过10亿，这使得在许多硬件平台上的部署和实时使用具有挑战性。因此，有必要研究和开发具有较小参数大小和较低计算成本的高效视觉语言模型。

Autonomous Driving Based on LLMs

LLM有效地增强了自动驾驶系统的可解释性及其与人类的互动。这些优势促使研究人员将自动驾驶的多模态数据纳入LLM的训练中，旨在为自动驾驶构建多模态大型模型。Chen等人将矢量化模态信息与LLaMA-7B对齐，以训练自动驾驶的问答模型。训练过程遵循两阶段方法：在第一阶段，向量表示与冻结的LLaMA对齐，而在第二阶段，LoRA用于微调语言模型。DriveGPT4也使用LLaMA作为其大型语言模型，使用CLIP作为视觉编码器。它通过输入视觉和文本信息来生成相应的答案。DriveGPT4操纵ChatGPT/GPT-4生成指令数据集，并在此数据集上进行训练。然而DriveGPT4仅使用单视角图像，限制了其在自动驾驶场景中处理更全面理解的能力。Wang等人开发了DriveMLM，该模型使用LLaMA-7B作为基础语言模型，ViT-g/14作为图像编码器。该模型处理多视图图像、激光雷达点云、交通规则和用户命令，以实现闭环驾驶。受大型语言模型中的思维链方法的启发，Sha等人提出了一种用于驾驶场景的思维链框架，使用ChatGPT-3.5为自动驾驶提供可解释的逻辑推理。Mao等人介绍了GPT Driver，它使用ChatGPT-3.5为自动驾驶汽车创建运动规划器，GPT Driver通过将规划器的输入和输出表示为语言令牌，将运动规划作为语言建模任务进行刷新。Sima等人发布了DriveLM数据集，这是一个图形化的视觉问答数据集，其中包含与感知、行为和自我车辆规划相关的问答对，基于NuScenes数据集的多视图图像数据。为了建立基线，Li等人在这个新数据集上对BLIP-2进行了微调。EM-VLM4AD引入了门控池注意力（GPA），它将多个图像聚合到一个统一的嵌入中，并将其与文本嵌入连接作为LLM的输入，在DriveLM数据集上取得了有前景的结果。

虽然现有的工作提供了巨大的价值，并展示了强大的自动驾驶能力，但大多数模型都有超过10亿个参数。它们主要基于GPT-3.5和LLaMA等大规模语言模型，并依赖于基于ViT架构构建的视觉编码器，如CLIP、ViT-g/14和ViT-B/32。这导致了高昂的计算成本，使这些模型不适合在线场景。尽管有开发轻型自动驾驶车型的趋势，但与大型车型相比，它们的性能仍然不足。

MinDrive方法详解

MiniDrive是自动驾驶领域的一种视觉语言模型，旨在执行视觉问答任务。它通过接收图像和用户指令文本作为输入来生成文本响应。在本节中，我们首先详细介绍MiniDrive的整体框架，然后具体解释每个模块的技术细节和原理，包括视觉编码器、特征工程混合专家（FE-MoE）和动态指令适配器（DI适配器）。

Model Architecture

图2（a）展示了MiniDrive的整体结构。在MiniDrive中，主要有两个分支：视觉和文本。在视觉方面，给定来自车辆的n幅图像作为视觉编码器的输入，每幅图像都接收一组深度2D特征表示。然后，这些特征被输入到FE-MoE中，在那里，多个专家沿着通道维度c压缩信息，并沿着高度h和宽度w维度扩展信息，以生成新的2D特征表示。在FE MoE中，Gate网络确定哪些专家更适合处理每个图像，为每个专家分配不同的权重值。最后，通过加权和来组合新的2D特征表示，以产生新的特征集Vmoe。压扁Vmoe得到V。

在文本侧，通过Tokenizer和Em垫层处理用户在构造中的自然语言，以获得文本T的令牌嵌入。文本T的嵌入序列用作键（k）和值（v），而现阶段的视觉嵌入序列v用作查询（q）。这些被馈送到DI适配器中以计算新的视觉嵌入序列V1，该序列现在结合了来自文本嵌入T的上下文信息，从而能够更好地进行跨模态理解或决策。然后，V1通过残差连接与V组合以形成序列。然后，连接，被用作语言模型的输入。语言模型解码以生成具有最高预测概率的单词序列。整个框架高效地处理多图像输入信息，动态响应用户查询。

Vision Encoder

如图2（b）所示，视觉编码器的骨干网络基于大核神经网络UniRepLKNet（Ding等人，2024），该网络在多种模态上表现出色。它有效地利用了大型内核卷积的特性，无需深入网络层即可实现广泛的接受域。在保持高效计算的同时，它在各种任务中也达到或超过了当前最先进技术的性能。这种通用性和效率使其成为一个强大的模型，在广泛的感知任务中具有潜力。如图3所示，对UniRepLKNet的整体架构进行简要回顾后发现，它主要由多个顺序连接的Stage层组成。每个阶段主要由一系列Lark Block和Smak Block组成。在MiniDrive中，我们使用UniRepLKNet作为视觉网络的骨干，其中输入图像并从最后阶段n获得输出特征图F1。

Feature Engineering Mixture of Experts

在图2（b）中，我们展示了FE-MoE的具体结构，该结构旨在处理来自多幅图像的二维输入特征。每个输入图像对应于视觉编码器输出的特征图F1。为了进一步有效地处理每个图像的2D特征表示，它们被输入到FE-MoE中。首先，门网络使用F1来获得与样本对应的专家选择权重。Gate网络主要由卷积层、最大池化层和线性层组成，如下式所示：

每个专家网络主要由解卷积层、ReLU层和卷积层组成。解卷积层首先执行初始上采样映射，增加特征图宽度和高度的维度以扩展信息量，从而促进后续的映射学习。同时，它减少了原始特征图中的通道数量，以最小化数据冗余并选择最重要的二维特征表示信息，从而显著简化了后续视觉标记的数量。卷积层进一步变换特征，以提高专家的学习能力。公式如下：

在这种情况下，F2表示单个专家的输出。假设图像的第i个专家的权重为Wi，该专家的输出为Fi，专家总数为N，则FE-MoE模型处理后的图像特征Vmoe由以下公式表示：

Dynamic Instruction Adapter

在之前的视觉语言模型中，图像表示在输入语言模型之前是固定的，在进入语言模型进行计算之前，它们对应于各种文本表示。为了使图像表示在输入到语言模型之前能够根据不同的文本表示进行动态转换，从而提高跨模态理解，我们引入了动态指令机制并设计了动态指令适配器。我们使用文本输入序列T作为键（k）和值（v），使用图像输入序列v作为查询（q）。通过交叉注意，我们计算了融合了文本上下文信息的融合序列V。公式如下：

残差通道中的序列通过残差连接与投影层的输出序列连接，作为输入到语言模型之前的视觉表示。附加语言模型输出的培训见附录。

实验结果定量结果

在表1中，我们将MiniDrive的评估结果与之前在测试集上的工作进行了比较，包括EM-VLM4AD和Drive Agent。就指标的整体性能而言，MiniDrive224和MiniDrive384都优于以前的方法，尽管DriveLM Agent在BLEU-4中覆盖了我们，但它的参数计数明显大于我们的，达到3.96B。

计算分析

本节主要比较MiniDrive和一系列现有视觉语言模型在参数计数、浮点运算（FLOP）和内存使用（GB）方面的差异。结果如表2所示。以224的输入图像分辨率为例，MiniDrive在所有三个方面都表现出了卓越的性能。

定性示例

在图4中，我们展示了MiniDrive在三个不同任务中对看不见的样本的实际响应。为了对MiniDrive对多视图图像输入的感知进行可解释性分析，我们分析了MiniDrive在各种场景下的激活图。在图4（a）中，MiniDrive演示了对多个图像输入的感知问答，蓝色框表示用户指令中“左后”位置引用的图像。红色框对应于MiniDrive的响应，主要关注该图像，在指定位置识别“许多汽车、一辆卡车和一名行人”。在图4（b）中，MiniDrive演示了如何为多个图像输入规划问答。根据用户的指令和空间术语“CAM_FRONT”，MiniDrive会聚焦在相应正面图像左侧的红色框上。这种关注与人们在做出规划决策时考虑的因素相一致，包括行车道标记和自我汽车左侧的车辆。在图4（c）中，MiniDrive演示了多个图像输入的预测性问答。根据用户预测“左前”位置行人运动的指令，MiniDrive会关注相应位置图像中的行人，并用红色框突出显示。综上所述，MiniDrive在激活图中关注的对象与人类驾驶员在驾驶过程中遵循的推理一致，表明MiniDrive具有一定程度的可靠性和可解释性。

消融实验

为了验证每个模块的有效性，我们设计了一系列消融实验。在表3中，我们研究了FE-MoE和动态指令适配器（DI适配器）对MiniDrive的影响。当FE-MoE和动态指令适配器分别引入时，各种指标的结果都有所改善，当两个模块同时引入时，效果更好。这表明了模块之间机制的有效性。其他消融实验的详细信息见附录。

进一步分析

尽管MiniDrive被设计为用于接收多图像输入的自动驾驶问答模型，但它从多个图像中提取、压缩和重新学习信息，作为语言模型的文本令牌。然而它仍然可以用于单个图像输入任务。我们将其与CODA-LM上现有的主流开源和闭源通用模型进行了比较，如表4所示。很明显，尽管MiniDrive只有83M个参数，但它表现出了卓越的性能，优于开源模型，接近闭源模型的性能。由于训练数据的分布问题，我们认为这是MiniDrive识别“圆锥体”能力强的主要因素。

结论

本文介绍了MiniDrive，这是一种最先进的自动驾驶轻量级视觉语言模型。我们介绍了FE-MoE和DI-Adapter机制，提出了一种将2D卷积特征映射到语言模型的文本标记中的新方法。我们的模型在DriveLM和CODA-LM两个数据集上取得了出色的结果。未来，我们的目标是开发一个具有视频输入的实时响应模型，以进一步推进自动驾驶技术。

限制

MiniDrive构建了专用于自动驾驶领域的VLM，并在当前的主流基准测试中取得了优异的成绩。然而它仍然缺乏一定程度的泛化能力，我们认为这是由于训练样本的局限性造成的。现有的自动驾驶领域需要更多的公共数据集和开发工作。此外，MiniDrive的培训主要集中在基于指令的数据集上，它仍然会遇到幻觉问题。

#GraspSplats

xx智能再发力！高效抓取，准确性和效率都提升

机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要，并且随着视觉语言模型（VLMs）的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距，现有方法依赖于通过可微渲染或基于点的投影方法的神经场（NeRFs）。然而，我们证明NeRFs由于其隐式性而不适用于场景变化，而基于点的方法在没有基于渲染的优化的情况下，对于部件定位不准确。为了解决这些问题，我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法，GraspSplats在不到60秒的时间内生成高质量的场景表示。我们进一步通过展示GraspSplats中明确且优化的几何形状足以自然支持（1）实时抓取采样和（2）使用点跟踪器的动态和关节物体操作，来验证基于高斯表示的优势。我们在Franka机器人上进行了大量实验，证明GraspSplats在各种任务设置下显著优于现有方法。特别是，GraspSplats优于基于NeRF的方法（如F3RM和LERF-TOGO）以及二维检测方法。

原文链接：https://arxiv.org/pdf/2409.02084

领域背景介绍

基于部件级理解的零样本高效操作对于下游机器人应用至关重要。设想一个被部署到新家庭的厨房机器人：在给定包含语言指令的食谱后，机器人通过把手拉开抽屉，通过手柄抓住工具，然后推回抽屉。为了执行这些任务，机器人必须动态理解部件级的抓取功能，以便与物体进行有效交互。最近的研究工作，通过将大规模预训练视觉模型（如CLIP）的参考特征嵌入到神经辐射场（Neural Radiance Fields, NeRFs）中来探索这种理解。然而，这些方法仅提供目标级别的场景静态理解，并且需要数分钟的时间来训练场景，这导致在场景发生任何变化后都需要进行昂贵的重新训练。这一局限性极大地阻碍了涉及物体位移或需要部件级理解的实际应用。另一方面，基于点的方法，通过对二维特征进行反投影，在特征构建方面效率很高，但在处理视觉遮挡时遇到困难，并且往往无法在没有进一步优化的情况下推断出细粒度的空间关系。

除了动态和部件级的场景理解外，实现精细操作还要求机器人对场景的几何和语义都有深入的理解。为了从粗略的二维视觉特征中获得这种能力，需要进一步的优化来弥合二维到三维的差距。基于NeRF的方法通过可微渲染促进了这种理解。然而，NeRFs从根本上来说是隐式表示，这使得它们难以编辑以适应场景变化，从而导致静态假设。为了解决动态问题，一些工作通常使用三维密集对应关系来预测抓取姿态，其中基于参考状态中的关键点识别出可靠的抓取点，然后将其应用于不同的视角或物体位置。然而，这些方法在跟踪物体状态随时间的变化和处理相同物体方面面临挑战。

为此，本文提出了GraspSplats。给定来自校准相机的带姿态的RGBD帧，GraspSplats通过3DGS（3D Gaussian Splatting，3DGS）构建了一个高保真表示，该表示作为显式高斯椭球体的集合。GraspSplats在不到30秒的时间内重建场景，并支持静态和刚性变换的高效部件级抓取，从而实现了如跟踪部件物体等现有方法无法实现的操作。GraspSplats从深度帧的粗略几何形状初始化高斯分布；同时，使用MobileSAM和MaskCLIP实时计算每个输入视图的参考特征。这些高斯分布通过可微光栅化进一步优化几何、纹理和语义。用户可以提供一个目标名称查询（例如，“杯子”）和部件查询（例如，“手柄”），以便GraspSplats能够高效地预测部件级可抓取性并生成抓取建议。GraspSplats直接使用显式高斯原语在毫秒级内生成抓取建议，为此扩展了现有的抓取生成器。此外，还进一步利用显式表示来在物体位移下保持高质量表示。使用点跟踪器，GraspSplats粗略地编辑场景以捕捉刚性变换，并通过部分场景重建进一步优化它。

本文在一台台式计算机上实现了GraspSplats，并搭配真实的Franka Research (FR3)机器人来评估其在桌面操作中的有效性。GraspSplats中的每个组件都非常高效，并且在经验上比现有工作快一个数量级（10倍）——包括计算二维参考特征、优化三维表示和生成二指抓取建议。这使得在手臂扫描的同时并行生成GraspSplats表示成为可能。在实验中，GraspSplats的性能优于基于NeRF的方法（如F3RM和LERF-TOGO）以及其他基于点的方法。

本文贡献主要有三个方面：

提出了一个使用三维高斯溅射（3DGS）进行抓取表示的框架。GraspSplats高效地重建了具有几何、纹理和语义监督的场景，在准确性和效率方面都优于基线方法，实现了零样本部件级抓取。

开发了一种可编辑的高保真表示技术，该技术超越了静态场景中的零样本操作，进入了动态和关节物体操作领域。

进行了广泛的真实机器人实验，验证了GraspSplats在静态和动态场景中零样本抓取的有效性，展示了方法相对于基于NeRF或基于点的方法的优越性。

#PPAD

用于端到端自动驾驶的预测与规划迭代交互

原标题：PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving

论文链接：https://arxiv.org/pdf/2311.08100

代码链接：https://github.com/zlichen/PPAD

作者单位：HKUST DeepRoute.AI

论文思路：

本文提出了一种用于端到端自动驾驶的新型预测与规划的交互机制，称为PPAD（预测与规划迭代交互自动驾驶）。该机制通过逐时间步的交互更好地整合了预测与规划。自车在每个时间步都基于周围代理（如车辆和行人）的轨迹预测及其局部道路状况进行运动规划。与现有的端到端自动驾驶框架不同，PPAD以自回归方式在每个时间步交错进行预测和规划过程，从而建模自车、代理和动态环境之间的交互，而不是简单地依次进行预测和规划的单一顺序过程。具体而言，本文设计了自车与代理、自车与地图、自车与鸟瞰图（BEV）的交互机制，通过层次化动态关键目标注意力来更好地建模这些交互。在nuScenes基准测试上的实验表明，本文的方法优于当前的先进方法。

主要贡献：

本文提出了PPAD，通过迭代的预测与规划方式优化自车、代理和环境之间的交互。迭代优化能够在规划任务中更好、更自然地建模交互和博弈。预测过程处理更细粒度和复杂的未来不确定性，以进行多代理环境的学习，而规划过程则为自车规划一步的未来轨迹。

本文通过层次化动态关键目标注意力，逐步建模自车、代理、环境和BEV特征图之间的细粒度交互，强调空间局部性。

在nuScenes和Argoverse数据集上进行的实验表明，本文的方法在效果上优于当前的先进方法。

论文设计：

深度学习技术的蓬勃发展为自动驾驶提供了强大的支持，得益于便捷且可解释的离散模块设计，自动驾驶领域已经取得了许多令人振奋的重要里程碑。最近，规划导向的理念在追求更高效的端到端驾驶系统方面引起了业界的共鸣，这也是本研究的重点。

传统的自动驾驶系统方法通常将系统分解为模块化组件，包括定位、感知、跟踪、预测、规划和控制，以实现可解释性和可视性。然而，这种方法存在几个缺点：1）随着系统复杂性的增加，模块之间的误差积累变得更加显著。2）下游任务的性能高度依赖于上游模块，这使得构建统一的数据驱动基础设施非常困难。

最近，端到端自动驾驶由于其简洁性而受到广泛关注。基于学习架构，提出了两种主要的方法。第一种方法直接将原始传感器数据作为输入，不经过任何视图转换来作为场景理解的中间表示，直接输出规划轨迹或控制命令。另一种方法基于鸟瞰图（BEV）表示，充分利用查询生成中间输出，以此作为指导来产生规划结果。其最大的优势之一在于可解释性。在这项工作中，本文遵循了第二种方法的设计。

VAD [23] 和 UniAD [19] 是典型的单步运动规划方法，只考虑了代理、自车与周围环境（如地图元素）之间的单步交互。ThinkTwice [22] 将其扩展为一个两阶段框架，以增强博弈或交互过程。QCNet [56] 和 GameFormer [21] 也重复地建模轨迹预测任务。运动规划作为一个计算问题，需要找到一系列有效轨迹，通常基于周围代理的预测、环境理解以及历史和未来的情境。这也可以被视为一种游戏，其中代理根据其他代理的意图和所遇环境不断规划其下一步行动，通过增量式的动作最终实现其目标。为了在端到端自动驾驶中建模这些预测与规划的动态交互，关键在于通过多步建模来考虑预测轨迹的可能变化，以规划出可行的轨迹。

受VAD [23]的启发，本文旨在将逐步的预测与规划引入一个基于学习的框架。直观上，预测和规划模块可以被建模为一个运动预测任务，即通过给定的历史信息预测未来的路径点。每个时间步的预测和规划模块的结果高度依赖于彼此。因此，本文需要迭代和双向地考虑代理与代理、代理与环境之间的交互，以最大化在给定其他代理观测下代理预测的期望。本文提出了PPAD，通过逐步规划自车的未来轨迹，在一个矢量化学习框架中建模逐时间步的双向交互或博弈，如图1所示。PPAD包括预测和规划过程。对于每个运动预测步骤：

预测过程通过代理与环境之间的交叉注意力和自注意力生成当前步骤的运动状态，以建模细粒度的双向交互。本文考虑了自车-代理-环境-BEV的交互，以在所有交通参与者之间传播特征。
规划过程基于期望过程预测当前步骤的运动轨迹。

图1：本文提出的PPAD框架的高级示意图。蓝色的代理意图直行，而红色的自车计划变道。图1(a)展示了典型的单步方法，由于缺乏深入的交互，可能导致无效的运动规划并引发事故。图1(b)展示了在PPAD架构下自车与代理之间的博弈过程。在预测过程中，代理通过加速执行一个果断的计划，以阻止自车阻挡其路线。自车的规划过程基于代理之前的预测过程来规划轨迹。自车减速以避免潜在事故，然后变道以实现其驾驶目标。

图2：本文提出的自动驾驶框架PPAD的整体架构。它由感知Transformer和迭代预测-规划模块组成。感知Transformer将场景上下文编码为代理查询、地图查询和BEV查询。然后，预测-规划模块交替进行代理运动预测和自车规划的过程N次。在整个迭代的预测和规划过程中，自车、代理、地图元素和BEV特征之间进行深入交互。在预测过程中，代理最初打算直行，并未意识到自车的潜在运动。经过与自车、地图元素和BEV特征的交互后，代理计划果断加速。在随后的规划过程中，自车通过与更新后的代理查询交互，了解到代理将加速。最终，自车计划先减速，然后为安全起见进行变道。

本文在图2中展示了整体框架PPAD，该框架由感知Transformer和本文提出的迭代预测-规划模块组成。感知Transformer将场景上下文编码为BEV特征图，并进一步解码为矢量化的代理和地图表示。迭代预测-规划模块通常包括预测和规划过程，沿时间维度剖析自车与代理之间的动态交互。最终，它预测代理的运动并规划自车的未来轨迹。

图像特征模块使用共享的图像骨干网络（例如，ResNet [15]）来提取不同摄像头视角的图像特征。

BEV特征模块将来自多视角摄像头的语义特征转换为统一的鸟瞰图（BEV）。具体而言，本文继承了BEVFormer [29, 47]的编码器来构建BEV特征。网格状的可学习BEV查询

矢量化特征模块受到VAD [23]范式的启发，本文也通过检测解码头 [29, 58] 和地图元素解码头 [31] 将场景上下文编码为矢量化表示，生成个学习的代理查询和个学习的地图查询。将附加独立的基于MLP的解码器来产生辅助输出，这些解码器以学习到的查询为输入，并预测代理属性（位置、尺寸、类别等）或地图属性（类别和由点描述的地图向量）。此外，代理查询将与可学习的运动嵌入结合，以建模代理的多样化运动。带有运动的代理表示为。类似地，自车被建模为三种模式，代表高层次的驾驶指令：直行、左转和右转，其形式为。

迭代预测-规划模块以交错方式预测自车和代理的未来轨迹。与传统的一次性预测所有轨迹的方法不同，本文的PPAD框架通过迭代代理运动预测和自车规划过程来详细说明每一步的运动规划。得益于PPAD框架，本文可以进行深入设计，以粗到细的方式在场景上下文中强化关键目标的交互（见第3.3节）。本文通过将噪声轨迹作为每一步的预测，并训练PPAD框架在下一个时间步重建其原始位置（见第3.4节），进一步提高自车的驾驶性能。

实验结果：

图3：PPAD的定性结果。图中的绿色框表示自车，红色框表示其他代理。

总结：

本文提出了一种新颖的自动驾驶框架PPAD。不同于以往缺乏深入交互建模的方法，本文将规划问题视为自车与代理之间的多步预测与规划博弈过程。通过PPAD架构，本文提出的层次化动态关键目标注意力被纳入其中，以在每一步学习局部和全局场景上下文，最终规划出更精确的轨迹。在训练过程中，采用了置信度感知的碰撞约束和噪声轨迹，以进一步提高驾驶安全性。总体而言，本文提出的新颖PPAD在现有的先进方法上实现了出色的性能，本文希望PPAD框架能激励业界进行更多探索。

#可提示的闭环交通仿真

英伟达新作

论文链接：https://arxiv.org/pdf/2409.05863
项目主页：https://ariostgx.github.io/ProSim/

摘要

本文介绍了可提示的闭环交通仿真。仿真是安全且高效的自动驾驶开发的基石。仿真系统的核心应该是生成逼真、反应灵敏且可控的交通模式。本文提出了ProSim，这是一种多模态可提示的闭环交通仿真框架。ProSim允许用户给出一组复杂的数值提示、分类提示或者文本提示，以引导每个智能体的行为和意图。然后，ProSim以闭环方式生成交通场景，并且建模每个智能体与其他交通参与者的交互。本文实验表明，ProSim在不同用户提示下实现了较高的提示可控性，同时在Waymo Sim Agents挑战赛（没有给定提示）中达到了具有竞争力的性能。为了支持对可提示交通仿真的研究，本文创建了ProSim-Instruct-520k，这是一种多模态提示-场景配对的驾驶数据集，包含超过520k个现实世界驾驶场景的10M多条文本提示。

主要贡献

本文的贡献为如下三方面：

1）本文引入了ProSim，这是首创的闭环交通仿真框架；

2）本文创建了ProSim-Instruct-520k，这是一种大规模的多模态提示-场景驾驶数据集，它是首个包含丰富语义智能体运动标签和文本说明的驾驶数据集；

3）本文将发布ProSim的代码和检查点以及ProSim-Instruct-520k的数据、基准和标注工具，以促进智能体运动仿真研究。

论文图片和表格

总结

本文提出了ProSim，这是一种多模态可提示的闭环交通仿真框架。在用户给定一组复杂的多模态提示的情况下，ProSim以闭环方式模拟交通场景，同时引导智能体遵循提示。ProSim在不同的复杂用户提示下展现出高度的真实感和可控性。本文还开发了ProSim-Instruct-520k，这是首个多模态提示-场景配对的驾驶数据集，其包含超过520K个场景和10M+条提示。本文相信，ProSim模型和数据集套件将为未来对驾驶场景以内和以外的可提示人类行为仿真进行研究。

局限性：ProSim尚不支持任意的提示。复杂的智能体交互（例如，“<A0>从左车道超车<A1>”）或者更为复杂的模态（例如，提示<A0>使用其前视图像）将作为今后的工作。

#自动驾驶3D占用预测（Occupancy Prediction）算法调研

在自动驾驶感知任务中，传统的3D场景理解方法大多数都集中在3D目标检测上，难以描述任意形状和无限类别的真实世界物体。3D占用网络（Occupancy Network）是特斯拉在2022年提出的一种新型感知网络，这种感知网络借鉴了机器人领域中的占用网格建图的思想，将感知环境以一种简单的形式进行在线3D重建。简单来说，就是将机器人周围的空间划分为一系列网格单元，然后定义哪个单元被占用，哪个单元是空闲的，通过预测3D空间中的占用概率来获得一种简单的3D空间表示，这样就可以更全面地实现3D场景感知。

近期对最近几年自动驾驶领域中的3D占用网络算法（主要是基于纯视觉）和数据集做了一些调研，本文将做一个简单的汇总。

1. 论文和算法

综述论文

《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》

MonoScene

论文：https://arxiv.org/pdf/2112.00726.pdf

代码：https://github.com/cv-rits/MonoScene

数据集：NYUv2（室内），SemanticKITTI

首个单目3D语义占用预测算法，是后续算法的baseline。

TPVFormer

论文：https://arxiv.org/pdf/2302.07817.pdf

代码：https://github.com/wzzheng/TPVFormer

数据集：SemanticKITTI，Panoptic nuScenes

该算法以环视图像为输入，训练过程中以激光雷达的语义标签为真值去学习实现3D占用预测。作者提出了一种三视角（ tri-perspective view，TPV）表示法，能够有效地描述3D场景的细粒度结构。为了将图像特征转换到3D TPV空间，提出了一种基于注意力机制的TPVFormer模型。

SurroundOcc

论文：https://arxiv.org/pdf/2303.09551.pdf

代码：https://github.com/weiyithu/SurroundOcc

数据集：nuScenes，SemanticKITTI

该算法从输入的多个相机的RGB图像中去实现3D语义占用预测，训练时的语义真值是从激光点云的语义信息中产生。

算法流程如下：

根据稀疏的点云语义信息生成稠密的3D占用语义真值过程：

在RTX 3090 GPU上与其他几个算法的推理时间对比：

OccFormer

论文：https://arxiv.org/pdf/2304.05316.pdf

代码：https://github.com/zhangyp15/OccFormer

数据集：SemanticKITTI，Panoptic nuScenes

该算法提出使用一个双路transformer结构用于处理由相机数据生成的3D体素特征，它可以有效地捕获具有局部和全局路径的细粒度细节和场景级布局。

双路transformer结构：

VoxFormer

论文：https://arxiv.org/pdf/2302.12251.pdf

代码：https://github.com/NVlabs/VoxFormer

数据集：SemanticKITTI

算法框架如上图所示，模型支持输入单帧或多帧图像数据。采用MobileStereoNet（可换成其他深度估计网络）做深度估计，占用预测网络采用轻量级的2D CNN网络LMSCNet。该算法的特点是比较轻量级，对小目标的检测效果较好，模型参数较少，训练时需要的GPU显存少于16GB。缺点是远距离性能需要提升，因为远距离深度估计不准确。

OccupancyDETR

论文：https://arxiv.org/pdf/2309.08504.pdf

代码：https://github.com/jypjypjypjyp/OccupancyDETR

数据集：SemanticKITTI

算法框架如上图所示，由一个类似DETR的目标检测网络（Deformable DETR）和3D占用解码器模块组成，用目标检测模块来引导对3D语义占用网格的预测。把目标检测网络输出的bounding box作为位置先验，并利用物体的隐藏特征作为上下文，然后用一个空间transformer解码器用来提取每个目标的3D占用网格。

算法的详细流程如下：

对于一张输入图像，首先采用ResNet50骨干网络提取特征，然后将这些多尺度特征传入一个可变形编码器进行进一步编码。
通过可变形DETR解码器解码固定数量的查询，然后传递给分类、2D框和3D框这三个检测头网络。分类头和2D框头网络的结果是目标检测中的常规结果，根据分类头的输出选择高置信度的结果作为检测到的物体。
这些高置信度物体的3D框（相机坐标系，根据相机外参转到占用网格坐标系）作为每个物体的位置先验，用于在3D占用解码器中提供位置嵌入，并把可变形DETR解码器获得的特征作为上下文，3D占用解码器基于可变形DETR编码器编码的多尺度特征去预测每个物体的3D占用网格。

3D占用解码器的数据流程图如下：

该算法的特点是对小目标的检测性能好，速度快，计算资源消耗少，训练时只需要一个RTX 3090 GPU，缺点是对道路、人行横道这些类别的预测效果不好。

FB-OCC（ CVPR 2023 3D占用预测挑战赛冠军）

论文：https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf

代码：https://github.com/NVlabs/FB-BEV

数据集：nuScenes

算法框架如上图所示，该算法由FB-BEV算法衍生而来。视图变换模块是纯视觉3D感知算法的核心，作者设计了两个视图变换模型：一个前向投影模块（List-Splat-Shoot）和一个反向投影模块（ BEVFormer）。在FB-OCC中，使用前向投影来生成初始的3D体素表示，然后将3D体素表示压缩成一个扁平的BEV特征图。BEV特征图被视为BEV空间内的查询，并与图像编码器特征进行关联，以获取密集的几何信息。最后，将3D体素表示和优化的BEV表示的融合特征输入到后续的任务头中。

除了模型结构，作者还重点对模型预训练技术进行了精心设计。首先在大规模2D目标检测数据集Object 365上对骨干网络进行训练，使得网络具备语义感知能力。接下来，在nuScenes数据集上再对网络进行专注于深度估计的预训练。由于深度预训练缺乏语义级别的监督，为了减轻模型过度偏向深度信息的风险，可能导致丧失语义先验知识（特别是考虑到大规模模型容易出现过拟合的情况），作者同时预测2D语义分割标签以及深度预测任务。

使用2D图像语义标签和深度图真值，作者联合深度估计任务和语义分割任务对模型进行训练。这种预训练任务与最终的占用预测任务密切相关，可以利用深度值和语义标签直接生成3D占用结果。预训练模型作为改进的起点，为后续的占用预测任务训练提供了帮助。

该算法是为参加比赛设计的，所以整体显得有点笨重，训练时设置batch size为32，需要32个A100 GPU进行训练。

BEVDet-Occ

论文：暂无，从BEVDet衍生到Occupancy Prediction任务

代码：https://github.com/HuangJunJie2017/BEVDet

SimpleOccupancy

论文：https://arxiv.org/pdf/2303.10076.pdf

代码：https://github.com/GANWANSHUI/SimpleOccupancy

数据集：DDAD，Nuscenes

该算法采用自监督的方式实现3D占用预测。

SparseOcc

论文：https://arxiv.org/pdf/2312.17118.pdf

代码：https://github.com/MCG-NJU/SparseOcc

数据集：Occ3D-nuScenes

下面两篇文章是对该算法的解读：

https://zhuanlan.zhihu.com/p/709576252

https://zhuanlan.zhihu.com/p/691549750

SelfOcc

论文：https://arxiv.org/pdf/2311.12754.pdf

代码：https://github.com/huang-yh/SelfOcc

项目主页：https://huang-yh.github.io/SelfOcc/

数据集：Occ3D-nuScenes，SemanticKITTI

鉴于之前的方法都需要可靠的3D语义信息来监督学习，但是3D语义真值又很难获取，因此SelfOcc希望仅使用视频序列采用自监督学习的方式来实现3D语义占用预测，以降低模型训练难度。

算法框架如下：

OccNeRF

论文：https://arxiv.org/pdf/2312.09243.pdf

代码：https://github.com/LinShan-Bin/OccNeRF

数据集：Occ3D-nuScenes

该算法采用自监督学习的方式去实现基于多相机数据输入的3D语义占用预测。为了解决无界场景的问题，作者提出参数化占用场，将无限空间缩小到有界体素内；为了利用时间光度损失，作者对参数化坐标进行体素渲染，得到多帧多摄像头深度图。对于语义占用预测，作者采用Grounded-SAM、Grounding DINO来生成2D语义伪标签。

RenderOcc

论文：https://arxiv.org/pdf/2309.09502.pdf

代码：https://github.com/pmj110119/RenderOcc

数据集：nuScenes，SemanticKITTI

该算法从多视图图像中提取NeRF风格的3D体积表示，并使用体积渲染技术来建立2D重建，从而实现从2D语义和深度标签的直接3D监督，减少了对昂贵的3D占用标注的依赖。实验表明，RenderOcc的性能与使用3D标签完全监督的模型相当，突显了这种方法在现实世界应用中的重要性。

算法框架如下图所示：

SGN

论文：https://arxiv.org/pdf/2312.05752.pdf

代码：https://github.com/Jieqianyu/SGN

数据集：SemanticKITTI，SSCBench-KITTI-360

论文提出了一种新型的端到端基于纯视觉的3D占用预测框架，称为Sparse Guidance Network（SGN）。SGN的核心思想是利用几何先验和占用信息，从具有语义和占用意识的种子体素向整个场景扩散语义。与传统方法不同，SGN采用了一种密集-稀疏-密集的设计，并引入了混合引导和有效的体素聚合来加强类内特征的分离和加速语义扩散的收敛。此外，SGN还利用了各向异性卷积来实现灵活的接收场，同时减少计算资源的需求。

FlashOcc

论文：https://arxiv.org/pdf/2311.12058.pdf

代码：https://github.com/Yzichen/FlashOCC

数据集：Occ3D-nuScenes

FlashOcc通过下面两种方法对现有基于体素级3D特征的占用预测任务进行提升：(1) 用2D卷积替换3D卷积; (2) 用通道-高度变换替换从3D卷积得到的占用预测。

FlashOcc专注于以即插即用的方式增强现有模型，它可以分为五个基本模块: (1) 用于提取图像特征的2D图像编码器。(2) 将2D图像特征映射到BEV表征的视图转换模块。(3) 用于提取BEV特征的BEV编码器。(4) 预测每个体素分割标签的占用预测头。(5) 集成历史信息以提高性能的时序融合模块(可选)。

FlashOcc的特点是速度快，计算资源消耗少，方便部署。

POP3D

论文：https://openreview.net/pdf?id=eBXM62SqKY

代码：https://github.com/vobecant/POP3D

FastOcc

论文：https://arxiv.org/pdf/2403.02710.pdf

代码：暂未开源（不开源就挺尴尬的）

数据集：Occ3D-nuScenes

Co-Occ

论文：https://arxiv.org/pdf/2404.04561.pdf

代码：https://github.com/Rorisis/Co-Occ

项目主页：https://rorisis.github.io/Co-Occ_project-page/

数据集：SemanticKITTI、NuScenes

该论文提出一种基于激光-相机数据的多模态3D占用预测算法，算法框架如下：

OccGen

论文：https://arxiv.org/pdf/2404.15014.pdf

代码：（coming soon）

项目主页：https://occgen-ad.github.io/

该论文提出一种noise-to-occupancy的生成式3D占用预测算法。

Cam4DOcc

论文：https://arxiv.org/pdf/2311.17663

代码：https://github.com/haomo-ai/Cam4DOcc

数据集：NuScenes、Lyft

MonoOcc

论文：https://arxiv.org/pdf/2403.08766v1

代码：https://github.com/ucaszyp/MonoOcc

数据集：SemanticKITTI

该论文提出一个单目3D占用预测算法框架，通过一个辅助语义损失作为对框架浅层的监督和一个图像条件交叉注意力模块来改进单目占用预测的效果，另外该算法训练的时候采用蒸馏模块，以低成本将时间信息和更丰富的知识从较大的图像主干网络传输到单目语义占用预测框架中。

HyDRa

论文：https://arxiv.org/pdf/2403.07746

代码：https://github.com/phi-wol/hydra

该论文提出一种基于相机和毫米波雷达的多模态3D感知框架，实现3D目标检测、语义占用预测多任务感知。

PanoOcc

论文：https://arxiv.org/pdf/2306.10013

代码：https://github.com/Robertwyq/PanoOcc

现有的自动驾驶感知任务（如目标检测、道路结构分割、深度估计等）仅关注整体3D场景理解任务的一小部分。这种分治的策略简化了算法开发过程，但却失去了问题的端到端统一解决方案。在本文中，作者通过基于纯视觉的3D全景分割来解决这一限制，旨在实现仅限摄像头的3D场景理解的统一占用表示。为了实现这一目标，作者提出一种名为PanoOcc的新方法，它利用体素查询以由粗到细的方案从多帧和多视角图像中聚合时空信息，将特征学习和场景表示集成到统一的占用表示中。PanoOcc在nuScenes数据集上实现了基于摄像头的语义分割和全景分割的全新最佳结果。此外，该方法还可以轻松扩展到密集占用预测任务中，并在Occ3D基准上表现出色。

GaussianFormer

论文：https://arxiv.org/abs/2405.17429

代码：https://github.com/huang-yh/GaussianFormer （暂时只放出demo）

ViewFormer

论文：https://arxiv.org/pdf/2405.04299

代码：https://github.com/ViewFormerOcc/ViewFormer-Occ

作者还开源了一个可视化工具，可以对点云目标检测、Occ预测结果等进行可视化：https://github.com/xiaoqiang-cheng/Oviz

HTCL

论文：https://arxiv.org/pdf/2407.02077

代码：https://github.com/Arlo0o/HTCL

Panoptic-FlashOcc

论文：https://arxiv.org/pdf/2406.10527v1

代码：https://github.com/Yzichen/FlashOCC

Panoptic-FlashOcc是目前速度和精度最优的全景占用预测网络，它在FlashOcc的基础上实现了全景占用（Panoptic occupancy）。全景占用旨在将实例占用（instance occupancy）和语义占用（semantic occupancy）整合到统一的框架中。

作者解读：https://zhuanlan.zhihu.com/p/709393871

COTR

论文：https://arxiv.org/pdf/2312.01919

代码：https://github.com/NotACracker/COTR.git

2. 数据集

SemanticKITTI

论文：https://arxiv.org/pdf/1904.01416v3.pdf

下载地址：https://opendatalab.com/OpenDataLab/SemanticKITTI

Occ3D

论文：https://arxiv.org/pdf/2304.14365.pdf

下载地址：https://tsinghua-mars-lab.github.io/Occ3D/

该数据集基于Waymo和nuScenes数据集构建了用于3D占用网格预测的数据集Occ3D-Waymo和Occ3D-nuScenes。

OpenOccupancy

论文：https://arxiv.org/pdf/2303.03991.pdf

GitHub：https://github.com/JeffWang987/OpenOccupancy

该数据集基于nuScenes数据集构建。

OpenOcc

论文：https://arxiv.org/pdf/2306.02851.pdf

GitHub：https://github.com/OpenDriveLab/OccNet

该数据集基于nuScenes数据集构建。

SSCBench

论文：https://arxiv.org/pdf/2306.09001.pdf

GitHub：https://github.com/ai4ce/SSCBench

该数据集基于KITTI-360、 nuScenes、Waymo等数据集构建。

OpenScene

GitHub：https://github.com/OpenDriveLab/OpenScene

相比现有数据集，OpenScene具有Occupancy Flow标签:

LightwheelOcc

GitHub: https://github.com/OpenDriveLab/LightwheelOcc

这是一个合成数据集。

3. 参考资料

#奥迪再放大招

跻身智驾顶流？

在国家大力支持以旧换新、以及重磅新车的密集上市之下，今年的“金九银十”，似乎比往年来得更持久一些。

即将开幕的广州车展作为国补的“末班车”，吸引了不少用户的关注。上百个汽车品牌也带来了多达1171台展车，其中还有78台全球首发车型，可见车企们的重视程度。

就在这个节骨眼上，社长嗅到了一个非同寻常的信号：奥迪Q6L e-tron以及即将在广州车展首发的奥迪Q6L Sportback e-tron，很可能搭载华为深度定制的智驾解决方案！

从官方“双激光雷达+视觉融合感知，实现‘无图’L2++级智能驾驶辅助能力”的表述、以及实车的传感器来看，大概率是华为的ADS方案。

那么，为什么奥迪这家百年传统品牌会找到华为合作智驾？如此有噱头的话题，双方为什么又有些“遮遮掩掩、秘而不宣”？

这件事，还要从30多年前说起。

01. 奥迪的“在中国、为中国”

1986年4月份，国内开始要把汽车制造业作为支柱产业。

但在当时的时代背景下，外资品牌势必会对羸弱的本土汽车企业形成降维打击。

壮士断腕地停产中国品牌，通过合资的方式吸收国外的先进技术，成了当时的唯一解。

同年，奥迪从千里之外的德国来到长春，和一汽就奥迪100项目进行研究与谈判。

尽管在德国人眼里，80年代的长春实在有些荒凉。但时任大众汽车董事长的哈恩博士很快意识到，这里有着良好的汽车工业根基，也将会是奥迪进入中国发展的绝佳契机。

为此，奥迪不仅以1000万马克的低价转让了奥迪100生产线，如果双方后续能够继续合作生产高尔夫和捷达，还能再免除1900万元的技术转让费！

甚至奥迪还主动请缨，把一汽已经引进的克莱斯勒488发动机匹配到了奥迪100的车身上，只为了给合作伙伴再省一笔发动机的费用。

随着一系列“诚意换真心”的操作，双方正式开始了长达36年、且依然在延续的甜蜜期。

但有意思的是，和其他合资品牌不同，一汽和奥迪并不是“以市场换技术”的交易关系，而是更像一对并肩作战的朋友。

最能说明奥迪“在中国、为中国”的，是1996年1月份和中方签署的一份奥迪A6（C5）联合研发协议。

研发的核心，正是中方为了满足中国用户对后排腿部空间的需求，所提出的加长。

虽然奥迪方面认为，A6作为大众集团唯一的行政级轿车空间完全够用，但依然对中国用户的需求表达了理解和尊重。

最终历时3年，国产A6相比全球车型实打实地加长了90mm轴距，但造型和性能并没有受到太多影响。收获市场认可的同时，也开创了豪华品牌为中国用户定制车型的先河。

时至今日，加长已经不再是稀罕事。但当时第一批开上新车的车主们，或许很难想象20多年后的中国已经成为首屈一指的汽车大国，产销出口量均已位列全球第一。

这不仅要归功于外资品牌的支持和几代中国汽车人的努力，还有科技时代的悄然来临。

02. 科技大佬，强强联手？

相信有不少小伙伴已经发现了，这几个月新能源渗透率正式突破50%，成了多数人的选择。

但很多人不知道的是，去年L2级智驾的渗透率就已经达到了47.3%，已经下放到了几万块钱的车上；智能互联功能，更是在某些“老旧燃油车”上成了标配！

而到了高端电动车领域，车企们为了给用户提供安全便捷的用车体验，也在高阶智驾领域展开了新一轮的军备竞赛。

这时，大家第一个想到的肯定是在技术上较为领先，表现也最突出的华为了。

在今年大火的端到端算法装车之前，车企们普遍采用的是“规则型”算法。就有点像是解方程，只需要输入数据和规则，就能得出答案。比的就是谁的规则更细致，计算过程更快。

这一阶段，华为的优势在于“让车辆具有上帝视角”的BEV鸟瞰视图，和GOD异形障碍物识别。遇到人类很难反应过来的紧急情况，依然能高效地触发AEB，避免事故发生。

但正因为算法需要完全遵守规则，当遇到不那么规则的路况、比如前方出现障碍车辆、非机动车抢道的时候，规则型算法就有些无能为力了。

端到端算法，刚好能解决这个问题。它的工作原理有些像chatGPT，通过大量的人类司机驾驶视频来训练，试图理解发生了什么、应该如何判断，又应该如何操控车辆。

所以现在华为的智驾，已经能在适应规则的基础之上，开起来和老司机一样丝滑了。

而从奥迪官方公布的信息来看，奥迪Q6L e-tron家族的自适应巡航辅助 Pro 和泊车辅助 Pro，能够拥有道路结构理解、交通规则认知、行车轨迹的精细规控和拟人的决策能力这四项能力。

并且从网上流出的素材来看，遇到障碍物和障碍车辆不会再傻乎乎地等到天荒地老，而是能够绕行；在导航的配合下，也能选择合适的车道通过交叉路口和环岛；甚至能学会在满足交通规则、不影响后车行驶的前提下，完成加速超车变道！

更简单的高速领航辅助、从停车场入口到停车位的全程自动泊入泊出、以及加减速转弯更加丝滑这些“相对基础”的功能，也同样不在话下。

（图片来源网络。但看到这里，怎么感觉这套智驾华里华气的）

不过为了实现这些，奥迪还为这台车打造了“满血版”的硬件方案——

双激光雷达+5个毫米波雷达+11个高清摄像头+12个超声波雷达的硬件，规格甚至比智界R7和问界M9还高，能带来宽阔的视角和精准的识别能力。

嵌入式激光雷达的设计，让车顶不再“长犄角”，也同时满足了设计美学和功能性的统一。

或许只有奥迪+华为的组合，才能把这套顶级硬件发挥到极致，做到类人的智驾体验。

那么，到底奥迪为什么要上这么高阶的智驾？

社长倒是觉得，原因或许写在这句耳熟能详的广告语里：突破科技，启迪未来。

（奥迪德国官网上的品牌标签，翻译过来也是“领先优势源于技术”）

纵观奥迪的百年发展史，无论是标志性的quattro四驱系统、LED大灯/流水式尾灯/矩阵式大灯、全铝车身乃至智能座舱，安全和舒适都是奥迪不懈的追求。

这种对新技术的渴望与驾乘体验的考虑，或许正是奥迪采用高阶智驾的根本原因。

03. 奥迪的智能化时代

然而只有对技术的渴望，还远远不够。就像当年奥迪100能够兼容克莱斯勒488发动机一样，新车的电子电气架构和整车平台，在技术能力上必须能兼容高阶智驾才行。

这时，奥迪对大众集团的资源整合能力，就立了大功。

就比如奥迪Q6L e-tron家族的全新域控E³ 1.2电子电气架构，就是由Cariad负责开发的。

它的“高性能计算平台”HCP采用了5台高性能计算机，分管驱动系统和悬架、智驾系统、座舱的信息和娱乐功能、灯光/空调/座椅等舒适功能、以及联网/数据传输这5个部分，共同构成了全新域控E³ 1.2电子电气架构的中枢神经系统。

因此只需要为负责智驾的HCP2注入代码，对负责驱动的HCP1进行控制，就能无缝衔接全新的智驾功能，未来可以通过OTA进行升级，并且这个架构5年内仍将是第一梯队。

Q6L e-tron家族能够实现“类似人类老司机”的丝滑智驾体验，也离不开奥迪对驱动和电气系统的研发和标定。

举个例子，在其他车辆强行加塞的时候，有些智驾会一脚急刹闷在那，不仅体验不好，也会因为机械刹车介入无法回收能量，变相提升能耗；

但Q6L e-tron家族的全域动能回收能提供220kW的回收功率，覆盖95%的日常工况，甚至是ABS触发后都能回收。提升制动力的同时，也能带来更长的续航。

在起步和刹停的时候，它前后轴之间的动力输出、动能回收和传统机械刹车之间的切换都是由中央车辆动力学域控制器分配的，能够完美执行智驾系统的操作指令，体感上会更舒适。

再加上奥迪和保时捷联合研发的高端纯电平台-PPE平台，保时捷负责开发的车身和悬架，奥迪负责开发的驱动系统和电气系统，Cariad负责开发的整车软件和电子架构，这才有了集百家之所长、机械和智能双优的奥迪Q6L e-tron家族。

04. 写在最后

在不久的将来，车企和科技公司的跨领域合作，很可能会成为新的趋势。这种各取所长的合作方案，必然会为用户带来更加出色的用车体验。

至于这次合作为什么迟迟没有官宣，社长觉得主要有三种可能性。

首先，一汽奥迪的风格更像是踏实做产品，而不是凭营销出圈。没有试驾车可以给用户深度体验之前，不会大肆进行宣传报道。

其次，双方在汽车行业中的地位和影响力并不需要谁蹭谁的流量，“低调行事”才是最优解。

最后还有一种可能，从一汽奥迪的动作来看，智驾体验有可能会带来新的惊喜，也许在等一个合适的契机引爆“王炸事件”。

就是不知道一汽奥迪会不会放下百年品牌的身段，和华为一同举办一场“遥遥领先”的发布会了

#V2X-Radar

强强联手！清华&UCLA&NTU推出V2X-Radar数据集：重新定义车路协同感知边界~

论文标题：V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception
论文地址：https://arxiv.org/pdf/2411.10962
代码仓库：https://github.com/yanglei18/V2X-Radar
数据集主页：http://openmpd.com/column/V2X-Radar

动机与背景

感知是自动驾驶系统的核心环节。尽管已有大量单车感知方法，但遮挡现象和感知范围限制仍导致严重安全隐患。这类问题的本质在于，单车仅能通过单一视角感知环境，无法获取全局信息，从而影响导航决策的可靠性。

近年来，协同感知通过车-路多视角信息共享，成为突破单车感知局限的重要方向。已有研究证明，该技术可有效扩展感知边界并消除遮挡盲区。然而，当前主流协同感知数据集（如OpenV2V、V2X-Sim、DAIR-V2X）存在显著缺陷：仅依赖Camera和LiDAR传感器，忽视了4D Radar的独特价值。4D Radar能够在雨雪雾等恶劣天气中展现出卓越的鲁棒性，这已在K-Radar、Dual-Radar等单车数据集得到验证。但在协同感知领域，4D Radar相关数据集的缺失严重阻碍了相关研究。为此，我们提出了首个融合4D Radar传感器，面向真实场景的大规模协同感知数据集V2X-Radar。其核心贡献包括：

(1) 我们提出了V2X-Radar，首个包含LiDAR/Camera/4D Radar传感器，且面向真实场景的多模态协同感知数据集。数据采集覆盖了不同天气（晴天 / 雨天 / 雾天 / 雪天）和时段（白天 / 黄昏 / 夜间），重点关注对单车自动驾驶极具挑战的复杂路口场景。这些场景包含影响车辆安全的遮挡盲区，为协同感知研究提供了丰富的极端案例。
(2) 数据集总计包含20K帧LiDAR点云、40K帧图像和20K帧4D Radar点云数据，并对包括轿车、卡车、公交车、骑行者和行人在内的5个交通参与者类别进行三维目标框标注，总计标注框高达350K。
(3) 我们分别在V2X-Radar-C协同感知、V2X-Radar-I路侧感知和V2X-Radar-V单车感知三个子数据集上，针对现有算法开展了实验验证，并构建算法基准，以促进该领域的后续研究。

V2X-Radar数据集介绍1. 数据采集系统

数据采集系统由车端平台（图 2 (a)）和路侧单元（图 2 (b)）两部分组成。两者均配备了包括 4D Radar、LiDAR和多视角Camera在内的传感器。采用GPS/IMU惯导系统实现高精度定位，辅助车端平台与路侧单元之间的初始点云配准。同时集成了C-V2X 通信单元以实现无线数据传输。传感器布局配置详见图2，详细规格列于表2。

2. 传感器标定与点云配准

通过传感器标定实现单一车端平台或路侧单元上Camera、LiDAR和 4D Radar传感器间的空间同步。Camera内参标定采用张正友标定法。LiDAR与Camera间的外参标定，以棋盘格为参照，选取100组由LiDAR三维空间点与Camera图像像素对应点构成的点集，通过最小化2D-3D点对应重投影误差求解获得。LiDAR与4D Radar传感器间的外参标定，以金属制角反射器为参照，选取若干组由LiDAR三维空间点与4D Radar 三维空间对应点构成的点集。通过最小化对应点的均方差距离求解获得。传感器标定效果图如图3所示。

对于车端平台与路侧单元之间的LiDAR点云配准，首先基于RTK高精定位实现点云配准初始化，随后通过CBM自动配准算法并结合手动调整优化实现最终配准。点云配准效果可视化如图4所示。

3. 数据采集

我们收集了15小时的协同数据，总计包含540K个帧，涵盖了各种天气状况，如晴天、雨天、雾天和雪天，采集时间跨越白天、黄昏和夜晚（如图8所示）还包括具有挑战性的典型路口场景。从这些数据中手动挑选出最具代表性的40个序列，组成了V2X-Radar-C协同感知子数据集；每个序列时长在10到25秒之间。采集频率为10Hz。在此基础上，额外增加了10个单独车端视角数据序列来创建V2X-Radar-V车端感知子数据集，并额外增加了10个单独路侧视角数据序列来形成V2X -Radar-I路侧感知子数据集。与V2X-Radar-C协同感知数据级相比，V2X-Radar-V和V2X-Radar-I都涵盖了更多种类的场景。经统计，V2X-Radar数据集总计包含20K帧LiDAR点云数据、40K帧Camera图像数据和20K帧4D Radar点云数据。

4. 数据统计

V2X-Radar数据集统计情况如图5所示，其中，图5(a)展示了数据集中白天与夜间场景下五种类别的物体分布情况；图5(b)显示了每个类别3D边界框内激光雷达点云的最大和平均数量；图5(c)展示了不同物体边界框内4D Radar点云密度分布情况。最后，图5（d）显示每帧协同感知数据中的标注框数量可达90个，与KITTI或 nuScenes等车端数据集相比有显著增加，这表明通过车路协同感知可有效提升单车感知对周围场景的感知能力。

任务定义与基准实验

V2X-Radar数据集可分别服务于单端感知任务和车路协同感知任务。

（1）单端3D目标检测任务
单端3D目标检测任务是指单独基于路侧单元或车辆平台上的传感器数据进行 3D目标检测。具体涉及两个不同的任务：基于V2X-Radar-I子数据集进行路侧3D 目标检测，以及基于V2X-Radar-V子数据集进行车端3D目标检测。

单端3D目标检测任务的主要技术难点包括 (i)单模态编码：将Camera图像、LiDAR密集点云以及4DRadar带有多普勒信息的稀疏点云编码为3D空间表示，这对精确的单模态3D目标检测至关重要。(ii)多模态融合：在融合来自不同传感器的多模态信息时，需虑空间对齐、时间对齐和传感器故障等问题。解决这些问题对于实现可靠的多模态 3D 目标检测至关重要。

指标评测采取与KITTI数据集相同的评测方法，分别对基于LiDAR点云数据的方法，如PointPillars、SECOND、CenterPoint 和 PV-RCNN；基于Camera图像数据的方法，如SMOKE、BVDepth、BEVHeight 和 BEVHeight++；以及基于4D Radar稀疏点云数据的方法，如 RDIoU 和 RPFA-Net开展了基准测试，详细指标情况见表3和表4。

（2）车路协同3D目标检测任务
车路协同3D目标检测任务是指同时利用车端平台和路侧单元上的传感器，实现以自车为中心的3D目标检测，旨在解决单车对的遮挡和远距离区域的感知能力不足问题。

车路协同3D目标检测任务的主要技术难点包括 (i) 空间不同步：定位误差会导致车端平台与路侧单元间的相对位姿关系存在偏差，因而将路侧单元坐标系中的数据转换至车端平台坐标系中时，会出现针对同一目标来自于不同平台传感器的点云数据全局偏移问题。(ii)时间不同步：数据传输过程中的通信延迟，会造成单车平台与智能路边单元的传感器数据时间戳不一致。将数据统一到统一坐标系中时，会出现针对统一动态目标的局部不对齐问题。

指标评测采取与V2V4Real、V2X-REAL数据集相同的评测方法，在两种基本配置下进行：(i)同步配置，忽略通信延迟；(ii)异步配置，通过获取带有前一时间戳的路边样本，模拟数据传输延迟。使用在交并比（IoU）阈值为0.5和0.7时的平均精度（AP）评估目标检测性能，通过平均兆字节（AM）计算传输成本。分别针对前融合、特征融合和后融合方法开展性能评测，重点关注特征融合相关方法，分别对F-Cooper、V2X-ViT、CoAlign和HEAL开展基准测试。详细指标情况见表5。

结论与展望

本文提出了首个大规模的、基于真实场景的、且包含4D Radar传感器的多模态协同感知数据集，将之命名为V2X-Radar。旨在推动4D Radar传感器在车路协同感知领域应用。该数据集涵盖了不同时间、天气条件下的复杂路口场景，包含20K 帧LiDAR点云数据、40K帧Camera图像数据和20K帧4D Radar点云数据，针对交通参与者目标对象的三维标注框规模高达350K。为支持多种感知任务研究，数据集被细分为用于协同感知的V2X-Radar-C子数据集、用于路侧感知的V2X-Radar-I子数据集和用于单车感知的V2X-Radar-V子数据集，并对相关感知算法进行了基准测试。目前该数据集主要聚焦于3D目标检测，且在异步协同感知方面采用了固定时延模拟。未来计划扩展任务类型，增加目标跟踪和轨迹预测功能，并在真实的CV2X通信时延下评估性能。

#MiLA

南大&小米最新工作！环视视频生成世界模型新SOTA！MiLA

论文标题：MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
论文链接：https://arxiv.org/abs/2503.15875
项目主页：https://github.com/xiaomi-mlab/mila.github.io

核心创新点：

1. Coarse-to-(Re)fine 分层生成框架

提出两阶段视频生成流程：

Coarse阶段：生成低帧率锚帧（Anchor Frames），作为全局场景结构基准；
Refine阶段：基于锚帧通过插值生成高帧率视频，同时引入联合去噪与校正流（JDC），在插值过程中同步优化锚帧的静态结构保真度与动态物体连续性，有效抑制累积误差与运动失真。

2. 联合去噪与校正流（Joint Denoising and Correcting Flow, JDC）

通过噪声分解与重参数化技术，将锚帧噪声建模为结构化噪声（静态背景误差）与随机噪声（动态物体失真）的混合分布；
设计动态噪声调度策略，联合优化低帧率锚帧的校正与高帧率插值帧的平滑性，显著提升长视频的动态连贯性。

3. 时序渐进去噪调度器（Temporal Progressive Denoising Scheduler, TPD）

提出基于余弦退火函数的非均匀去噪策略，对时间邻近帧施加强时序依赖约束，优先去噪靠近条件帧的片段；
通过“快-慢”模式优化去噪轨迹，早期帧快速收敛以提供上下文，后期帧精细化调整，最终实现全序列同步高质量生成。

4. 多模态融合与多视角对齐机制

集成相机参数、路径点（Waypoints）与文本描述等多模态条件，通过傅里叶嵌入与MLP实现跨模态特征融合；
设计多视图增强空间注意力，扩展DiT模块的跨视图感受野，确保多视角视频的空间对齐与几何一致性。

BadToken

论文标题：BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
论文链接：https://arxiv.org/abs/2503.16023

核心创新点：

1. 双模式后门行为定义

Token-substitution ：通过替换输出序列中的特定源词元（如"red"→"green"），实现语义翻转的隐蔽攻击
Token-addition ：在输出尾部注入预设恶意词元序列（如恶意URL），保持语义完整性的同时嵌入有害信息

2. 优化目标建模

提出有效性损失（Lbd）与效用损失（Lcl）的联合优化框架，平衡攻击成功率与模型性能保持
引入嵌入损失（Lemb）约束视觉编码器，通过教师模型蒸馏保持多模态对齐特性

3. 跨任务泛化性

在图像描述、视觉问答等任务中验证攻击有效性（ASR>95%），且能规避现有防御（如输入净化、微调）
在自动驾驶（交通灯状态篡改）和医疗诊断（恶意用药建议注入）场景中验证实际威胁

4. 隐蔽性增强机制

通过触发器与目标词元的细粒度关联，实现仅修改关键词元的高隐蔽攻击（ATS>0.75）
支持多目标攻击（同时嵌入多个触发器-目标词元对）

AutoDrive-QA- Automated Generation

论文标题：AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
论文链接：https://arxiv.org/abs/2503.15778

核心创新点：

1. 统一结构化评估框架的构建

提出AutoDrive-QA基准测试，通过整合多源异构数据集（DriveLM、NuScenes-QA、LingoQA），首次系统覆盖自动驾驶三大核心任务——感知（Perception）、预测（Prediction）和规划（Planning），并标准化问答格式，解决了现有评估体系碎片化的问题。

2. 领域导向的干扰项自动生成技术

基于大型视觉语言模型（VLMs）设计自动化流水线，结合驾驶领域错误模式（如传感器误判、逻辑不一致、领域概念误解等），生成高真实性干扰项（Distractors）。与传统方法相比，该方法通过任务特定错误建模（Task-Specific Error Modeling）显著提升干扰项的语义相关性与挑战性，减少因干扰项过于简单导致的评估偏差。

3. 零样本性能评估与细粒度错误分析

在零样本（Zero-Shot）设置下，验证多模型（如GPT-4V、Qwen2-VL系列）的性能边界。实验表明，模型在感知任务（平均74.94%）表现最优，预测任务（65.33%）挑战最大。进一步通过干扰项选择追踪，量化错误类型分布（如感知任务中45.74%为领域概念错误），揭示模型在视觉理解、逻辑推理等维度的薄弱环节。

4. 可扩展的评估方法论创新

提出多智能体协同过滤机制，结合生成-评估-优化循环，确保生成的多选题（MCQ）满足单正确解、无冗余干扰项等约束条件，同时支持大规模数据集的高效转换（如处理超50万QA对），为自动驾驶模型的迭代与跨数据集泛化提供标准化工具。

GASP

论文标题：GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
论文链接：https://arxiv.org/abs/2503.15672
项目主页：https://research.zenseact.com/publications/gasp/

核心创新点：

1. 几何-语义联合预训练框架

提出统一的4D时空表征学习范式，通过三个协同任务实现多模态特征融合：

几何占用预测：建模动态场景的连续4D占用场（3D空间+时间），捕捉环境结构演变
语义特征蒸馏：预测DINOv2视觉基础模型的高层语义特征，注入语义先验
自车路径预测：通过隐式 ego-path occupancy 建模车辆可行空间，增强运动理解

2. 时空连续场表示

突破传统离散化预测局限，采用隐式神经场（Implicit Neural Fields）表征时空连续的几何-语义信息，支持任意时空坐标（x,y,z,t）的查询，提升动态场景泛化能力。

3. 多源自监督信号融合

创新性整合三类自监督信号：
LiDAR射线几何约束（含缺失射线负样本挖掘）
图像语义特征蒸馏（基于位置编码去噪的DINOv2特征）
自车运动轨迹先验（多模态路径概率场建模）

4. 数据增强策略

提出旋转增强（±20°随机旋转）消除方向偏置，结合缺失LiDAR射线推理提升几何表征鲁棒性，在Argoverse2等数据集实现语义占用预测（↑15.5mAP）、在线建图（↑5.8mIoU）等下游任务的显著提升。

数据驱动方法在全自动驾驶系统中展现出显著优势，但构建鲁棒性系统需收集长尾和稀有场景数据，这需要持续投入大量设备与人力资源。为此，世界模型应运而生，其通过处理历史观测数据和人类指令生成场景表征，可合成一致的序列数据，有效解决分布外（out-of-distribution）挑战。

近年来，结合规划信号生成高质量视频的世界模型框架取得显著进展，但长期视频生成仍面临两大挑战：

误差累积问题：理想情况下需同时生成所有帧，但计算资源与内存需求过高。现有方法多采用分批次生成策略，基于先前生成帧递归预测新帧，导致长期视频中静态背景与动态物体质量下降。
场景一致性维持：仅依赖初始时刻的条件帧和场景描述时，首帧的控制力随时间衰减，导致后续帧场景退化与连贯性丢失。尽管现有工作尝试引入额外控制信号（如高精地图、3D框），但如何在无额外信号下保持时空一致性仍待探索。

为此，我们提出MiLA——基于潜在扩散模型（Latent Diffusion Models, LDM）的鲁棒视频生成框架，仅依赖简单场景描述或路径点（waypoints）控制信号，生成长期高保真视频（图1对比了MiLA与Vista的生成效果）。具体而言，MiLA采用分治生成框架（Divide-and-Conquer）：

粗生成阶段（Coarse）：生成低帧率锚定帧（low FPS anchor frames）；
精修正阶段（Re(fine)）：通过插值模型生成高帧率视频，同时修正锚定帧伪影。

进一步地，我们提出：

联合去噪与修正流（JDC）：同步优化锚定帧与插值帧，解决动态物体失真问题；
时间渐进去噪调度器（TPD）：增强时间信息传递，提升视频整体保真度。主要贡献如下：
提出MiLA框架，通过粗到精流程生成长达1分钟的高保真驾驶场景视频；
设计JDC模块修正锚定帧伪影，并通过TPD模块优化时间一致性；
在nuScenes数据集上验证MiLA在长短期视频生成任务中均达到SOTA性能。

相关工作回顾

世界模型

世界模型是指能够学习模拟环境并预测其动态变化的生成模型，使得在模拟空间中训练智能体成为可能。这类模型广泛应用于游戏仿真、xxx体以及自动驾驶场景。在自动驾驶领域，世界模型通常根据预测形式分为两类：

3D场景表征预测：Vidar和LidarDM通过预测未来激光雷达点云来推断几何信息；其他工作则基于未来占用状态（occupancy prediction）构建世界模型。
RGB视频生成：由于数据可扩展性和易获取性，基于视觉的世界模型范式更受关注。DriveDreamer及其扩展工作利用高精地图、3D边界框和初始参考帧预测未来状态；ADriver-I通过自回归生成策略结合路径点预测模块；Vista提出了高分辨率长期生成框架，但仍在长视频保真度上存在局限。

长期视频生成

现有长期视频生成方法可分为两类（图2）：

自回归生成范式：通过递归生成新批次帧，但误差累积问题未被有效解决。近期工作提出异步扩散流程，将批次生成分解为逐帧生成，但未根本解决误差传播。
分治生成范式：通过锚定帧生成与插值分离的策略提升效率。Nuwa-XL改进模型结构以增强性能；近期研究探索异步时序采样策略，但未解决锚定帧伪影问题。

关键挑战：锚定帧的稀疏性导致时序依赖减弱，表现为动态物体运动不稳定与视频平滑性下降（图5）。现有方法未充分关注锚定帧伪影对整体质量的影响，这为长期视频生成带来潜在瓶颈。

方法详解

模型概述

我们采用基于DiT（的视频生成模型Open-Sora作为MiLA的主干架构。如图3所示，MiLA基于输入的参考帧生成多视角未来帧，其中V、N、S分别表示视角数量、条件帧数和总噪声帧数。

灵活的条件嵌入
为通过路径点和相机参数引导生成，我们使用傅里叶嵌入（Fourier embedding）结合多层感知机（MLP）将条件参数编码为嵌入向量。具体而言，将相机参数与路径点集合与帧嵌入h_f融合：

多视角增强空间注意力
通过扩展DiT块的空间感受野以包含所有视角的图像块，实现多视角对齐生成：

其中Q、K、V为输入帧嵌入的投影结果，维度为。

预备知识：修正流（Rectified Flow）
修正流是一种基于常微分方程（ODE）的分布迁移方法，通过插值中间状态实现从初始分布x₀到目标分布x₁的转换：

在扩散模型中，x₀通常为高斯噪声（x₀~N(0,1)），公式可简化为：

通过预测速度场v(xₜ, t)，最终目标可通过积分得到：

长期视频生成框架

图3展示了MiLA的“粗到精（修正）”生成流程：

粗生成阶段：采用分治策略生成低帧率锚定帧（low FPS anchor frames）。
精修正阶段：通过递归策略结合前一步的高帧率帧（high FPS）和锚定帧，插值生成完整视频。
此设计增强了运动动态捕捉能力，同时修正锚定帧的伪影。

联合去噪与修正流（JDC）

分治框架依赖锚定帧保证结构一致性，但稀疏的时序分布会导致动态物体运动不稳定。为此，我们提出联合去噪与修正流模块，同步优化锚定帧与插值帧：

噪声分解：将锚定帧噪声分解为结构化与随机分量：

噪声添加：向预测锚定帧添加混合噪声：

通过推导噪声方差σ²（公式11），确保噪声分布符合标准扩散模型假设。

时间渐进去噪调度器（TPD）

为了提高整体视频的保真度，我们设计了一个特定的去噪调度器。我们的关键见解如图7b所示。通过单个去噪步骤，更接近条件帧的帧往往具有更好的保真度。这种现象提出了一个有趣的假设，是否有可能用更少的步骤预测更早的帧？基于这一假设，我们可以很容易地提出另一个假设。先前帧的更快揭示是否为后续帧提供了更详细的信息，从而提高了后续帧的生成质量。

为了正确利用这些观测值，我们设计了一个函数，将所有噪声帧集合的噪声时间帧索引s∈s和去噪时间戳t作为变量，并计算去噪调度系数。该功能应满足以下要求：

一个去噪批次内的所有帧必须同时达到最终的去噪状态。
早期帧在最初的几个步骤中会进行更大规模的降噪处理，并迅速达到几乎降噪的状态。
尾部帧的去噪调度程序应遵循慢-快模式，在最后几个步骤中，其规模将显著提高。

其中s为归一化的时序索引（公式14），通过余弦函数实现非线性调度（图4b）。

损失函数

训练目标为最小化预测速度场v与真实流场y的差异：

其中m_s为锚定帧噪声掩码，y为真实帧与噪声帧的差异向量。

实验结果分析

实验设置

数据集与评估指标
所有实验均在nuScenes数据集上进行，该数据集包含700个训练场景和150个验证场景，场景覆盖波士顿和新加坡的驾驶环境，每个场景约20秒，包含360度高分辨率图像。
评估指标采用Frechet初始距离（FID）和Frechet视频距离（FVD），数值越低表示生成质量越优。为全面评估多视角生成效果，扩展以下指标：

FIDfront/FVDfront：评估前视图视频质量；
FIDt0–t1s/FVDt0–t1s：评估从t₀到t₁秒时间段内的前视图生成质量。
特征提取分别采用预训练的Inception-v3网络（输出2048维特征）和I3D网络。

评估结果

定性分析
图6展示了MiLA生成的多视角驾驶场景视频效果。与Vista相比，MiLA在细节保真度（如白色货车轮廓）和时空一致性上显著提升。放大视图（图6a）进一步验证了MiLA对动态物体的建模能力。

定量分析
表1对比了MiLA与其他方法在nuScenes验证集上的性能：

多视角生成：MiLA的FIDmulti为3.0，FVDmulti为18.2，优于次优方法DriveDreamer-2（FIDmulti 4.9，FVDmulti 36.3）；
长视频生成（表2）：在8–10秒区间，MiLA的FIDfront为42.6，显著低于Vista（71.0）。

长视频生成对比
图5对比了不同生成框架的效果：

递归框架（Recurrent）：长期生成中背景与动态物体质量下降；
分治框架（Divide-and-Conquer）：锚定帧伪影导致运动不连贯；
MiLA：通过修正流与渐进去噪，在保持结构一致性的同时提升动态流畅性。

消融实验

模块有效性验证（表4）

JDC模块：引入后FIDfront从9.1降至8.0，FVDfront从81.3降至63.6；
TPD调度器：进一步将FIDfront优化至5.5，FVDfront降至38.1。

噪声参数影响（图7）

α₁（锚定帧噪声比例）：过高（α₁=0.8）导致结构失真，过低（α₁=0.2）修正效果不足，α₁=0.5为最优；
α₂（插值帧噪声比例）：与α₁协同调整，平衡伪影抑制与动态保真度。

TPD调度器效果（表3）

不同帧率：生成12帧（12fps）时，TPD使FIDfront从9.1降至8.0；
长视频扩展：生成24帧时，TPD将FVDmulti从45.6优化至36.3。

结论

在本文中，我们提出了MiLA——一种基于世界模型框架的驾驶场景视频生成方法，能够根据先前帧和未来路径点生成视频。为实现这一目标，我们提出了一种粗到精（修正）框架：首先生成低帧率锚定帧，随后通过插值生成高帧率帧并联合修正锚定帧。此外，我们设计了联合去噪与修正流（JDC）和时间渐进去噪调度器（TPD）模块以增强时间一致性。实验表明，MiLA在长期高保真视频生成任务中达到最先进性能。最后，我们希望MiLA能为从业者在长期高保真世界模型领域提供启发。

#面向主动探索的可信xx问答

近日，中山大学HCP-Lab联合鹏城实验室、香港科技大学提出面向主动探索的可信xx问答数据基准EXPRESS-Bench，支持智能体主动探索，并针对现有xx问答数据集中存在的关键问题（如答案模糊性）进行了优化，以提升任务执行的可靠性和评估的准确性。

作者：Kaixuan Jiang1, Yang Liu1, Weixing Chen1, Jingzhou Luo1, Ziliang Chen2, Ling Pan3, Guanbin Li1,2, Liang Lin1,2
单位：1中山大学，2鹏城实验室，3香港科技大学
项目主页：https://hcplab-sysu.github.io/EXPRESS-Bench/
论文地址：https://arxiv.org/pdf/2503.11117

背景

xx问答（Embodied Question Answering, EQA）是xx智能领域的一项前沿研究任务，要求xx智能体在三维环境中自主导航、探索并收集视觉信息，以回答有关场景的问题。与传统的问答系统依赖静态图像或预定义知识库不同，EQA 需要智能体进行顺序决策，通过主动探索动态获取关键信息，从而生成答案。因此，传统的 QA 方法难以适用于 EQA，因为它们缺乏对动态环境、多步骤推理以及xx导航的建模能力。这种感知、推理和行动的独特组合使 EQA 成为一个引人注目但又具有挑战性的问题，对机器人、虚拟助手和自动导航等现实世界的应用具有重要意义。

然而，现有xx问答任务仍存在诸多问题，包括：

智能体利用虚假相关性生成答案，而非真正推理，导致回答的可靠性不足；
问题设计的模糊性和场景复杂性使得答案的唯一性难以保证；
现有指标无法评估答案的可信度，并且难以有效检测模型幻觉。

将 EXPRESS-Bench 与其他 EQA 基准进行比较。自上而下的地图中的橙色轨迹显示了来自 EXPRESS-Bench 的一个完整探索路径，关键路径点处的观察图像展示在右上角。此路径对应的相关数据如橙色框所示。蓝色轨迹模拟 OpenEQA 的情景记忆，它经过目标附近但并未在那里结束。黄色框模拟了 HM-EQA 中如何生成多项选择数据，它没有提供相应的探索路径。对于每个问题，agent的答案都基于终止位置处的视觉观察，并根据每个数据集的评估方法进行评分。与 HM-EQA 和 OpenEQA 可能根据答案相似性给出更高的分数不同，EXPRESS-Bench 会根据agent的观察结果调整不正确或捏造的答案的分数。

主要贡献

推出了 EXPRESS-Bench，这是一个高质量、大规模的 EQA 基准，支持主动探索，解决了现有数据集存在的答案模糊性问题，并减少了对静态先验知识的依赖。
提出了混合探索框架 Fine-EQA，结合粗粒度边界探索和细粒度目标导向探索，提升了导航效率，实现对任务相关区域的精细探索，建立了 EQA 任务新的基线。
引入了探索答案一致性指标EAC，同时评估答案的正确性和可靠性，比传统指标更加严格地衡量模型性能。

基准

与视觉问答数据集相比，EQA 数据集是在三维空间中构建的，包含静态场景描述和动态交互，因此其构建是一项更具挑战性的任务。并且，3D 环境的复杂性往往会导致答案不唯一，使得模型评估具有挑战性。此外，现有数据集很少支持主动探索。针对以上几个方面，我们提出了一个探索感知的 EQA 基准EXPRESS-Bench，它通过以下方式进行构建：

1）轨迹生成阶段：

在场景中随机选取可导航的起始位置与目标位置，生成从起点到目标点的最短路径，并记录每一步智能体的坐标、方向及视觉观测信息。鉴于模拟环境的规模很大，将初始位置和目标位置限制在同一楼层。
以第一人称视角记录完整探索过程，并生成轨迹视频。

2）问答对生成阶段：

在目标位置，结合视觉观察和示例问答对，将数据输入多模态大模型，由其生成日常家庭场景中自然对话风格的问题与答案。
采用开放式答案，避免数据偏差，提高模型推理能力。

3）数据筛选阶段：

手动筛选问题，确保所有问题的答案唯一且与场景高度相关。
必要时，指定问题的相关区域。

EXPRESS-Bench的构建过程。

最终，EXPRESS-Bench 包含 777 条轨迹和2,044 组问答数据，覆盖七类问题：状态、知识、位置、属性、计数、存在和对象。

EXPRESS-Bench 数据统计。

与现有EQA基准的对比。

模型Fine-EQA

agent 最初使用基于边界的策略进行粗粒度探索，然后在确定与任务相关的区域后切换到面向目标的细粒度探索。区域内的最大探索次数可防止过度搜索，促使agent返回基于边界的探索或聚焦次相关的区域。在此过程中，VLMs 不断评估所获取信息的相关性和完整性，指导agent决定继续探索还是根据最新的视觉输入生成答案。

在探索过程中，agent使用 3D 体素图维护整体的环境表示，该图投影到 2D 平面图以跟踪探索状态和空间占用情况。

全局语义图指导基于边界的探索

在每个时间步，agent 将其当前的 RGB 观测投影到2D 平面图上，并应用最远点采样来识别最大化空间覆盖的可导航点。这些采样点P被反向投影到原始 RGB 图像上，结合局部与全局语义值对全局语义图进行更新。
根据2D平面图判断边界点并进行聚类以获得候选边界点。每个候选边界点根据其语义值、探索方向上的探索率、占用率和与当前位置的距离赋予相应的权重，作为概率从中随机选择一个作为下一个探索的位置。

功能区域语义图引导任务相关区域内的深入探索

利用 LLMs 解析问题，确定相关区域并进行优先级排序。
根据agent的视觉观察，结合 VLMs 对区域类型和区域内点的置信度更新功能区域语义图。当 agent 识别到任务相关区域时，基于功能区域语义图对全局语义图进行掩蔽操作，使智能体优先探索任务相关区域。为了防止重复探索，先前访问过的位置在语义图内会获得较低的语义值。

评估指标

探索答案一致性指标。

正确性分数和接地性分数由VLMs给出：

其中，是给定的问题，是正确答案，是模型的响应，是 agent 终止位置处第一人称视角下的视觉观察。最终答案的分数计算为*。

模型响应正确性：

表示不考虑答案接地性的C

任务完成效率：

其中，N是问题总数，表示 agent 沿着足以完成任务的路径导航的距离（数据生成时记录的最短导航距离），是代理在探索期间移动的实际距离。

与目标位置的测地距离

其中，是终止探索位置，是目标位置。

实验分析

我们在 EXPRESS-Bench 上对各种模型进行广泛的评估。

EXPRESS-Bench 上模型的性能比较。

被动观察的环境信息未能给模型带来较大的性能提升；
具有主动探索能力的智能体表现出增强的环境感知能力，并且表现优于几乎所有非探索性模型；
Fine-EQA 在各种指标上都表现良好；
现有模型与人类表现相比仍然存在显著差距。

#ORION

基于VLM引导动作生成的端到端框架~

论文链接：https://arxiv.org/pdf/2503.19755

项目主页：https://xiaomi-mlab.github.io/Orion/

摘要

本文介绍了ORION：基于视觉语言引导行为生成的整体端到端自动驾驶框架。由于端到端（E2E）自动驾驶方法的因果推理能力有限，它在交互式闭环评估中仍然难以做出正确决策。当前的方法试图利用视觉语言模型（VLMs）的强大理解和推理能力来解决这一困境。然而，由于语义推理空间和行为空间中的纯数值轨迹输出之间存在差距，很少有用于E2E方法的VLMs在闭环评估中表现良好。为了解决这个问题，本文提出了ORION，这是一种基于视觉语言引导行为生成的全面E2E自动驾驶框架。ORION独特地结合了聚合长期历史上下文的QT-Former、用于驾驶场景推理的大型语言模型（LLM）和用于精确轨迹预测的生成规划器。ORION进一步对齐了推理空间和行为空间，为视觉问答（VQA）和规划任务实现统一的E2E优化。本文方法在具有挑战性的Bench2Drive数据集上实现了令人印象深刻的闭环性能，驾驶得分（DS）为77.74和成功率（SR）为54.62%，这比最先进的（SOTA）方法高出14.28的DS和19.61%的SR。

主要贡献

本文的贡献为如下三方面：

1）本文提出了ORION，这是一种基于视觉语言引导行为生成的全面E2E自动驾驶框架。得益于生成模型能够表征数据的潜在分布，本文通过生成规划器弥补了VLM的推理空间和轨迹的行为空间之间的差距，使VLM能够理解场景并且引导轨迹生成；

2）ORION中的QT-former有效地捕获了长期时间依赖性，使得模型能够将时间视觉上下文集成到推理和行为空间中；

3）ORION在Bench2Drive闭环基准上表现出色。实验结果还表明，ORION与各种生成模型兼容，这进一步证明了所提出框架的灵活性。

论文图片和表格

总结

本文主要着重于端到端自动驾驶的VLM方法在将VLM的推理空间与用于规划的纯数值行为空间对齐方面所面临的挑战。因此，现有方法同时分析驾驶场景并且输出高质量多模态预测轨迹并非易事。为了解决这个问题，本文提出了ORION，这是一种通过视觉语言引导行为生成的整体端到端自动驾驶框架。本文通过利用生成规划器并且结合长期视觉上下文，有效地连接了视觉-推理-行为空间。大量实验验证了所提出框架的灵活性和优越性，结果表明，ORION在闭环规划评估方面取得了显著改进，其超越了SOTA方法。

局限性：尽管ORION在Bench2Drive的闭环仿真环境中表现良好，但是它受到实时驾驶场景中可扩展VLM的高计算复杂度限制。未来，本文将通过模型压缩和剪枝等技术来降低ORION的复杂度，从而使得模型能够实现实时自动驾驶。

#小米汽车亏损62亿，雷军长舒一口气~

小米的上限仍是个谜。。。雷军和他的小米又刷屏了。

上一次获得如此高关注度，还是上一次，这位互联网顶流的一举一动如今都是谈资。

一向对财务数据敬而远之的雷军，罕见用“史上最强”为小米集团年报庆贺。

图源：微博@雷军

2024年全年，总收入达到3659亿元，创历史新高，同比增长35.0%。

这背后是一个全面开花的商业版图，智能手机业务、IoT与生活消费产品业务、互联网服务收入、智能电动汽车等，集体迸发撑起了小米集团这个庞大体量。

小米汽车无疑是其中最大的亮点，雷军昨日发微博称“交付了第20万辆小米汽车”，为一对新婚夫妻车主送上祝福，还补充了一句“首发不到一年时间”。

的确，短短一年小米汽车带给雷军以及整个车圈太多惊喜，而这还只是开始，没人知道这个初出茅庐的新生代上限在哪！

不过有一点值得关注，财报显示电动汽车等创新业务经调整净亏损62亿，按136854台的全年交付量计算，相当于每台车亏损4.5万元。

难怪无数网友怒赞雷军是在做慈善，还不断向其投注新的产品期待，当年那一句“交个朋友”的含金量还在不断上升。

前些日子，伴随着小米汽车的强势表现小米股价随之上涨，媒体擅自为雷军冠以首富的头衔，但后者连连否认，如今财报强势亮相，网友直接宣布，稳了！雷总首富稳了！

3月18日，小米集团股价以57.65港元/股报收，最新市值为1.45万亿港元。

展开来看小米的财报，第四季度尤为亮眼，是首次单季度营收过千亿，净利润83亿也创历史新高，远超机构预估的52亿。

支撑小米盈利的主要是这几个业务：

首先是基本盘，手机，主打性价比的红米以及闯入高端市场的小米Ultra系列，销量十分坚挺，出货量已经连续十几个季度稳居全球第三，这一块贡献了21.8%的增长。

考虑到折叠屏市场以及AI元素的迭代，这一领域仍有不俗的增长空间。

其次是生活消费产品业务，包括小家电、空调冰箱洗衣机、手环等，主打的就是一个通过性价比整顿行业，让友商无路可走。

图源：微博@雷军

值得一提的是空调业务，2024年排名中国空调市场第四，卢伟冰前些日子在微博展望：米家空调全年公开市场销量目标第3，未来5年成为数一数二的空调品牌。

我想友商心中是崩溃的，一个跨行业的小米能把传统制造大厂卷到如此高度，从这个角度来看格力专卖店改名董明珠健康家是不是合理了许多，不做战略升级、不主动求变，未来会更加艰难。

尤其现在汽车业务的出现，补齐了小米人车家全生态的最后一块拼图，这个护城河的建立往后只会越来越坚固，还能见缝插针吸收其他品牌的消费者过来，这方面小米眼馋的，还是苹果那帮用户。

不得不提一下贾跃亭，早些年就构建了宏大的生态圈构想，可惜只停留在了想。

如果你问小米业绩已经至山巅了吗？我想还远未达到，因为小米最宝贵的财富雷军，目前开发程度可能还不足50%。

就拿最近卫生巾品牌暴雷来说，网友更关注的是雷军何时出手，评论区里“雷总，求求了，咱们做卫生巾吧”的呐喊此起彼伏，仿佛泼天富贵在求着其接手。

这一幕咱们并不陌生，之前的拍立得就从畅想走向了现实，而且上市直接售罄，长期一机难求。

甚至于前些日子雷军身穿的皮衣、慢跑鞋，都因为这个男人成为了最新时尚单品，其路人缘和带货能力可见一斑。

值得探究的还有那个“不争气的孩子”——小米汽车。

以后来者的视角来看，小米造车的确是一次豪赌，且没有退路。

途中还历经有同样野心的苹果倒在了造车路上，我想彼时雷军的心中是颤抖的，好在小米汽车依托庞大的用户基础、技术与供应链整合、长期坚守的用户思维以及生态协同，走出了一条专属于自身的发展之路。

年报显示，2024年，小米SU7系列交付量达136854辆，同时将扩充产能，保障交付，全力冲刺2025年小米汽车交付35万台的目标。

图源：微博@雷军

不过很多人关注的重点是为什么小米汽车卖一辆亏4.5万？

其实，亏损称得上是新势力的“入场券”，目前来看，实现盈利的也就理想、问界、零跑这几家。

经常关注车圈的朋友不会陌生，车企们时常一边更新“史上最强”、“高歌猛进”的财报，一边又擦鼻涕抹泪，痛诉当下亏了多少钱，貌似人人都难逃“亏钱卖车”。

小鹏去年的那句誓言令人记忆深刻：在血海中游泳，一直游到海水变蓝！

简单归纳这个问题，首先是前期巨大的研发投入，涵盖三电系统、智能驾驶、芯片以及基础设施等领域，这些能够弯道超车传统车企的地方，全是真金白银砸出来的。

图源：微博@雷军

而且最要命的是，一旦上道车门焊死没有下车的机会，前期的量变都是为了最终的质变做准备，但质变何时来，谁也说不准。

以蔚来为例，最近几年销量端不见起色，但年研发投入从几十亿增长到百亿，一直在硬撑。

而且就算销量猛增，还得考虑毛利率问题。

尤其现在车圈进入淘汰赛阶段，各个品牌都在想方设法压低价格，行业价格战让每一个车企都无法独善其身，只能削尖脑袋跟上大流。

不过小米汽车是幸运的，上市即卖爆的成绩使得其少了许多后顾之忧，获得了消费市场和资本市场的认可，资金链就有了保障，跳过了生存危机考验。

而且其通过低价高配的策略以及雷军的个人IP效应，迅速建立起高端化品牌形象，极大地拓宽了小米汽车未来的发展空间。

接下来要做的，就是如何平衡爆款策略与长期技术沉淀，将“幸运”转化为行业领先的可持续优势。

在很多场合，雷军都谈到了顺势而为的商业哲学，最经典的当属在书中提到的那句：仅靠聪明和勤奋是远远不够的，关键是要找到时代的风口，顺势而为。

不过雷军以及小米在贯彻这一方针时有独特的理解和判断：稳扎稳打，切忌一口吃成胖子。

例如在手机业务竞争激烈的那几年，提出的目标是“每年提高1个点的市占率”，尽管售货量长期稳居世界前五，但小米依旧没有冒进。

汽车业务同样如此，在研发费用以及基础设施建设上，始终管控在一个合理范围，避免盲目追高，将自己置身于危险之中。

正是这般挥洒自如的策略，让小米一步步走到了今天的高度。

不过目前看来，小米还远未到躺平的时候，警惕危机爆发十分必要。

就拿最近火热的小米SU7 ultra为例，有的车主深夜飙车开到了300公里/小时，喜提手铐一副，还让各城市都对这款车紧张了起来。

图注：车主驾驶小米SU7 Ultra深夜狂飙

其实雷军多次强调，要敬畏马力，要去安全的赛道里体验性能。

但对于飙车党而言，警言不痛不痒，之前雷军在直播时谈到SU7 ultra的安全问题时，表示要设置电子围栏，通过车辆的坐标位置来决定启用多少性能，如果定位不在赛道，那么就会限制其速度，目的就是为了防止城市飙车问题，不过这个电子围栏目前并未在量产车上装备。

这是一个比较棘手的难题，一方面消费者是奔着性能和品牌来选购的汽车，另一方面如果限制性能发挥，岂不是背刺了消费者，所以如何更好的权衡这个问题，值得小米头疼。

还有一个挑战是AI能力。

目前小米AI在智能手机以及IoT产品上，联动能力稍弱于友商，小米同样深知这一点，卢伟冰表示：2025年，小米300亿元研发费用中，有1/4会投入AI领域。小米正在全力推动AI技术在各个终端产品的落地，未来将用AI重构澎湃OS底层，目标是2到3年完成向AIOS的进化。

未来如果能够拿出一套打通人车家全生态的AI强势方案，那么友商恐怕又要挠头了。

十年前，小米站在风口，十年后，更为复杂的市场环境小米完成了转型。

#MoLe-VLA

计算成本降低5.6倍！实现高效机器人操作

多模态大语言模型（MLLMs）在理解复杂的语言和视觉数据方面表现出色，使通用机器人系统能够解释指令并执行实体任务。然而，其在现实世界中的部署受到大量计算和存储需求的阻碍。最近对大语言模型（LLM）层中同质性模式的研究启发了稀疏化技术来应对这些挑战，如早期退出和token剪枝。然而，这些方法往往忽略了最后几层对下游机器人任务语义信息编码的关键作用。与神经科学中浅脑假说（SBH）的最新突破以及模型稀疏化中的专家混合概念相一致，我们将每个LLM层视为一个专家，并提出了一种混合层视觉语言动作模型（MoLe-VLA或简称MoLe）架构，用于动态激活LLM层。我们为MoLe引入了时空感知Router（STAR），它可以根据机器人的当前状态选择性地仅激活部分层，模仿大脑中专门用于认知和因果推理的独特信号通路。此外，为了弥补MoLe中LLM认知能力的损失，我们设计了认知自蒸馏（CogKD），通过利用认知特征来增强对任务需求的理解并生成与任务相关的动作序列。在RLBench模拟和现实世界环境中进行的大量实验证明了MoLe-VLA在效率和性能方面的优越性，在十个任务中平均成功率提高了8%，同时最多可将LLM中的计算成本降低5.6倍。

项目链接：https://sites.google.com/view/mole-vla

行业背景介绍

多模态大语言模型（MLLMs）的迅速发展展示了它们整合复杂语言和视觉表示的能力，这激发了通用机器人和实体智能体的发展，使其能够进行视觉语言理解、人机交互，并在操作任务中灵活解决问题。初步的视觉语言动作（VLA）模型，如RT-2和OpenVLA，已经显示出使用MLLMs进行端到端机器人控制的可行性，实现了强大的策略和涌现能力，包括对未见物体的泛化和对新命令的理解。然而，在现实世界的机器人系统中部署MLLMs面临着重大挑战，因为其计算需求高，包括大量的内存使用、功耗和时间延迟，这与机器人平台资源受限和实时性的要求相冲突。例如，一个70亿参数的VLA模型在商用级GPU（如RTX 4090）上运行时，通常实现的推理频率约为5-12Hz，这与Franka机械臂所需的50 - 1000Hz控制频率相差甚远。

最近的研究发现，LLM层中存在显著的冗余，特别是在机器人任务中，各层之间的同质性模式导致计算成本高昂，但性能提升有限。例如，DeeR表明，与使用6层相比，使用Flamingo模型的全部24层仅将任务成功率提高了3.2%，而在Calvin LH-MTLC上的计算成本却增加了4倍。同样，我们对OpenVLA与RLBench的分析显示，连续层输出之间的余弦相似度超过90%，而第一层和最后一层的特征差异显著。这表明有跳过相邻层以减少计算的潜力，但也凸显了早期退出策略的局限性，因为丢弃较深层可能会丢失关键的语义信息。受浅脑假说（SBH）的启发，该假说认为大脑通过浅层平行的皮质 - 皮质下环路来平衡深层层次结构，以进行认知和因果推理，我们在VLA模型中提出了一种选择性层激活策略。方法模仿了大脑的动态深度 - 并行平衡，仅激活与任务相关的层，以提高效率和适应性，在VLA模型设计中体现了SBH的原则。

这里引入了混合层视觉语言动作模型（MoLe-VLA），在LLMs的输入阶段加入了一种新颖的层选择路由器，以实现模型的稀疏化。设计模仿了SBH中描述的大脑决策过程，通过动态选择具有不同层组合的最佳前向路径。受专家混合（MoE）中路由机制的启发，我们将这一概念垂直扩展，以实现层级激活。将每个LLM层视为一个独立的专家，并利用一种受生物启发的路由器来管理层跳过，模仿大脑对皮质 - 皮质下环路的选择性激活。与混合深度（MoD）不同，MoD将输入token分配给不同的专家，由于各层的感知水平不同，可能会导致token级的不一致性，而我们提出的MoLe在整体处理输入特征的同时，动态选择最相关的层。

传统的MoE或MoD路由器依赖简单的线性层，往往无法捕捉动态实体智能任务中推理所需的关键时空信息。为了解决这一限制，提出了时空感知路由器（STAR），它独立处理视觉输入的空间特征和文本输入的时间依赖关系。通过将这些关键属性组合成统一的表示，STAR使LLM层的选择与当前环境的需求相匹配。STAR通过为每个层生成softmax概率并选择概率最高的前k层来动态激活最相关的层。通过充分利用时空信息，STAR确保准确高效地适应实体智能任务的动态特性，在降低计算开销的同时实现最佳性能。

尽管如此，跳过某些层不可避免地会降低模型的认知表达能力。为了解决这个问题，提出了认知自蒸馏（CogKD），这是一种新的方法，在减轻认知崩溃的同时保留抓取能力。在CogKD中，原始的全层模型作为教师，而MoLe层跳过模型作为学生。受启发，引入了一个可学习的认知token，它有效地整合了视觉token和语言指导，以增强对任务需求的理解，并生成与任务相关的动作序列。通过分析认知token和学生token之间的相似性，我们识别出代表学生需要学习的任务关键信息的感兴趣token（ToIs）。这些ToIs为自适应地重新加权蒸馏过程提供了精确的指导，确保学生模型专注于关键的认知特征，同时始终从层跳过效率中受益。

MoLe在性能和效率提升方面的有效性在现实世界和RLBench模拟环境中得到了验证，基于各种VLA模型与最先进的基线进行对比。大量的机器人实验表明，MoLe将计算成本降低了5.6倍，同时将模型性能提高了8%。这项工作主要贡献如下：

我们从浅脑假说中获得灵感，开发了MoLe框架，该框架模仿了人类大脑中的信号流，并通过路由器实现动态层激活，以提高模型效率。
我们提出了一种新颖的层决策路由器STAR，它充分利用机器人输入的时空信息，做出更准确的激活决策。
我们引入了自我知识蒸馏范式CogKD，以恢复由于稀疏LLM中层跳过而丢失的认知信息，从而提高整体性能。

相关工作汇总1）视觉语言动作模型

大语言模型（LLMs）和视觉语言模型（VLMs）的显著成功推动了VLA模型的快速发展，VLA模型通过结合动作生成扩展了VLMs。VLA模型旨在弥合感知与行动之间的差距，使机器不仅能够解释和理解视觉和文本输入，还能基于这种理解生成并执行动作。通过整合视觉和语言信息，这些模型产生更复杂、具有情境感知的输出，以适应现实世界环境，推进了它们在动态和实体智能任务中的适用性。

2）高效多模态大语言模型

随着VLA模型的发展，提高推理效率已成为一个关键的研究领域。现有工作可分为三大策略：高效架构设计、模型压缩和动态网络。然而，现有的早期退出方法常常忽略了最后几层的重要性，这些层与下游任务的语义相关性更强。在动态网络的基础上，我们的工作结合知识蒸馏实现了层跳过机制，在优化模型性能的同时减少了冗余计算。

3）稀疏专家混合

虽然激活稀疏性已被广泛研究，但稀疏MoE模型架构在LLMs中显示出显著优势。有研究证明了它们在推理过程中仅激活计算图的一小部分就能有效利用大量参数的能力。在LLMs和VLMs时代，MoE已成为一种被广泛采用且有效的架构。例如，有研究在各种视觉理解基准测试中实现了与LLaVA-1.5-7B相当的性能，甚至在对象幻觉基准测试中超越了LLaVA-1.5-13B，而仅使用了30亿个稀疏激活参数。此外，有研究采用路由器动态选择计算路径，如标准块计算或残差连接。虽然我们的模型与该研究有相似之处，但不同之处在于我们使用路由器选择所有标准块计算，从而实现了更全面的层激活方法。

MoLe-VLA方法

1）预备知识：专家混合

MoE范式通过条件计算在保持计算效率的同时增强模型容量。对于输入，标准的MoE层定义为：

其中，是专家的数量，表示第个专家网络，是满足的门控函数。门控权重的计算方式为：

其中，和是可学习参数。为了提高效率，通常会应用具有前k选择的稀疏门控。为了解决负载不平衡问题（即过多输入被路由到少数专家），引入了负载平衡损失：

其中，如果第个专家通过前k门控机制被选择用于输入，则，否则。这种损失鼓励平衡地利用专家，并提高计算效率。

2）混合层：MoLe-VLA

视觉语言动作模型。机器人在接收到长度为的语言指令时，在时间步从传感器（例如相机的RGB图像）接收观察，以预测具有7个自由度（DoF）的夹爪的动作空间来执行：

其中，、和是末端执行器的相对平移偏移量，、、表示旋转变化，表示夹爪的开合状态。

我们的VLA模型主要由视觉编码器、MLLM 和动作模块组成。视觉编码器由DINO-v2和Siglip组成，它将输入图像编码为一系列信息token。为了进行多模态融合，在视觉编码器生成的视觉表示之上建立MLLM，其作为有效的多模态特征提取器，形式化表示如下：

其中，输出表示在时间步时我们的MLLM最后一层的隐藏状态序列，对应于认知token。这作为后续动作模块解释并推导所需动作的条件。遵循CogAct，动作模块将从输出特征中提取的认知特征作为输入，并预测最终动作。

MoLe-VLA的视觉、语言和动作模块通过最小化动作模块预测的噪声与真实噪声之间的均方误差进行端到端训练。以扩散头为例，损失函数定义为：

其中，是在第个去噪步骤中对有噪声动作预测的噪声，是相应的真实值。

通过MoLe路由器的层跳过机制。MoLe-VLA以提高LLM在机器人任务中的效率，因为在机器人任务中许多Transformer层由于推理需求较为简单而未得到充分利用。MoLe采用轻量级路由器在推理过程中自适应地跳过非必要的Transformer层，在保持性能的同时降低计算成本。

如图2所示，对于给定的具有层的MLLM ，MoLe路由器处理输入嵌入并生成二进制门控向量，其中。为了确保效率，仅将中的前个值设置为1，这决定了哪些层使用隐藏特征执行，而其余层则被跳过：

与传统的将token分配给专家的MoE路由器不同，MoLe路由器跳过整个层，避免了冗余计算。这提高了推理效率和响应速度，使MoLe特别适合像操作和导航这样的实时机器人任务，这些任务需要轻量级和自适应的处理。MoLe的完整伪代码在算法1中给出。

3）时空感知路由器

我们提出了一种全新的路由机制，它能协同利用视觉输入的空间结构和语言输入的时间依赖关系，为视觉语言动作（VLA）任务动态选择合适的大语言模型（LLM）层。给定视觉特征和文本特征，通过一个可学习矩阵，将这两种模态投影到一个共享的潜在空间中：

我们从计算空间路由权重，以此来捕捉空间特征：

其中，是高斯误差线性单元（GELU）激活函数。同时，利用一个Transformer模块从导出时间路由权重，之后进行平均池化：

一个动态温度因子，通过的[CLS]标记计算得出，用于调节路由的锐度：

其中，是sigmoid函数。最终的专家门控权重，将和结合起来，由进行缩放，并通过Gumbel-Softmax进行可微选择计算：

通过整合空间和时间信息，我们的方法能让路由器选择合适的LLM层，自适应地优化VLA任务的性能。这种方法效率很高，每个样本仅需次浮点运算，相比之下，标准的专家混合（MoE）框架则需要次，这里且。这样的设计确保了高适应性和计算效率。

4）认知自知识蒸馏

在实现高效的层跳过机制的同时，我们还设计了一种自蒸馏策略，来弥补稀疏LLM中的认知损失，如图3所示。这里将原始模型作为教师模型，MoLe模型作为学生模型。一种常见的蒸馏token的方法是逐token地模仿张量。

形式上，对于教师网络的token和学生网络的token，可以通过token重建来实现模仿：

然而，上述公式对每个token同等对待和蒸馏，这并不恰当。例如，与文本描述相关的视觉token应该受到更多关注。

因此，引入了一个可学习的嵌入，称为认知token，以实现自适应蒸馏。具体来说，它被插入到底层，有效地整合视觉token和语言指令，以便更好地理解任务需求，并生成与任务相关的动作序列。教师模型和学生模型分别有各自的和。在蒸馏过程中，通过计算认知token和学生token之间的相似度来获取感兴趣token（ToIs）：

其中，表示Sigmoid函数。接下来，利用教师和学生认知token生成的ToIs的交集，来决定每个token的蒸馏程度，这里，因为蒸馏token应该包含对教师模型和学生模型都重要的token。因此，上述公式可以更新为：

此外，以前述方式将反向KL散度与认知token结合，得到Log-reversek，以增强分布约束：

最终的认知自知识蒸馏（CogKD）损失可以表示为：

其中，是一个因子，设置为0.5以平衡损失。

对于教师模型的更新，用预训练参数初始化两个模型，并使用指数移动平均（EMA）来更新教师模型：

这里，表示时间步，我们将更新权重设置为0.999。我们最终的训练目标可以通过结合、和来表示：

其中，和是两个超参数，默认设置为0.5和0.1。

5）优化目标

对于教师模型的更新，使用预训练参数初始化两个模型，并采用指数移动平均（EMA）来更新教师模型：

在这个设置中，代表时间步，将更新权重设定为0.999。

最终的训练目标由、和组合而成：

其中，和是两个超参数，默认分别设为0.5和0.1。

实验分析

1）实验设置细节

仿真与实际部署：为评估方法并展示其泛化能力，在CoppeliaSim模拟器中的RLBench以及实际环境中开展实验：

RLBench包含10个不同的桌面任务，由Franka Panda机器人和前置摄像头完成。这些任务涵盖从物体操作到环境交互，如关闭盒子、合上笔记本电脑盖、放下马桶座圈、将垃圾放入垃圾桶、扫到簸箕里、关闭冰箱、将电话放在底座上、从架子上取下雨伞、从衣架上取下相框以及调整时钟。任务数据通过预定义的路标点和Open Motion Planning Library生成。参照先前工作，每个任务包含100条使用基于帧的方法采样的训练轨迹，并在训练工作空间内对每个任务进行25次试验评估。
实际部署实验在配备3D打印UMI夹爪的Franka Research 3（FR3）机器人上进行，涉及三个任务。安装在手腕上的GoPro 9相机捕捉现实世界的视觉观测数据。我们为每个任务收集50个演示，包括拔充电器、拉抽屉和倒水，在定义的工作空间范围内使用手持UMI夹爪完成。一个智能体在所有任务上进行训练，并在训练工作空间内对每个任务进行10次试验评估。成功率通过人工评估确定，并作为评估指标。

基线对比：MoLe-VLA的创新之处在于其新颖的、可插入的MoLe架构，该架构加速了VLA推理，同时提高了机器人的成功率。为评估其有效性，我们将MoLe与两种动作生成范式下的三种最先进的VLA方法进行比较：一是自回归模型，包括使用LLaMA进行离散动作预测的OpenVLA；二是基于扩散的模型，如通过扩散头预测动作块的CogAct。此外，还评估了几种VLA效率基线：RoboMamba，它用轻量级的Mamba模型取代了基于Transformer的LLMs；DeeR，它实现了LLMs的早期退出；MoD，它在各层之间动态分配输入token；以及Random-skip，它随机跳过LLM层。为确保公平比较，后三种基线在CogAct上采用相同设置实现，DeeR使用单相训练并加载完整模型。我们将MoLe与两种VLA模型集成，形成MoLe-OpenVLA和MoLe-CogAct，二者默认均跳过50%的层。
训练与评估细节：为保证公平比较，所有基线均使用相同的任务配置进行训练。每个方法均加载其官方预训练参数，并遵循各自的训练设置。对于MoLe-VLA，单视图RGB输入被调整为224×224大小，机器人状态与预测动作（7自由度末端执行器姿态）对齐。模型使用批量大小为64、每个样本8个扩散步骤进行训练，视觉和语言模块使用预训练权重。视觉模块包含DINO-v2和SigLIP，语言模块LLAMA-2和动作模块DiT-Base进行端到端训练，学习率恒定为，训练100次迭代。使用PyTorch的全分片数据并行（FSDP）框架，在8个NVIDIA A800 GPU上进行约1.5小时的训练。

2）仿真实验定量结果

性能提升：在十个RLBench任务上，仅使用LLM一半的层以提高效率，将所提出的MoLe方法与最先进的VLA模型进行性能比较。基于OpenVLA和CogAct骨干网络实现的MoLe，在成功率和效率方面均表现卓越。值得注意的是，MoLe-CogAct达到了最高的平均成功率60.8%，超过了如DeeR（59.2%）和MoD（56.4%）等竞争效率方法，因为这些方法忽略了语义最丰富的层，导致token级感知不一致，MoLe-CogAct在关闭冰箱和扫到簸箕等任务上有显著改进。同样，MoLe-OpenVLA相较于原始OpenVLA有10.2%的提升。尽管MoLe仅需981.5和985.8 GFLOP的计算量，但在效率和成功率上均超过了DeeR和MoD，突出了其平衡计算成本和任务性能的能力。这些结果强调了MoLe作为机器人操作中可插入LLM架构的有效性。
效率分析：为展示MoLe-VLA的效率，我们分析了随着跳过层数增加时成功率的变化。MoLe在仅使用19%计算量的情况下，实现了与全层骨干网络相似的成功率，且推理速度快两倍。值得注意的是，MoLe-OpenVLA大幅超越了原始OpenVLA。此外，表2提供了模型效率的详细统计信息。MoLe实现了最高的效率，推理时每次迭代仅需0.309秒，同时保持60.8%的最高平均成功率。这些结果凸显了MoLe在平衡效率和性能方面的优越性。
MoLe量化分析：在表3中突出了MoLe在8位量化下相较于FP16精度的CogAct的效率。MoLe实现了更高的成功率（58.8%）和4.11Hz的频率，仅使用8887MB的GPU内存，为CogAct的55%。这表明MoLe在量化后能够以显著更低的计算成本保持卓越性能。
可扩展性评估：表4展示了在RLBench上，与全层CogAct相比，提出的MoLe在不同模型规模下的可扩展性。MoLe始终实现更高的平均成功率，在小型、基础和大型模型上分别提升了2.7%、3.6%和1.5%。值得注意的是，MoLe-Large实现了71.5%的平均成功率，展示了其有效利用增加的模型容量的能力。这些结果验证了MoLe在不同计算预算和模型规模下的稳健性和适应性。
消融实验：表5展示了在RLBench仿真环境中，STAR路由器和CogKD损失及其变体的消融实验结果。基线CogAct（Ex0）的平均成功率为57.2%，而将STAR与认知token集成（Ex2-1）后，性能提升至58.3%，展示了它们的协同作用。使用定制的CogKD损失变体可进一步提升性能，结合STAR、认知token和Reserve KL损失（Ex2-3）可达到59.4%，添加MSE和Reserve KL损失（Ex2-4）可实现最佳性能60.8%，相较于基线提升了3.6%。这些结果突出了STAR捕捉时空依赖的能力，以及认知token在自知识蒸馏中的重要性。

3）实际任务评估

我们进行了涉及与各种现实世界物体交互的实验，结果总结在表6中。结果表明，MoLe在三个任务中均表现出色。值得注意的是，在具有挑战性的倒水任务中，该任务需要精确的3D位置和旋转预测，MoLe取得了令人瞩目的80%成功率。这些结果突出了MoLe在将LLM计算成本降低50%的情况下，仍保留理解3D空间场景并进行准确预测的能力。

4）定性结果

如图5所示，我们可视化了三个现实世界和三个RLBench仿真任务的操作过程。MoLe-VLA能够准确预测连续的7自由度末端执行器姿态，从而沿着规划轨迹精确执行任务。例如，在倒水任务中，MoLe-VLA成功抓取杯子，提起水壶，将其定位在碗上方，并平稳旋转夹爪以控制水流。

参考

[1] MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation.