51c自动驾驶~合集10

whaosoft-143

已于 2025-04-10 10:52:52 修改

阅读量1.3k

点赞数 34

分类专栏：人工智能文章标签：人工智能

于 2024-11-11 09:19:44 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143672348

版权

人工智能专栏收录该内容

324 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/13774825

#端到端任务

说起端到端，每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点！特斯拉率先吹响了方案更新的号角，无论是完全端到端，还是专注于planner的模型，各家公司基本都投入较大人力去研发，小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案，效果着实不错，非常有研究价值。

为什么需要端到端？

首先我们聊一下当前的主流自动驾驶方案，主要核心部分包括：感知模块、预测模块、规控模块。每个模块相对独立，感知模块给预测模块提供动静态障碍物信息；预测模块为规控模块提供规划的参考，规划再转换为控制指令。从传感器端到控制端，需要多个功能支持，这就不可避免导致了累积误差，一旦碰到问题，需要整个pipeline做分析。而且每个模块的优化，并不能保证整个系统达成最优解。

这个时候，就希望有一种模型能够完成感知信息的无损传递，即从传感器端到输出控制策略端，这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单（比如机动车、行人、甚至occ输出的非通用几何障碍物）的检测与预测来完成，是人为定义的规则和抽象。随着产品的迭代，每一次都需要添加各类case，设计各种博弈的策略，从模型训练到工程部署再到逻辑设计，时间和人力成本高昂。

而且这种方式无法罗列所有情况，那么是否可以通过对整个场景的学习抽象，无损的将所有信息传递给PnC部分？这就是我们期望的端到端。端到端核心是优化最终目标且全局可导，作为一个完整的优化任务来看，直接求最优解，而不是先求感知再求规控的最优解。

端到端效果怎么样？

今年各大自动驾驶公司都在预研和落地相关端到端方案，小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显，各大自动驾驶公司都在拼命布局揽人，对应岗位薪资水涨船高，某想甚至开出了七位数给到该岗位。

那么各家的端到端自动驾驶效果怎么样呢？先来看看国外的特斯拉：

再来看看国内的UniAD效果：

不得不说，端到端是一个更简约的方法，更具有全场景的优化能力。

端到端有哪些技术栈？

行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案（包括某鹏的XPlanner）。顾名思义，完全端到端是从传感器直接到规控；而专注于planner的端到端以感知模块的输出作为先验，替换原来以规则作为主要形式的PnC模块。

从传感器到控制策略的（如果把条件再放松下也可以到轨迹输出）完全端到端方案更为简约，但同样面临一个问题，可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性，但训练仍然是个难题。在足够体量和质量的数据群下，效果能够得到保证，泛化性能也不错。

而专注于planner的端到端方案，如果深究的话，只能算狭义上的端到端，但更贴合当下的量产方案和任务，而且可解释性也较高，是目前主机厂和自动驾驶公司优先推行和落地的。

如果从信息输入的角度上来看，又可以分为纯视觉方案（UAD、UniAD这类）和多模态方案（FusionAD这类），传感器成本不断在下降，多模态方案也一直是行业里面都在关注的点。

#国内智驾感知技术的7位“掌舵人

今年「端到端」席卷自动驾驶行业以来，各个智驾主流团队的人员配置均发生了巨大的改变，其中规控和感知团队的技术骨干动荡尤为剧烈。

感知在自动驾驶中一直是很重要的一环，它是自动驾驶汽车能否成功实现自主导航和操作的关键，决定了自动驾驶汽车“看得清多少路”，以及是否能适应复杂多变的交通环境。「端到端」概念的”崛起“，自动驾驶感知技术也从传统的“模块化”架构向“统一化“架构转型，而转型期间自然会遇到重重障碍，这时团队的掌舵人必须看清目标，带领团队在风潮中安全前行。

今天特地梳理了国内自动驾驶行业感知领域的7位大佬，他们深受自动驾驶行业工程师们敬佩与膜拜，为中国自动驾驶感知的发展进步做出了重要贡献。

（如在阅读过程中您发现了疏漏，欢迎向我们指正建议）

刘兰个川2008年本科毕业于北京大学物理学院物理专业。2014年毕业于美国密歇根大学安娜堡分校（University of Michigan, Ann Arbor），获得物理学博士学位。

博士毕业后，刘兰个川在硅谷和圣地亚哥的多家科技公司任职，利用人工智能进行工业探伤和医学图像处理：2015年2月～2017年4月，他在PerkinElmer担任高级探测器物理学家；2017年5月～10月，刘兰个川在ZEISS Group担任软件开发工程师，负责机器学习解决方案的工作。这一阶段的工作经历使他对人工智能领域有了初步的了解和实践。

2017年10月，刘兰个川加入由高通员工创立的AI初创公司12 sigma（图玛深维），逐渐成为一名深度学习专家。在12 sigma工作的一年半以来，他提升了自己的深度学习和技术管理经验，为后续的职业生涯打下了坚实的基础。

2019年3月，刘兰个川离开12 sigma加入小鹏汽车。最初任职自动驾驶算法总监，负责小鹏汽车智能辅助系统感知功能的研发，并协助搭建小鹏在美国圣地亚哥感知团队；后来全面负责小鹏汽车自动驾驶Xpilot系统感知功能的研发，成为小鹏汽车自动驾驶团队的核心成员。刘兰个川担任小鹏自动驾驶AI团队负责人期间，带领团队从零到一搭建了自动驾驶的BEV感知大模型XNet，并参与了中国最大的自动驾驶智算中心“扶摇”的搭建和维护。曾任小鹏自动驾驶平台北京负责人、XPILOT总监。2023年7月末，刘兰个川离开了小鹏汽车。

离开小鹏后，刘兰个川随即加入Anker，并出任VP，负责具身智能方面（机器人+大模型）的研发工作。2024年1月，刘兰个川离开Anker，两个月后加入了Nvidia，担任感知技术板块的总负责人。

彭超2014年本科毕业于武汉大学空间信息与数字技术专业，2017年硕士毕业于清华大学软件工程大数据专业。

2016年4月～2018年11月，彭超在Megvii (Face++)度过了两年半之久的实习和第一份正式工作的生涯。在Megvii实习和工作期间，他主要负责通用物体分割、通用物体检测和图像分类等三个领域的研究和应用落地工作，取得了世界顶尖的成绩。

2018年12月，彭超加入Momenta，担任高级视觉算法工程师，负责无人驾驶感知算法基础研发工作，在此期间积累了丰富的自动驾驶技术经验。

离开Momenta后彭超加入了蔚来汽车，2024年6月，随着蔚来智能驾驶研发部的调整，彭超被任命为合并后的大模型团队的负责人。他负责带领团队在深度神经网络和智能驾驶技术方面进行研究与应用，推动蔚来智能驾驶技术的发展。

同时，彭超还是CVPR、ICCV、ECCV和AAAI等顶会的审稿人，他在多家顶会顶刊都发表过优秀paper，诸如《Objects365: A Large-Scale,High-QualityDatasetfor ObjectDetection》、《An End-to-End Network for Panoptic Segmentation》等。

陈晓智2012年本科毕业于清华大学电子工程系，2017年获清华大学电子工程博士学位。

正式工作前，陈晓智曾在微软和百度有过两段实习经历，分别于2012年9月～2013年年5月在微软任职软件开发实习生，2016年7月～2017年5月在百度自动驾驶感知团队任实习生。

2017年7月，陈晓智加入大疆，时任高级机器学习工程师。2020年1月，他被任命为机器学习研发经理，并在2023年大疆车载“单飞”为卓驭科技后担任卓驭科技感知团队的总负责人。

陈晓智亲自带队的感知部门，致力于智能驾驶系统的感知技术预研和产品落地工作。该部门在算法岗位方向有着丰富的需求，包括但不限于单目/双目深度估计、光流估计、SLAM、三维重建、Nerf、模型轻量化设计、分布式训练、物体检测、语义分割、多传感器融合、图像增强、ISP以及传感器标定等方向。

张雨2016年获卡内基梅隆大学计算机视觉的硕士学位，发表过多篇高影响力论文。

硕士毕业1年后，张雨加入Waymo Research担任软件研发工程师，2019年5月，张雨离开了Waymo。离开Waymo后，他随即加入轻舟智航，目前担任轻舟智航感知总监，已在轻舟经历了5年多的任期，是计算机视觉、机器人学、机器学习等领域的专家，负责轻舟智航感知模块算法研发工作。

李阳光2009年本科毕业于吉林大学计算机科学与技术专业，2012年获中科院计算技术研究所硕士学位。

硕士毕业后李阳光随即加入极客网，担任软件工程师，2013年10月他离开了极客网。离开极客网后不久，李阳光火速入职百度，担任高级软件工程师，在百度任职3年7个月。

2017年4月离开百度后，李阳光加入小马智行，担任感知领域技术负责人，负责自动驾驶感知技术的研发及感知系统工程架构等工作。同时，他也是小马智行车路协同项目的负责人，负责推动车路协同技术的发展和应用场景的实践探索。

李阳光领导小马智行感知团队在感知系统方面取得了显著成果，通过多样化传感器的配置和多传感器深度融合的方案，实现了对自动驾驶车周围环境的精确感知。在车路协同领域，他推动了多项示范场景的建设和应用，如广州南沙的自动驾驶示范场景、亦庄交通队执法赋能等，为车路协同技术的发展和应用提供了有力支持。

杨奎元2007年本科毕业于中国科学技术大学自动化专业，2012年获中国科学技术大学自动化博士学位。

博士毕业的同年，杨奎元加入微软担任研究员，在这里度过了5年的职业生涯。2017年7月，杨奎元从微软离职，成为了DeepMotion（深动科技）的首席科学家兼联合创始人之一。在深动科技，杨奎元度过了4年2个月的职业生涯。

2021年8月，小米收购深动科技，杨奎元也随之加入小米汽车，成为智能驾驶部门感知方向的专家工程师。

杨奎元曾在深动科技带领团队研发了多传感器融合感知模组、高精地图自动化构图、高精度定位等技术方案，在自动驾驶著名榜单KITTI、Cityscapes上多次取得优异成绩。他还发表了多篇顶级国际会议/期刊论文，诸如《DenseASPP for semantic segmentation in street scenes》、《Hard-aware deeply cascaded embedding〉等，他还获得了多项国际专利。由他孵化的多项基础技术已服务于高精地图自动化生产、4D时空数据自动化标注等领域。

董远强2010年毕业于美国密苏里大学哥伦比亚分校，获电子和计算机工程专业博士学位。

2011年9月，董远强加入UtopiaCompression，担任计算机视觉科学家，后于2015年11月离开UtopiaCompression。同年12月，董远强加入Nvidia，担任高级视觉算法工程师，在Nvidia度过了3年4个月的职业生涯。

2019年4月，董远强离开Nvidia加入腾讯驻美国团队，担任首席科学家并负责智能驾驶感知方面的工作把控。

2021年4月，董远强结束了在腾讯的工作生涯，1个月后正式加入小鹏汽车，担任智驾部门感知方向的首席工程师，彼时向当时的智驾感知总负责人王弢汇报工作。随着王弢的离职和淡出一线，董远强接管了小鹏汽车的智驾感知工作，成为该领域的负责人。2022年8月，董远强领导技术开发部的100+成员团队，团队人才涵盖感知、传感器融合、预测等领域。2023年11月，董远强正式成为小鹏汽车智驾感知的总负责人，并担任技术研发的掌舵者，推动中美研发部门的智驾项目交付。

董远强曾发表过多篇优秀paper，如《A Video-based Adaptive Intelligent Hemispherical Threat Detection System》，《An Intelligent Visual Sensing System for Unmanned Surface Vehicle》等。

#CLIP（Contrastive Language-Image Pre-training）

CLIP怎么“魔改”？盘点CLIP系列模型泛化能力提升方面的研究

CLIP（Contrastive Language-Image Pre-training）系列模型自推出以来，在多个领域展现了强大的跨模态泛化能力，比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中，这有助于在缺乏大量标注数据的情况下，提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务，如视频行为识别，即使在没有针对特定任务进行过训练的情况下，也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景，并梳理了近期发布的一些公众：在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。

为了将CLIP扩展为多模态模型，从而能够适用于多模态任务，文章对CLIP进行了多种“改造”：添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法，CLIP可以被扩展为一个强大的多模态模型，能够处理包括图像、视频、文本和音频在内的多种数据类型，进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练（CLIP）的low-shot能力。然而，对原有模型的调整方法通常是在输入图像的全局视图上操作的，因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题，我们提出了在测试阶段的适应计算之前进行视觉内容细化（VCR, Visual Content Refinement）。具体来说，我们首先将测试图像分解为不同的比例，以将特征提取器的注意力转移到图像的细节上。然后，我们选择每个尺度中具有最大预测边际（max prediction margin）的图像视图，以过滤掉嘈杂的图像视图，其中预测边际是根据预训练的 CLIP 模型计算的。最后，我们根据所选图像视图的比例合并其内容，以构建新的具有鲁棒性的表示。因此，合并的内容可以直接用于帮助适配器专注于全局和局部部分，而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务，取得了比最先进方法的显著改进。例如，与少样本分类任务的基线（Tip-Adapter）相比，本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

本文的模型聚焦于图像多尺度分解，即将测试图像分解成不同的尺度（或称为“视图”），旨在使特征提取器能够关注到图像中的细节信息，通过多尺度分解，不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
在每个尺度中选择最具代表性的图像视图，即那些对分类任务贡献最大的视图，以过滤掉噪声和冗余信息：使用预训练的 CLIP 模型对每个图像视图进行预测，并计算其预测边际。预测边际反映了模型对特定类别的确信程度，通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中，选择具有最大预测边际的图像视图。
将不同尺度下选出的图像视图合并成一个新的表示，该表示既包含全局信息也包含重要的局部细节：对于不同尺度下的细化特征，通过学习一个权重向量来实现，该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并，即将多个尺度的特征按照权重相加，形成一个统一的表示。
这个新的表示可以用于免训练适配器（training-free adapter）或提示学习器（prompt learner），帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并，有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM：3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

本文提出了一种图像有效分割的新方法，可以集成到任何模型和方法中，对用于 Covid-19 检测的医学图像（3D 胸部 CT 扫描）进行分类。本文的方法包括视觉语言模型的组合，这些模型对 CT 扫描进行分割，然后将其馈送到名为 RACNet 的深度神经架构中，用于 Covid-19 检测。特别是，引入了一个名为 SAM2CLIP2SAM 的新框架进行分割，该框架利用 Segment Anything Model （SAM）和 Contrastive Language-Image Pre-Training （CLIP）的优势，在 CT 扫描中准确分割右肺和左肺，随后将这些分割输出输入 RACNet，用于对 COVID-19 和非 COVID-19 病例进行分类。首先，SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板；然后 CLIP 仅选择与感兴趣区域（ROI, regions of interest）相关的掩码，即右肺和左肺；最后，SAM 被赋予这些 ROI 作为提示，并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库，这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model（SAM）对CT扫描中的每一层（slice）进行初步分割，生成多个基于部分的分割掩码（part-based segmentation masks）。
利用Contrastive Language-Image Pre-Training（CLIP）模型从SAM生成的多个分割掩码中选择与感兴趣区域（ROIs），即右肺和左肺，相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标，它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示（prompts）重新输入给SAM，SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
这些分割后的图像数据被输入到RACNet中，RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构，包括一个卷积神经网络（CNN）和一个递归神经网络（RNN）。RACNet通过处理这些分割后的图像数据，提取相关特征，并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势，实现了对CT扫描中特定区域（如肺部）的精确分割。随后，通过RACNet对分割后的图像数据进行深入分析，提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX：指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是，大多数扩散模型仅限于生成可见的 RGB 图像。事实上，人类对世界的感知因各种观点而丰富，包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型，称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集，并辅以手动校正。值得注意的是，DiffX 提供了一个简单而有效的跨模态生成建模管道，该管道在双路径变分自动编码器（DP-VAE）的推动下，在模态共享的潜在空间中进行扩散和去噪过程。此外，结合了门控交叉注意力机制来连接布局和文本条件，利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验，DiffX在各种布局类型的指导下，在三个RGB+X数据集（FLIR、MFNet和COME15K）上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

文章首先使用LLaVA模型（一种用于图像标注的模型）来自动生成跨模态图像数据集的文本描述，并辅以手动校正。
然后利用DiffX模型进行跨模态生成建模，该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器（DP-VAE），它允许在不同模态（如RGB和X）之间共享潜在表示，从而支持跨模态生成。
为了连接布局和文本条件，DiffX模型结合了门控交叉注意力机制，有效地将布局信息和文本信息相结合，使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导，DiffX模型利用Long-CLIP来嵌入长字幕，从而能够处理更长的文本描述，并将其转换为有效的特征表示，这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术，实现了有效的跨模态“RGB+X”图像生成，展示了在更复杂的跨模态生成任务（如“RGB+X+Y”或更多样化的模态）中的潜力。

X-Former：MLLM的统一对比和重构学习

Sirnam Swetha， Jinyu Yang， Tal Neiman， Mamshad Nayeem Rizve， Son Tran， Benjamin Yao， Trishul Chilimbi， Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

多模态大型语言模型（MLLM）的最新进展通过将视觉感知能力集成到大型语言模型（LLM）中，彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习（CL）的视觉编码器，在捕捉整体表征方面表现出专业知识，同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模（MIM）获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示来增强 MLLM 的视觉表示。为了实现这一目标，本文推出了X-Former，这是一种轻量级Transformer模块，旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说，X-Former 首先从两个冻结的视觉编码器（即 CLIP-ViT（基于 CL）和 MAE-ViT（基于 MIM））中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习，以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性，我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明，X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

首先利用两个冻结的视觉编码器（CLIP-ViT和MAE-ViT）来引导视觉语言表示学习，CLIP-ViT通过视觉语言对比学习策略进行预训练，而MAE-ViT通过随机掩码图像建模机制进行训练，两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息，并同时学习全局和局部信息，引入了一个轻量级的Transformer模块，称为X-Former，它扩展了Q-Former来整合全局和局部信息。
X-Former的输入为一组可学习的query Z，输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query，Q-Former输出(Zq)作为key和value，通过集成来自Q-Former的全局语义信息来对齐和增强M，从而丰富了MAE特征(M’)。随后，M’通过交叉注意整合全局和局部信息，将Q-Former输出(Zq)增强到Z '。
增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后，将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块，它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制，X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出，并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

！盲文也能玩：盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰，这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而，用于培训的音频数据有限，英语对于不同教育水平的视障人士来说并不通用。因此，为了解决数据量和语言适用性问题，提高视障人群的阅读效率，构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型，并采用了自主预训练和联合微调的策略。首先，分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练，并验证了它们的收敛性。随后，使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明，该模型在BLEU4、FAD（Fréchet Audio Distance）、WER（Word Error Ratio）等客观指标上均有所提升，甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力，也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段：图像到文本阶段（image-to-text）和文本到语音阶段（text-to-speech）。
图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习，在MUGE等公开数据集上进行预训练，学习图像与文本对的特征；再基于Chinese CLIP模型提取的特征，利用KNN算法从图像中检索出文本信息，KNN根据正负样本之间的特征差异来提取文本。
文本到语音阶段使用Fastspeech2 文本转语音模型，在Baker等公开数据集上进行预训练，学习文本到语音的映射关系。输入上一阶段生成的文本，生成对应的mel频谱图，并将其解码为语音。

最后使用自建的盲文图像数据集（Braille dataset）进行联合微调。

4 动作识别

M2-CLIP：一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

近年来，大规模视觉语言预训练模型(如CLIP)的兴起，再加上参数高效微调(PEFT)技术，在视频动作识别领域引起了极大的关注。然而，流行的方法倾向于优先考虑强大的监督性能，代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战，同时保持高监督性能和鲁棒可移植性。首先，为了增强单个模态体系结构，我们在可视化和文本分支中引入了多模态适配器。具体来说，文章设计了一种新的视觉TED适配器，它执行全局时间增强和局部时间差分建模，以提高视觉编码器的时间表示能力。此外，我们采用文本编码器适配器来加强语义标签信息的学习。其次，文章设计了一个具有丰富监督信号集的多任务解码器，以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性，在监督学习中表现出卓越的性能，同时在零样本场景中保持了很强的泛化。

模型解析

M2-CLIP框架输入为视频V和文本标签y，视频经过视频编码器处理后，其特征在时间维度上进行平均池化，得到最终的视频表示v。文本标签经过文本编码器处理后，得到文本表示w。输出为通过多任务解码器得到的分类结果，可以用于监督学习任务和零样本分类任务。
M2-CLIP引入了多模态适配器，包括一个视觉TED-Adapter，用于改善视觉编码器的时间表示能力，来实现全局时间增强（Temporal Enhancement）和局部时间差异（local temporal Difference）建模；以及一个文本编码器适配器，用于加强学习语义标签信息。
M2-CLIP的多任务解码器包括对比学习头（Contrastive Learning Head），用于对齐视频和文本表示的成对表示，使用对比学习损失进行优化；跨模态分类头（Cross-Modal Classification Head, CMC），用于突出跨模态特征的判别能力，通过将问题转化为1-C分类任务来增强跨模态相似性分数；跨模态掩码语言模型头（Cross-Modal Masked Language Modeling Head, CMLM），在文本分支的最后一层设计，促进视觉特征聚焦于动作动词的识别，使用BERT掩码语言模型头来预测掩码词；视觉分类头（Visual Classification Head, VC），在视觉分支末端引入，用于增强不同类别视频特征的区分度，使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时，实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器，它们共同作用于视频和文本的联合表示学习，并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习，用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题，并提出了几种基于大规模预训练视觉语言模型的有效方法。然而，这些方法主要在粗粒度的层面上运行，而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距，我们提出了一个由知识图谱指导的对比视频语言学习框架，称为KG-CLIP，它将结构化信息整合到视频领域的CLIP模型中。具体来说，我们通过基于组合学习的解析动作，构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器和偏差补偿来自适应优化实体距离函数中的边际，我们的模型旨在改善知识图谱中实体的对齐，以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS（一个大规模的动作解析数据集）上全面评估了KG-CLIP，证明了其与竞争基线相比的有效性。特别是，我们的方法在样本帧少或训练数据有限的情况下，在动作识别方面表现出色，表现出优异的数据利用和学习能力。

模型解析

KG-CLIP通过解析视频内容（如动作、场景、物体等）和相关的文本描述（如动作标签、句子描述等），构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素（如动作、身体部位的运动），还包含了它们之间的语义关系和上下文信息（如动作描述、概念标签等）。在构建好知识图谱后，KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层，使其能够接收知识图谱中的结构化信息（如实体嵌入、关系向量等），以在视频领域实现更高效的视频-文本匹配。
然后利用CLIP模型的视觉编码器部分，从视频中提取出丰富的视觉特征，包括视频中的基本元素（如颜色、纹理、形状等），及更高级别的语义信息（如动作、场景等）。
KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息，它接收知识图谱中的三元组作为输入，并输出每个实体和关系的向量表示（如<头实体, 关系, 尾实体>）。这些向量表示随后被用于计算实体之间的距离和相似性。
KG-CLIP引入了偏差补偿机制，根据实体的具体特征和它们之间的关系，动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性，从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计（如知识图谱构建、三元编码器实现、偏差补偿机制等），成功地将结构化信息整合到CLIP模型中，并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP：用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

最近，大型预训练视觉语言模型（VLM），例如 CLIP，在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而，它们的零样本异常检测(ZSAD)性能较弱，因为VLM更侧重于对前景对象（foreground objects）的类语义进行建模，而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法，即AnomalyCLIP，使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示，这些文本提示会捕获图像中的一般正常性和异常性，而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义，从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明，AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

AnomalyCLIP设计了两种通用的与对象无关文本提示（Object-Agnostic Text Prompts）模板：一种用于正常性（normality），另一种用于异常性（abnormality）。这些提示模板不包含具体对象的语义，而是专注于捕获图像中的异常模式，无论前景对象是什么。
然后进行全局上下文优化和局部上下文优化：通过交叉熵损失函数，将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配，以捕获全局特征中的正常/异常语义。通过焦点损失（Focal Loss）和Dice损失，优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
通过在CLIP文本编码器的每一层添加可学习的标记嵌入（token embeddings），来精细化原始文本空间，使其更适合异常检测任务。通过引入对角突出的注意力图（Diagonally Prominent Attention Map, DPAM）来改进局部视觉空间，使得注意力图更加关注局部视觉语义，从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征，以提供更多的局部视觉细节，增强模型对异常区域的识别能力。

AdaCLIP：使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

零样本异常检测（ZSAD）的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务，利用预训练的视觉语言模型（VLM）CLIP。AdaCLIP将可学习的提示整合到CLIP中，并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示：静态提示和动态提示。静态提示在所有图像中共享，用于初步调整CLIP以适应ZSAD。相比之下，为每个测试图像生成动态提示，为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示，可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明，AdaCLIP优于其他ZSAD方法，可以更好地推广到不同的类别甚至领域。最后，我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

AdaCLIP引入了两种类型的提示——静态提示（Static Prompts）和动态提示（Dynamic Prompts）。静态提示在所有图像中共享，它们在训练过程中从辅助数据中学习，用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的，它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来，形成混合提示，这样可以提高模型对新类别图像的异常检测性能。
为了解决CLIP原始架构中图像嵌入（Patch Embeddings）与文本嵌入维度不匹配的问题，AdaCLIP添加了一个投影层来对齐这些嵌入的维度，并通过引入偏差的线性层增加了一些可学习的参数，以进一步微调CLIP。
AdaCLIP还引入了混合语义融合模块（Hybrid Semantic Fusion, HSF）用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图（Anomaly Maps，基于图像嵌入（Patch Embeddings）和文本嵌入（Text Embeddings）之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域，其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测，从而更准确地定位和识别图像中的异常区域。

综上，AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数，这些分数表示图像及其像素是否正常或异常。

#交互感知再升级

感知预测规划在Waymo24挑战赛中有哪些亮点？

赛事链接：https://cvpr2024.wad.vision/

CVPR 2024 Workshop on Autonomous Driving (WAD) 作为自动驾驶领域的重要盛会，随着自动驾驶技术飞速发展不断与时俱进，全面覆盖自动驾驶的各个领域，包括感知、行为预测以及运动规划等。其中的Waymo Open Dataset Challenges 的参赛者需利用Waymo提供的大规模开放数据集，开发并优化其自动驾驶算法，以应对复杂多变的交通场景。

2024CVPR Waymo挑战赛有以下赛道：

（1）运动预测：给定相应地图上过去1秒的历史agent以及此时间间隔的相关激光雷达和相机数据，预测未来8秒内最多8个代理的位置。可以选择使用激光雷达和摄像头数据。

（2）模拟agent：给定代理在相应地图上过去1秒的轨迹，以及可选的此时间间隔的相关激光雷达，为场景中的所有agent模拟32个逼真的联合预测。

（3）3D语义分割：给定一个或多个激光雷达距离图像和相关的相机图像，为每个激光雷达点生成语义类标签。

（4）占用和流量预测：根据最后一秒观察到的agent轨迹，预测所有观察到的和被遮挡的车辆的BEV占用和运动流量。

参赛作品往往致力于融合多个模型框架，从而使模型能够处理多模态输入数据（激光雷达和摄像头数据）。这些作品多在损失函数策略方面创新或使用多种损失函数来优化模型，通过更新锚点、恢复历史轨迹、采用多帧训练、改进场景编码等方法，提高模型与场景的交互性，从而提高模型对多个agent对象预测的稳健性，提升模型在复杂场景中的表现。除了改进模型架构设计以外，参赛者还会后续不断评估模型的性能，并根据评估结果对模型进行持续优化，这包括调整模型结构、优化超参数、改进数据预处理和数据增强方式等。

运动预测挑战 MOTION PREDICTION CHALLENGE

1st：MTR v3模型

MTR v3: 1st Place Solution for 2024 Waymo Open Dataset Challenge - Motion Prediction

Chen Shi, Shaoshuai Shi, Li Jiang, The Chinese University of Hong Kong (Shenzhen) , DiDi Global

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%201st%20Place%20-%20MTR%20v3.pdf

本文提出的解决方案名为MTR v3，是基于先进的MTR++框架进行扩展。通过引入原始LiDAR数据和动态更新的锚点来改进模型，同时采用简单的模型集成技术进一步提升性能。模型包括场景编码器网络和运动解码器网络，其中场景编码器网络的输入为历史轨迹、道路地图和原始LiDAR点云，之后通过LiDAR编码器分割网络提取体素特征，生成语义标签，并在BEV空间中进行编码，再使用Transformer编码器通过查询中心化的局部自注意力层来聚合特征。运动解码器网络首先从K个意图点（锚点）生成每个焦点代理的意图查询（Intention Querying），再输入解码器层，通过交叉注意力模块更新意图查询，以聚合来自代理特征、地图特征和LiDAR特征的信息。最后通过预测头（Prediction Head），使用多层感知机预测多模态未来轨迹，表示为高斯混合模型(GMM)。

实验过程中，文章进行了动态锚点与模型集成。动态锚点即采用动态更新和不同的锚点，根据预测的轨迹终点动态选择正意图查询，以适应特定场景，提高回归能力。并且，文章训练多个模型变体，在推理时采用模型集成策略，通过非最大抑制(NMS)选择前6个预测轨迹。实验结果显示，该在Waymo开放数据集运动预测挑战赛中排名第一，soft mAP为0.4967，优于其他方法。

关键技术与贡献：

LiDAR数据融合：通过引入原始LiDAR数据，提供细粒度的语义信息，改善了对行人运动的预测。

动态锚点更新：采用动态更新和不同的锚点，解决了传统方法中锚点稀疏导致的高回归误差问题。

模型集成策略：通过模型集成技术，进一步提升了最终的性能表现。

2nd：ModeSeq模型

Zikang Zhou, Jianping Wang, Yung-Hui Li, Yu-Kai Huang - City University of Hong Kong, Hon Hai Research Institute, Carnegie Mellon University

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%202nd%20Place%20-%20ModeSeq.pdf

ModeSeq框架是一种基于顺序模式建模的多模态运动预测框架，利用RNN风格的Transformer模块顺序解码轨迹模式，解决了多模态真实轨迹缺失的问题，提高预测轨迹的多样性。ModeSeq框架的编码器采用QCNet中的因子化Transformer，获取具有旋转平移不变性的场景嵌入（scene embeddings）。ModeSeq的层由记忆Transformer模块和因子化Transformer模块组成，顺序解码多个轨迹模式。其中记忆Transformer通过注意力机制让当前查询特征关注之前解码的模式，建模模式间的顺序依赖；因子化Transformer利用时间Transformer、代理-地图Transformer和代理-代理Transformer进一步丰富查询特征。最后预测头使用多层感知机解码轨迹和置信度分数。ModeSeq通过堆叠多个ModeSeq层并进行迭代细化，提升预测性能，并在每个新层开始前，根据置信度分数对模式嵌入进行排序，确保解码顺序的合理性。

在训练策略优化上，文章提出Early-Match-Take-All（EMTA）训练策略，采用EMTA损失，优化最早匹配的轨迹，鼓励模型尽早解码匹配轨迹。回归损失基于Laplace负对数似然，优化最早匹配的轨迹。分类损失使用二元焦点损失（Binary Focal Loss）优化置信度分数，通过单调递减的标签分配鼓励模型先输出更自信的模式。实验结果显示，在验证集上，ModeSeq在mAP、Soft mAP和Miss Rate上优于QCNet，但在minADE和minFDE上略逊一筹。该方法在不牺牲过多minADE和minFDE的情况下，显著提高了mAP、Soft mAP和Miss Rate，为多模态问题提供了新的见解和解决方案。

3rd：RMP_Ensemble

Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Yuhang Han, Keng Peng Tee, Anthony Wong, Marcelo H. Ang Jr. - National University of Singapore, Moovita Pte Ltd

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%203rd%20Place%20-%20RMP_Ensemble.pdf

准确预测周围交通参与者的未来轨迹对自动驾驶车辆至关重要。当前预测方法依赖完整的历史轨迹数据，但在实际场景中，由于遮挡、传感器故障和恶劣天气条件，历史轨迹可能不完整。因此本文希望提出一个简单的恢复模块，旨在恢复不完整的历史轨迹，以增强预测鲁棒性。本文基于MTR框架进行修改，引入恢复模块，提出了RMP集成方法。除了使用当前交通灯信息外，还纳入了历史相对运动信息作为输入上下文。使用多尺度LSTM和PointNet-like网络处理时空信息，并通过多上下文门控（MCG）进行特征融合。恢复模块是通过局部注意力机制和MLP层恢复不完整的历史轨迹，并将恢复的信息集成到代理标记中。编码器对特征通过多尺度LSTM和MCG模块进行聚合和融合，利用局部注意力机制进行进一步特征提取。解码器与MTR解码器相同，但在损失计算之间应用了演化和不同的锚点技巧。总损失函数由MTR原始损失和恢复损失组成，旨在同时优化预测精度和恢复模块性能。其中恢复损失是通过L1损失计算恢复的历史轨迹与真实历史轨迹之间的差异。实验结果显示，使用Waymo Open Motion Dataset进行训练和评估，RMP集成方法在Soft mAP上排名第三，重叠率排名第一，ADE和FDE也表现出色。在车辆、行人和自行车类别上分别进行了详细评估，展示了RMP方法在不同场景下的表现。文章还通过随机掩盖历史时间戳来评估方法的鲁棒性，结果显示RMP方法在处理缺失历史数据方面显著优于MTR。

模拟agent挑战 SIM AGENTS CHALLENGE

1st：BehaviorGPT

Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue - City University of Hong Kong, University of Victoria, Hon Hai Research Institute, Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%201st%20Place%20-%20BehaviorGPT.pdf

BehaviorGPT在自动驾驶领域展现了卓越性能，在Waymo开放模拟代理挑战中，其0.7473的现实性得分和1.4147的minADE得分令人瞩目，且仅使用3M模型参数。该技术强调自动驾驶系统安全性评估的重要性，通过模拟实现低成本、大规模的离线测试。BehaviorGPT利用仅解码器自回归模型提高数据和参数效率，模拟逼真的agent，对验证自动驾驶系统至关重要。

BehaviorGPT采用NP3方法解决因果混淆问题，通过轨迹补丁级别的推理（reason at the patch level）促进长范围交互建模（long-range interactions modeling），提高预测准确性。该模型还通过混合模型捕捉智能体行为的多样性，利用链式法则分解状态分布，进一步提升了多智能体系统行为预测的能力。此外，BehaviorGPT引入相对时空表示法（relative spatial-temporal positional embeddings），通过QCNet模型在空间和时间上对称地建模补丁，处理多代理交互和动态环境。同时，通过维护输入元素间的相对位置嵌入，有效保持空间-时间关系，提高代理的反应性和预测准确性。

总之，BehaviorGPT通过创新的架构和算法，为自动驾驶领域的研究与发展提供了新的思路和工具。其高性能的模拟和准确的预测能力，将有助于推动自动驾驶系统的进一步完善和应用。

2nd：VBD

Zhiyu Huang, Zixu Zhang, Jaime Fernández Fisac, Chen Lv - Nanyang Technological University, Princeton University

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%202nd%20Place%20-%20VBD.pdf

本文介绍了一种名为Versatile Behavior Diffusion Model（VBD）的交通模拟框架，该框架旨在模拟智能体在复杂交通环境中的逼真且可控行为。VBD模型通过结合场景编码器（query-centric Transformer encoder）、去噪器（Transformer denoiser）和行为预测器（Transformer-based multi-modal marginal trajectory predictor），能够有效模拟多代理的联合行为（scene-level joint behaviors of agents），并在高度交互的交通场景下降低碰撞风险。该模型利用地图和代理的历史状态作为条件输入，通过去噪和可控采样技术生成高质量的交通场景。此外，VBD模型还采用了一种基于动态函数的代理行为分析方法，将代理行为转化为物理状态，为行为预测提供了有力工具。通过编码多源输入，包括代理历史、地图信息和交通灯状态，VBD模型能够在复杂环境中实现准确的决策和预测。此外，该模型还采用了一种改进的场景编码方法，通过共享GRU网络和基于查询的Transformer层，实现场景元素间相互关系的高效编码。在Waymo 2024 Sim Agents基准测试中，VBD模型表现出竞争性的性能，为智能交通系统的研究提供了有力支持。

3rd：TrafficBotsV1.5

Zhejun Zhang, Christos Sakaridis, Luc Van Gool - ETH Zurich

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%203rd%20Place%20-%20TrafficBotsV1.5.pdf

TrafficBots V1.5是基于条件变分自编码器（CVAE, conditional variational autoencoder）和异构折线变换器（HPTR, Heterogeneous Polyline Transformer with Relative pose encoding）的先进交通代理闭环模拟基线方法。它通过为每个交通代理学习特定策略，根据历史数据预测其行动，并在Waymo OpenSim Agents Challenge 2024中取得显著成绩。V1.5引入共享决策策略，设定导航目的地和人格特性，并采用相对姿态编码和K-最近邻注意力模块（KNARPE, K-nearest Neighbor Attention with Relative Pose Encoding）优化Transformer性能。该方法摒弃了RNN，采用堆叠历史观测作为输入，结合PointNet处理时间数据，保留了HPTR的优势，同时提高了效率和准确性。通过计划性教师强制和采样场景过滤，TrafficBots V1.5在目标预测器上实现显著改进，尽管在交通灯状态预测方面存在局限，但整体性能通过多项优化措施得到提升。该方法为多代理交通模拟提供了新的可能性，并公开代码供研究者使用，为交通模拟领域的研究提供了有力基线方案。

三维语义分割挑战 3D SEMANTIC SEGMENTATION CHALLENGE

1st：PTv3-EX

Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao - The Univeristy of Hong Kong, Shanghai AI Laboratory, National University of Singapore, Nanyang Technological University

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%201st%20Place%20-%20PTv3-EX.pdf

在2024年Waymo开放数据集挑战赛中，Point Transformer V3 Extreme凭借其前沿的多帧训练（multi-frame training）和无裁剪点策略（no-clipping-point policy），在语义分割赛道中荣登榜首。该模型不仅通过即插即用训练和推理技术显著提升了性能，还通过详细的训练设置和策略优化，充分利用了Waymo高分辨率LiDAR扫描和全面标注数据的优势。Point Transformer V3 Extreme的成功展示了其在自动驾驶领域内的技术实力和创新能力，为3D感知技术的发展提供了新的方向。该模型通过优化backbone设计、引入数据增强技术和无裁剪点策略，提高了处理复杂现实世界环境数据的能力，为语义分割领域的研究和应用提供了有价值的参考。此外，本文还探讨了点云数据的序列化方法和多帧训练策略，强调了它们在提升点云处理性能中的关键作用。

2nd：MixSeg3D

Qing Wu - Marvell Technology

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%202nd%20Place%20-%20MixSeg3D.pdf

2024年Waymo开放数据集挑战赛中，MixSeg3D以其独特的3D语义分割解决方案荣获第二名。该方法融合了MinkUNet稀疏卷积网络和LaserMix、PolarMix两种3D数据增强策略，有效提升了模型在复杂LiDAR点云数据中的感知能力。MixSeg3D不仅克服了训练数据多样性不足的问题，还显著提高了模型的泛化性和鲁棒性，为自动驾驶技术的环境理解和导航提供了强有力的支持。MinkUNet以其高效的稀疏卷积操作和稳健的特征提取能力，在处理大规模LiDAR点云数据时表现出色。而LaserMix和PolarMix的引入，进一步增强了模型对未知数据的适应能力。MixSeg3D的成功不仅为自动驾驶领域带来了新的技术突破，也为未来的3D语义分割研究提供了新的思路和方法。

3rd：vFusedSeg3D

Osama Amjad, Ammad Nadeem - VisionRD

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%203rd%20Place%20-%20vFusedSeg3d.pdf

VFusedSeg3D是由VisionRD团队开发的多模态融合系统，其利用相机和LiDAR数据的互补性，通过精心设计的网络架构在3D感知和分割精度上取得了显著进步。该系统结合了相机的丰富语义信息和LiDAR的精确深度感知，通过两个并行特征提取流和创新的融合技术，实现了对环境的全面理解。在验证集上，VFusedSeg3D达到了72.46%的mIoU，树立了新的性能基准。

系统采用了DLA34作为图像侧的主干网络，并引入了改进的语义特征聚合模块（SFAM）和语义特征融合模块（SFFM）来有效结合LiDAR和相机的特征。由于计算资源限制，系统采用了分阶段训练策略，成功解决了高网格分辨率导致的内存溢出问题。此外，通过全局变换和多种图像增强技术，增强了模型的泛化能力。总的来说，VFusedSeg3D以其高效的网络结构和多模态融合技术，为需要精确环境感知的应用提供了理想解决方案，展现了在3D感知领域的重要突破。

占用率和流量预测 OCCUPANCY FLOW CHALLENGE

1st：DOPP

Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, Hongyang Gao, Chen Lv - Nanyang Technological University

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%201st%20Place%20-%20DOPP.pdf

本文提出并详细阐述了一种创新的DOPP系统及其MS-OccFormer模块，该模块通过多阶段对齐实现了高精度的占用流场预测，并结合了智能体边际运动预测的一致性意识。DOPP系统通过可微分的集成方式，有效提升了未来交通状态预测的精度，特别是在处理复杂交通场景时展现出强大的能力。MS-OccFormer模块则通过全局和局部交互，将占用预测和向后流预测与边缘预测特征相结合，进一步提升了预测精度。此外，该系统还采用了一种集成学习范式，持续更新预测目标，确保预测结果的连贯性和准确性。这些创新技术不仅为自动驾驶系统的安全运行提供了更为坚实的预测支持，同时也为处理多智能体预测中的一致性问题提供了新的解决方案。未来工作将围绕进一步优化预测性能，解决运动预测与占用预测不可解耦的挑战展开。

2nd：STNet

Gaeun Kim, Daeil Han, YeongJun Koh, Hanul Kim - Seoul National University of Science and Technology, Chungnam National University

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%202nd%20Place%20-%20STNet.pdf

本文提出了一种创新的自动驾驶占用率和流量预测方法，该方法通过整合agent和静态特征，利用一维时间卷积和时空编码器构建多尺度特征图。该模型基于CAFormer-S18架构改造而来，通过空间和时间信息的融合以及多尺度聚合，有效处理包含时间维度的数据。解码器部分采用自回归设计，结合双线性插值和串联操作，以自回归方式预测未来帧。预测头部分利用卷积层和激活函数生成占用和流图，并通过多损失函数组合优化预测性能。该方法在Waymo开放数据集挑战中取得优异成果，充分展示了其在自动驾驶领域中的有效性。通过多尺度的特征提取和自回归的解码设计，该模型为自动驾驶的准确预测提供了强大的技术支持，对处理占用地图和流动场预测问题具有重要意义。

3rd：HGNET

Zhan Chen, Chen Tang, Lu Xiong - Tongji University

链接：https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%203rd%20Place%20-%20HGNET.pdf

本文提出了一种创新的层次特征引导网络（HGNET, hierarchical feature guided network），用于复杂交通场景中多智能体行为的预测。HGNET基于Transformer架构，通过高效的特征提取和多模态交互建模，有效整合了视觉、历史轨迹和地图信息，显著提升了预测准确性。其中，特征引导注意力模块（FGAT）利用潜在引导效果，强化了特征间的相关性，而TimeSeries Memory框架则增强了预测的时间一致性和因果关系。HGNET在Waymo Open Motion Dataset 1上表现出色，尤其在占用流场轨迹预测方面。此外，该系统还通过LSTM和跨注意力Transformer编码器，全面捕获了交通代理与地图间的交互关系，进一步提升了预测性能。通过结合文本和视觉特征，以及引入层次特征引导解码器，HGNET为自动驾驶领域提供了有力的技术支持，尤其在处理被遮挡障碍物和提高预测连续性方面展现出巨大潜力。

#BEVGPT

BEVGPT展示自动驾驶『全知视角』，预测决策规划三合一！

预测、决策和运动规划对于自动驾驶至关重要。在大多数传统算法架构中，它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而，我们认为理想的算法是将它们整合到一个综合框架中，且这种整合过程不应受到复杂的输入表示（即输入解耦）和冗余框架设计的困扰。为了解决上述问题，我们重新思考了自动驾驶任务中各个模块的必要性，并将所需的模块纳入到极简的自动驾驶框架中。我们提出了BEVGPT，一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像（BEV）作为唯一输入源，并根据周围的交通场景做出驾驶决策。最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。

▲图1｜BEVGPT整体框架

如图所示，BEVGPT采用两阶段训练过程。首先，我们使用大量自动驾驶数据来训练生成式大模型。随后，使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说，预训练阶段的目标是学习驾驶场景预测和决策，即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹，并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段，通过在线学习的方式实现模型微调，从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段，运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。

■2.1 框架设计

我们从人类驾驶员的角度重新评估每个模块的必要性，以设计自动驾驶系统框架。首先，人类驾驶员对环境地图有先验的知识，比如在使用导航软件时，每条道路的结构和路口位置都比较明显。其次，人类驾驶员并不会显示地追踪周围的其他车辆，并预测它们的未来轨迹。相反，他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后，他们会做出相应地驾驶决策。基于上述思考，我们设计了一个极简的自动驾驶框架，即包括决策，运动规划和驾驶场景预测，而把目标跟踪以及他车运动预测模块去掉了。在该框架中，决策输出的是自车未来T=4秒内的位置，在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取，我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得，如下图所示。

▲图2｜驾驶场景预测

■2.2 轨迹表示

我们采用分段多项式轨迹来表示我们的微分平坦输出，即和。为了在后续的motion planning模块中minimum Jerk，我们选择五次多项式表示。假设轨迹总共由段组成。在这种情况下，便可以表示为下面的多项式：

这里的表示轨迹的段数，每段具有相同的时间间隔。

■2.3 运动规划

在我们的轨迹规划问题中，自车的初始状态和末状态已知。同时，决策模块的输出应当被包含在未来的轨迹中。另外，分段多项式轨迹的连续性也需要得到保证。因此，我们的运动规划问题被表达为了如下的minimum Jerk问题：

在这里，我们将自车的初始状态和最终状态考虑在内，同时确保了两个相邻轨迹段之间的连续性和光滑性，并且考虑了最大速度和最大加速度的限制，以确保动力学的可行性。

■3.1 数据集

我们采用了Lyft Level 5 Dataset，这是一个由Houston等人于2021年提出的自动驾驶数据集，包含了超过1000个小时的驾驶数据，采集跨度4个月，采集车辆是由20辆车组成的车队。关于数据处理，我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒（即240帧，时间间隔秒）的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。

■3.2 模型架构

GPT体系结构在自然语言处理（NLP）领域取得了很大的进展，它通过添加因果自关注掩码来修改变压器体系结构，从而自动回归生成预测tokens。由于其强大的理解和泛化能力，我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。

▲表1｜BEVGPT超参数

■3.3 预训练

在预训练阶段，BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力，这里使用均方误差（MSE）作为Loss。

这里我们采用三角函数来平衡预测和决策的loss。

■3.4 在线微调

我们使用的是Woven Planet L5Kit进行自动驾驶仿真，以微调预训练模型。BEV输入模型后，输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹，而后得到BEV的预测。回看上面的loss公式，模型要fine-tuning，需要地图的信息，这里我们开发了一种经验光栅化器（experience rasterizer），以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换，就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过时间间隔的仿真后，就可以获得接下来BEV图像的真实数据。这部分的loss如下：

因为这里仿真器是按照预测的轨迹进行走的，所以轨迹那项的loss是0。我们使用Woven Planet L5Kit模拟器进行在线微调，以适应运动规划和精确的BEV生成。

我们采用以下指标来评估的模型的决策能力和运动规划能力：

●最终位移误差指标（FDE），指的是最终预测位置与参考位置之间的距离。

●平均位移误差指标（ADE），指的是时刻t之前所有预测位置与参考位置的均方误差。

●最终距离参考轨迹的距离指标（FDR），指的是时刻t预测位置与参考轨迹中最近点的距离。

●平均距离参考轨迹的距离指标（ADR），指的是时刻之前所有预测位置与参考轨迹中其最近位置的均方误差。

●L2误差（L2），在仿真过程中执行的轨迹和日志记录中的真实位置之间的均方误差。

●碰撞率（CR），它指的是模拟持续时间t内发生碰撞帧与全部帧的比例。

●越野率（OR），它指的是驶离道路帧数与全部帧的比例。判断指标定义为参考轨迹与自车之间的距离大于2米。

评价结果如下表所示，结果显示，我们提出的BEVGPT在决策和规划任务中优于许多现有的方案。

▲表2｜实验结果

未来我们将在极端情况下测试所提出方法的鲁棒性，并进一步改进框架。未来研究的一个有潜力的方向是提高BEVGPT模型的实时性能，将其部署在自动驾驶汽车上。我们的目标是带来一个更安全、更可靠、更高效的自动驾驶框架。

#盘点CLIP系列模型泛化能力提升方面的研究

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

模型解析

本文的模型聚焦于图像多尺度分解，即将测试图像分解成不同的尺度（或称为“视图”），旨在使特征提取器能够关注到图像中的细节信息，通过多尺度分解，不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
在每个尺度中选择最具代表性的图像视图，即那些对分类任务贡献最大的视图，以过滤掉噪声和冗余信息：使用预训练的 CLIP 模型对每个图像视图进行预测，并计算其预测边际。预测边际反映了模型对特定类别的确信程度，通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中，选择具有最大预测边际的图像视图。
将不同尺度下选出的图像视图合并成一个新的表示，该表示既包含全局信息也包含重要的局部细节：对于不同尺度下的细化特征，通过学习一个权重向量来实现，该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并，即将多个尺度的特征按照权重相加，形成一个统一的表示。
这个新的表示可以用于免训练适配器（training-free adapter）或提示学习器（prompt learner），帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并，有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM：3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

模型解析

文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model（SAM）对CT扫描中的每一层（slice）进行初步分割，生成多个基于部分的分割掩码（part-based segmentation masks）。
利用Contrastive Language-Image Pre-Training（CLIP）模型从SAM生成的多个分割掩码中选择与感兴趣区域（ROIs），即右肺和左肺，相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标，它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示（prompts）重新输入给SAM，SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
这些分割后的图像数据被输入到RACNet中，RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构，包括一个卷积神经网络（CNN）和一个递归神经网络（RNN）。RACNet通过处理这些分割后的图像数据，提取相关特征，并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

2 图像生成

DiffX：指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

模型解析

文章首先使用LLaVA模型（一种用于图像标注的模型）来自动生成跨模态图像数据集的文本描述，并辅以手动校正。
然后利用DiffX模型进行跨模态生成建模，该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器（DP-VAE），它允许在不同模态（如RGB和X）之间共享潜在表示，从而支持跨模态生成。
为了连接布局和文本条件，DiffX模型结合了门控交叉注意力机制，有效地将布局信息和文本信息相结合，使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导，DiffX模型利用Long-CLIP来嵌入长字幕，从而能够处理更长的文本描述，并将其转换为有效的特征表示，这些特征表示被用于指导跨模态图像的生成过程。

X-Former：MLLM的统一对比和重构学习

Sirnam Swetha， Jinyu Yang， Tal Neiman， Mamshad Nayeem Rizve， Son Tran， Benjamin Yao， Trishul Chilimbi， Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

模型解析

首先利用两个冻结的视觉编码器（CLIP-ViT和MAE-ViT）来引导视觉语言表示学习，CLIP-ViT通过视觉语言对比学习策略进行预训练，而MAE-ViT通过随机掩码图像建模机制进行训练，两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息，并同时学习全局和局部信息，引入了一个轻量级的Transformer模块，称为X-Former，它扩展了Q-Former来整合全局和局部信息。
X-Former的输入为一组可学习的query Z，输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query，Q-Former输出(Zq)作为key和value，通过集成来自Q-Former的全局语义信息来对齐和增强M，从而丰富了MAE特征(M’)。随后，M’通过交叉注意整合全局和局部信息，将Q-Former输出(Zq)增强到Z '。
增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后，将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

3 音频生成

！盲文也能玩：盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

模型解析

CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段：图像到文本阶段（image-to-text）和文本到语音阶段（text-to-speech）。
图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习，在MUGE等公开数据集上进行预训练，学习图像与文本对的特征；再基于Chinese CLIP模型提取的特征，利用KNN算法从图像中检索出文本信息，KNN根据正负样本之间的特征差异来提取文本。
文本到语音阶段使用Fastspeech2 文本转语音模型，在Baker等公开数据集上进行预训练，学习文本到语音的映射关系。输入上一阶段生成的文本，生成对应的mel频谱图，并将其解码为语音。

最后使用自建的盲文图像数据集（Braille dataset）进行联合微调。

4 动作识别

M2-CLIP：一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

模型解析

M2-CLIP框架输入为视频V和文本标签y，视频经过视频编码器处理后，其特征在时间维度上进行平均池化，得到最终的视频表示v。文本标签经过文本编码器处理后，得到文本表示w。输出为通过多任务解码器得到的分类结果，可以用于监督学习任务和零样本分类任务。
M2-CLIP引入了多模态适配器，包括一个视觉TED-Adapter，用于改善视觉编码器的时间表示能力，来实现全局时间增强（Temporal Enhancement）和局部时间差异（local temporal Difference）建模；以及一个文本编码器适配器，用于加强学习语义标签信息。
M2-CLIP的多任务解码器包括对比学习头（Contrastive Learning Head），用于对齐视频和文本表示的成对表示，使用对比学习损失进行优化；跨模态分类头（Cross-Modal Classification Head, CMC），用于突出跨模态特征的判别能力，通过将问题转化为1-C分类任务来增强跨模态相似性分数；跨模态掩码语言模型头（Cross-Modal Masked Language Modeling Head, CMLM），在文本分支的最后一层设计，促进视觉特征聚焦于动作动词的识别，使用BERT掩码语言模型头来预测掩码词；视觉分类头（Visual Classification Head, VC），在视觉分支末端引入，用于增强不同类别视频特征的区分度，使用线性层进行分类。

细粒度知识图谱驱动的视频语言学习，用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

模型解析

KG-CLIP通过解析视频内容（如动作、场景、物体等）和相关的文本描述（如动作标签、句子描述等），构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素（如动作、身体部位的运动），还包含了它们之间的语义关系和上下文信息（如动作描述、概念标签等）。在构建好知识图谱后，KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层，使其能够接收知识图谱中的结构化信息（如实体嵌入、关系向量等），以在视频领域实现更高效的视频-文本匹配。
然后利用CLIP模型的视觉编码器部分，从视频中提取出丰富的视觉特征，包括视频中的基本元素（如颜色、纹理、形状等），及更高级别的语义信息（如动作、场景等）。
KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息，它接收知识图谱中的三元组作为输入，并输出每个实体和关系的向量表示（如<头实体, 关系, 尾实体>）。这些向量表示随后被用于计算实体之间的距离和相似性。
KG-CLIP引入了偏差补偿机制，根据实体的具体特征和它们之间的关系，动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性，从而提高模型的整体性能。

5 零样本异常检测

AnomalyCLIP：用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

模型解析

AnomalyCLIP设计了两种通用的与对象无关文本提示（Object-Agnostic Text Prompts）模板：一种用于正常性（normality），另一种用于异常性（abnormality）。这些提示模板不包含具体对象的语义，而是专注于捕获图像中的异常模式，无论前景对象是什么。
然后进行全局上下文优化和局部上下文优化：通过交叉熵损失函数，将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配，以捕获全局特征中的正常/异常语义。通过焦点损失（Focal Loss）和Dice损失，优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
通过在CLIP文本编码器的每一层添加可学习的标记嵌入（token embeddings），来精细化原始文本空间，使其更适合异常检测任务。通过引入对角突出的注意力图（Diagonally Prominent Attention Map, DPAM）来改进局部视觉空间，使得注意力图更加关注局部视觉语义，从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征，以提供更多的局部视觉细节，增强模型对异常区域的识别能力。

AdaCLIP：使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

模型解析

AdaCLIP引入了两种类型的提示——静态提示（Static Prompts）和动态提示（Dynamic Prompts）。静态提示在所有图像中共享，它们在训练过程中从辅助数据中学习，用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的，它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来，形成混合提示，这样可以提高模型对新类别图像的异常检测性能。
为了解决CLIP原始架构中图像嵌入（Patch Embeddings）与文本嵌入维度不匹配的问题，AdaCLIP添加了一个投影层来对齐这些嵌入的维度，并通过引入偏差的线性层增加了一些可学习的参数，以进一步微调CLIP。
AdaCLIP还引入了混合语义融合模块（Hybrid Semantic Fusion, HSF）用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图（Anomaly Maps，基于图像嵌入（Patch Embeddings）和文本嵌入（Text Embeddings）之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域，其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测，从而更准确地定位和识别图像中的异常区域。

综上，AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数，这些分数表示图像及其像素是否正常或异常。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

模型解析

本文的模型聚焦于图像多尺度分解，即将测试图像分解成不同的尺度（或称为“视图”），旨在使特征提取器能够关注到图像中的细节信息，通过多尺度分解，不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
在每个尺度中选择最具代表性的图像视图，即那些对分类任务贡献最大的视图，以过滤掉噪声和冗余信息：使用预训练的 CLIP 模型对每个图像视图进行预测，并计算其预测边际。预测边际反映了模型对特定类别的确信程度，通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中，选择具有最大预测边际的图像视图。
将不同尺度下选出的图像视图合并成一个新的表示，该表示既包含全局信息也包含重要的局部细节：对于不同尺度下的细化特征，通过学习一个权重向量来实现，该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并，即将多个尺度的特征按照权重相加，形成一个统一的表示。
这个新的表示可以用于免训练适配器（training-free adapter）或提示学习器（prompt learner），帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并，有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM：3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

模型解析

文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model（SAM）对CT扫描中的每一层（slice）进行初步分割，生成多个基于部分的分割掩码（part-based segmentation masks）。
利用Contrastive Language-Image Pre-Training（CLIP）模型从SAM生成的多个分割掩码中选择与感兴趣区域（ROIs），即右肺和左肺，相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标，它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示（prompts）重新输入给SAM，SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
这些分割后的图像数据被输入到RACNet中，RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构，包括一个卷积神经网络（CNN）和一个递归神经网络（RNN）。RACNet通过处理这些分割后的图像数据，提取相关特征，并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

2 图像生成

DiffX：指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

模型解析

文章首先使用LLaVA模型（一种用于图像标注的模型）来自动生成跨模态图像数据集的文本描述，并辅以手动校正。
然后利用DiffX模型进行跨模态生成建模，该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器（DP-VAE），它允许在不同模态（如RGB和X）之间共享潜在表示，从而支持跨模态生成。
为了连接布局和文本条件，DiffX模型结合了门控交叉注意力机制，有效地将布局信息和文本信息相结合，使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导，DiffX模型利用Long-CLIP来嵌入长字幕，从而能够处理更长的文本描述，并将其转换为有效的特征表示，这些特征表示被用于指导跨模态图像的生成过程。

X-Former：MLLM的统一对比和重构学习

Sirnam Swetha， Jinyu Yang， Tal Neiman， Mamshad Nayeem Rizve， Son Tran， Benjamin Yao， Trishul Chilimbi， Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

模型解析

首先利用两个冻结的视觉编码器（CLIP-ViT和MAE-ViT）来引导视觉语言表示学习，CLIP-ViT通过视觉语言对比学习策略进行预训练，而MAE-ViT通过随机掩码图像建模机制进行训练，两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息，并同时学习全局和局部信息，引入了一个轻量级的Transformer模块，称为X-Former，它扩展了Q-Former来整合全局和局部信息。
X-Former的输入为一组可学习的query Z，输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query，Q-Former输出(Zq)作为key和value，通过集成来自Q-Former的全局语义信息来对齐和增强M，从而丰富了MAE特征(M’)。随后，M’通过交叉注意整合全局和局部信息，将Q-Former输出(Zq)增强到Z '。
增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后，将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

3 音频生成

！盲文也能玩：盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

模型解析

CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段：图像到文本阶段（image-to-text）和文本到语音阶段（text-to-speech）。
图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习，在MUGE等公开数据集上进行预训练，学习图像与文本对的特征；再基于Chinese CLIP模型提取的特征，利用KNN算法从图像中检索出文本信息，KNN根据正负样本之间的特征差异来提取文本。
文本到语音阶段使用Fastspeech2 文本转语音模型，在Baker等公开数据集上进行预训练，学习文本到语音的映射关系。输入上一阶段生成的文本，生成对应的mel频谱图，并将其解码为语音。

最后使用自建的盲文图像数据集（Braille dataset）进行联合微调。

4 动作识别

M2-CLIP：一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

模型解析

M2-CLIP框架输入为视频V和文本标签y，视频经过视频编码器处理后，其特征在时间维度上进行平均池化，得到最终的视频表示v。文本标签经过文本编码器处理后，得到文本表示w。输出为通过多任务解码器得到的分类结果，可以用于监督学习任务和零样本分类任务。
M2-CLIP引入了多模态适配器，包括一个视觉TED-Adapter，用于改善视觉编码器的时间表示能力，来实现全局时间增强（Temporal Enhancement）和局部时间差异（local temporal Difference）建模；以及一个文本编码器适配器，用于加强学习语义标签信息。
M2-CLIP的多任务解码器包括对比学习头（Contrastive Learning Head），用于对齐视频和文本表示的成对表示，使用对比学习损失进行优化；跨模态分类头（Cross-Modal Classification Head, CMC），用于突出跨模态特征的判别能力，通过将问题转化为1-C分类任务来增强跨模态相似性分数；跨模态掩码语言模型头（Cross-Modal Masked Language Modeling Head, CMLM），在文本分支的最后一层设计，促进视觉特征聚焦于动作动词的识别，使用BERT掩码语言模型头来预测掩码词；视觉分类头（Visual Classification Head, VC），在视觉分支末端引入，用于增强不同类别视频特征的区分度，使用线性层进行分类。

细粒度知识图谱驱动的视频语言学习，用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

模型解析

KG-CLIP通过解析视频内容（如动作、场景、物体等）和相关的文本描述（如动作标签、句子描述等），构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素（如动作、身体部位的运动），还包含了它们之间的语义关系和上下文信息（如动作描述、概念标签等）。在构建好知识图谱后，KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层，使其能够接收知识图谱中的结构化信息（如实体嵌入、关系向量等），以在视频领域实现更高效的视频-文本匹配。
然后利用CLIP模型的视觉编码器部分，从视频中提取出丰富的视觉特征，包括视频中的基本元素（如颜色、纹理、形状等），及更高级别的语义信息（如动作、场景等）。
KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息，它接收知识图谱中的三元组作为输入，并输出每个实体和关系的向量表示（如<头实体, 关系, 尾实体>）。这些向量表示随后被用于计算实体之间的距离和相似性。
KG-CLIP引入了偏差补偿机制，根据实体的具体特征和它们之间的关系，动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性，从而提高模型的整体性能。

5 零样本异常检测

AnomalyCLIP：用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

模型解析

AnomalyCLIP设计了两种通用的与对象无关文本提示（Object-Agnostic Text Prompts）模板：一种用于正常性（normality），另一种用于异常性（abnormality）。这些提示模板不包含具体对象的语义，而是专注于捕获图像中的异常模式，无论前景对象是什么。
然后进行全局上下文优化和局部上下文优化：通过交叉熵损失函数，将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配，以捕获全局特征中的正常/异常语义。通过焦点损失（Focal Loss）和Dice损失，优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
通过在CLIP文本编码器的每一层添加可学习的标记嵌入（token embeddings），来精细化原始文本空间，使其更适合异常检测任务。通过引入对角突出的注意力图（Diagonally Prominent Attention Map, DPAM）来改进局部视觉空间，使得注意力图更加关注局部视觉语义，从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征，以提供更多的局部视觉细节，增强模型对异常区域的识别能力。

AdaCLIP：使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

模型解析

AdaCLIP引入了两种类型的提示——静态提示（Static Prompts）和动态提示（Dynamic Prompts）。静态提示在所有图像中共享，它们在训练过程中从辅助数据中学习，用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的，它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来，形成混合提示，这样可以提高模型对新类别图像的异常检测性能。
为了解决CLIP原始架构中图像嵌入（Patch Embeddings）与文本嵌入维度不匹配的问题，AdaCLIP添加了一个投影层来对齐这些嵌入的维度，并通过引入偏差的线性层增加了一些可学习的参数，以进一步微调CLIP。
AdaCLIP还引入了混合语义融合模块（Hybrid Semantic Fusion, HSF）用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图（Anomaly Maps，基于图像嵌入（Patch Embeddings）和文本嵌入（Text Embeddings）之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域，其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测，从而更准确地定位和识别图像中的异常区域。

综上，AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数，这些分数表示图像及其像素是否正常或异常。

#Wayve的端到端进化到哪一步了？

www.youtube.com/watch?v=a_q3Efh6-5E&ab_channel=Wayve

Structure

Traditional AV stack 1.0

AV1.0

这是一个需要比较大成本的系统，目前也没有一家公司真正做到了。

高精地图（高精地图建图&依赖高精度传感器建图）
数据标记

AV 2.0（Wayve）

算法易于部署在不同传感器芯片移植（computationally homogeneous）
数据驱动（Generalisation through data）
无图方案成本低，泛化性高（scalable and economic）
安全（outperforms hand-coded solutions）

case处理

Frontiers in Embodied AI Research

Simulation

端到端的仿真需要模拟出视觉信息，这是非常困难的，总结一些Wayve的工作：

缩小了预测和行为的gap
动态物体和可形变的物体模拟
模拟出整个环境和平台
数据驱动&可移植
长尾问题

Ghost Gym: A Neural Simulator for AD

https://wayve.ai/thinking/ghost-gym-neural-simulator/

闭环的仿真器

PRISM-1

动态场景重建模型

自监督，4D，Non-parametric scene representation

https://wayve.ai/thinking/prism-1

实时重建

水坑反射和行人踩自行车

这个水坑和动态的踩自行车真的牛。。。而且是4d重建，不是一个简单的动画。

而且用正弦曲线去扰乱，也能保证生成的场景很完美，甚至能保证生成的行人也不漂移，甚至还拿着雨伞。

训练场景集：https://wayve.ai/science/wayvescenes101/

重建出来的行人都不失真

不止能重建世界，也能生成一些多样化的场景（所有data driven的优势）

Wayve GAIA（2023）- Generative World Model

arxiv.org/abs/2403.02622

World Models for Autonomous Driving: An Initial Survey

arxiv.org/abs/2403.02622

World Models for Autonomous Driving: An Initial Survey

GAIA还可以添加objects，并且做标记（动态的）

Multimodality

LLM4Drive: A Survey of Large Language Models for Autonomous Driving

Lingo1: https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

Lingo-1

Lingo2: https://wayve.ai/thinking/lingo-2-driving-with-language/

更注重实际驾驶，不仅在驾驶，而且在解释。

这里的解释行为也比较重要，这里根据不同场景改变了驾驶计划。

Foundation Models

A Model that is trained on a diverse set of data that can be adaped to a wide range of downstream tasks.

一些挑战

#又一家新势力危了！引入华为技术却没能拯救

“银十”落幕，本该欢欢喜喜交上成绩单之时，却又有一家新势力被曝出降薪裁员。

远航汽车，大运集团旗下的高端新能源品牌。

虽然品牌知名度不高，但更早之前因为设计上的原因，有过几次出圈热议。其中最热闹的一次，还是在小米造车之后，被误当作小米SU7的“原型车”。

但现在，同属新势力的两家已然无法同日而语。

小米SU7已经实现了2万辆每月的惊人交付，开启了智能化赛道上的新一轮竞速。

而远航汽车，则被曝出人员流失严重、延迟发工资，底盘研发部门甚至只剩下十多名员工还在坚守。

在对外回应中，远航汽车也表示正在进行战略调整，目前处于重组状态，但是否还能再上牌桌，竞速智能化，答案已经变得飘渺动荡了。

以及令人感慨的是，远航汽车及其母公司大运集团并非不重视技术、不重视智能化，甚至还引入了华为智能车相关业务作为供应商。

但大运集团没有复刻小康集团的路线，远航也没有创造赛力斯一样的佳话。

远航汽车的困境，折射的是智能汽车转型期里，稍纵即逝的窗口时间。

一步慢，步步慢，再想跟上，难于登天。

远航汽车降薪裁员

消息已经遮盖不住，最近新能源车企远航汽车，被传出延迟发放工资，人员流失严重，甚至强制休假的消息。

有自称远航内部研发的员工还爆料说，公司底盘研发部门人员流失速度快，目前只剩下十多名员工。

还有员工透露，所在部门的员工已被强制休假一周，并且没有通知复岗时间，待岗期间公司也没有提供工资和补偿。

并且公司的资金状况较为紧张，目前正在寻求新的融资，以及地方资金的支持。

另外还有门店销售人员透露，公司从6月份开始就出现了工资延迟发放，7月的工资延迟了2个月才发放。

第一财经向远航汽车求证后，官方回应中也确认了传闻中的动荡：

公司正在进行战略调整，目前处于重组状态，过一段时间等调整完成会恢复正常。远航汽车毕竟背靠大运集团，不会轻易倒闭。目前，高管、中层职员都是正常在职状态。

所以不论是爆料还是官方的回应，基本证实了远航的处境。

作为一家名不见经传的新能源造车品牌，远航实际上不常出现在公众视野，其采用的推进战略，也相对更为传统，但即便如此，因为远航汽车在设计等方面的特点，还阴差阳错上过几次热搜。

如今这样的局面，多少有些可惜可叹。

远航汽车是谁？

说到远航汽车，可能听起来有些陌生，但他的母公司大运集团，可谓是家喻户晓。

一句“风驰电掣，大运摩托”，唤醒了多少人的回忆。

远航汽车，就是大运集团的高端新能源汽车品牌，2022年8月首次面世，在新势力中也是新秀。

大运集团早在1987年成立，本身是靠摩托车业务起家。

但随着市场需求的变化，以及国内越来越多地区禁摩，大运意识到，如果继续把摩托车当作主导产业，企业规模也会受到限制。

所以从2004年，大运开始进军商用汽车行业，先后涉足重卡、中卡和轻卡领域，从2009年投产以来，产销量保持行业前十的位置。

从摩托车跨越到汽车，这次转型可以说非常成功，也给大运增添了很多信心。

所以到2016年，大运紧跟着“绿色发展”布局，把目光转向新能源汽车，启动了新能源商用车战略，又在2017年转战新能源乘用车。

2022年，远航品牌问世，瞄准了30万-60万元级的高端市场。

22年年底的成都车展上，远航带着产品首次亮相，一口气发布了两款豪华轿车远航Y6、远航Y7，以及两款豪华SUV，远航H8和远航H9。

为了打响招牌，加深消费者对远航的“高端品牌”印象，远航选择和博世、华为、阿里斑马合作，联合打造了B.H.D高端纯电平台。

不过，转型重卡的成功例子，并没有在远航汽车身上重现。

远航汽车的困境

自2022年推出四款车型之后，远航再没有推出新的产品。

按照当前的指导价，价格相对最低的是远航Y6，指导价是26.98-33.98万，最贵的是远航H9，指导价40.98-51.98万。

而现有的四款车型，去年11月开始批售，实际上只有远航Y6和远航H8在售，并且销售情况也不算乐观。

根据中汽协数据显示，远航汽车今年9月销售779台车，1-9月累计销量为5584台。

在如今，其他新势力动辄月销几万台的背景下，这样的销量显然不在一个量级。即便是高端品牌，也不及阿维塔这样的销量水平。

销量跟不上，即便价高，想要活得好也会有阻力，被曝出资金紧缺就不算奇怪了。

远航汽车为何有如今的困境？

首先是品牌的宣传度不够。

据爆料的员工表示，除了车展、高铁和机场广告，其他地方几乎没有任何营销方式。

远航也很少举办发布会和试驾活动，市场了解的途径有限，因此与之相关的报道也比较少，在汽车行业甚至称得上神秘。

其次，远航汽车的产品车型比较单薄。

尽管成立之初，远航就一口气推出了四款车型，但在这之后的两年，新的车型再没有动静，而且只有四款车型中，只有两款在售。

也许大运并没有意识到，重卡市场与新能源汽车市场，实际上有非常大的不同。

在当前，新能源车企技术相互竞速，新产品层出不穷，并且已经在全方位的“卷”，包括配置、服务、营销，“卷”得没有死角。

在这个汽车产品飞速迭代的时间段，远航的速度，走得有些太慢。

谈到技术，这也是远航最大的“痛点”。

因为远航的“灵魂”，基本上都是砸钱买来的。

大运董事长远勤山曾表示过，远航不需要太多技术，自己搞先进技术，可能十年也赶不上博世、华为现在的水平，所以要把最优秀的融合在一起，直接买来再整合。

因此在技术上，远航汽车拥有华为智能车控域控制器VDC、热管理系统TMS 2.0，以华为智能转向系统。

和博世合作了一体化底盘集成技术、高功率电桥等等，又选用了斑马智行的智能驾驶、智能交互技术。

但这样的模式，在智能化的下半场很难立足。

其一，是一步慢步步慢，远航H8搭载的是高通8155芯片，而零跑、银河等车型，已经搭载了算力更强的高通8295芯片，落后也意味着失去竞争力。

其二，自研趋势越来越明显，像理想、蔚来这样的头部新势力，都在开始加大自研的力度，适应更快节奏的智能汽车竞争。

但知人论世，往往都是事后才能给出的分析了。

毕竟百年汽车工业，强调自研成功的车厂有，远的不说，近如特斯拉，就是最典型的案例。

也有依靠供应商合作伙伴成功的品牌，比如赛力斯，同样作为传统不高端汽车品牌的小康，在新能源和智能化浪潮中，率先并紧紧抱住了华为，从产品设计、核心技术到营销，统统让华为发挥能力，自己制作好制造一项，最终实现了珠联璧合下的成功，不仅产品创造了销量神话，品牌成功完成高端化转型，还拿到了竞速下一阶段的入场券。

从最初被汽车圈“群嘲”，到后来越来越多人“理解赛力斯，成为赛力斯”……疗效就是最直接的证明。

然而，即便远航汽车这样的玩家，现如今理解了赛力斯，也可能很难成为赛力斯了，毕竟到处落子下界的华为，忙不过来了。

#ChatTracker

即插即用：多模态大模型重塑目标跟踪

视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。我们发现，这种劣势主要是由于他们严重依赖手动文本注释，其中包括频繁提供模糊的语言描述。在本文中，我们提出了ChatTracker，利用多模态大语言模型（MLLM）中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此，我们提出了一种新的基于反射的提示优化模块，通过跟踪反馈迭代地改进目标的模糊和不准确的描述。为了进一步利用MLLM产生的语义信息，提出了一种简单而有效的VL跟踪框架，该框架可以很容易地集成为即插即用模块，以提高VL和视觉跟踪器的性能。实验结果表明，我们提出的ChatTracker实现了与现有方法相当的性能。

总结来说，本文的主要贡献如下：

我们提出了ChatTracker，这是一种利用MLLM进行视觉对象跟踪的新框架。据我们所知，这是将MLLM纳入跟踪框架的第一项工作。它为现有的视觉和VL跟踪器提供了即插即用的模块增强功能，计算开销有限。
我们引入了一个基于反射的提示优化（RPO）模块，以缩小VL跟踪器和MLLM之间的知识差距。通过反思跟踪反馈，RPO模块可以迭代优化MLLM的提示，最终为跟踪目标生成准确和相关的描述。与数据集中的人工标注文本相比，这些描述在跟踪性能和图像文本对齐方面都更优越。
我们提出的ChatTracker在多个跟踪数据集上实现了SoTA性能。我们进行了广泛的实验，包括消融研究，以证明所提出的方法及其各个模块的有效性。

#自动驾驶感知算法面经

本人2022年4月和2023年7月两次跳槽找工作，面经总结在这里，希望可以帮到需要的朋友。

项目相关的问题主要和经历有关，参考性不大。

2023年7月

1. 文远知行

自动标注算法岗位

项目经历问的不深

coding两道题。

leetcode 55 跳跃游戏。

NMS python。

2. 易控智驾

面试体验较差，不说了。

3. 斑马

coding：买卖股票基础版

工作时间早十点，晚上八九点

4. 蔚来

第一轮：

项目问的比较细

几个公开数据集的lidar区别，对点云、模型检测的影响

domain adaption相关的方法，如何缩放点云

radar检测的具体优化。pointnet和pointnet++的区别

pnp calibration

栏杆检测为什么不用网络学习？

BN的mean和std的dimension，有哪些可学习的参数，train和test的时候怎么用

coding：python 计算两批shape不一样的box的IoU。不用for循环。

numpy的broadcast

自认为有技术领先性

第二轮：

问的都是些比较抽象的问题

对视觉3d检测算法的了解。

举例工作中遇到的困难，（技术／项目），如何解决的

对之前公司的感知算法的问题，看法认识

对未来自动驾驶算法的看法

coding：未知形式的函数f(x)，零点在[-1,1], 求零点，精度要求1e-4

5. 有个机器人

纯纯八股文

c++语言特性，构造函数，析构函数

batch norm是什么，原理

MLP是什么，欠拟合，过拟合，

是否了解量化，剪枝

目前是lidar为主，未来会加camera。

主要是做小型物流机器人。

在做安防机器人。

感知团队5-6个人，包括深度学习，slam。

上班时间10-7 。

大小周周六上班。

6. 井松智能

没问什么技术问题，主要介绍下项目

要去合肥出差

工作时间：九点半到六点半

7. 商汤

智慧城市

没问项目就开始coding

coding两道题：NMS，用pytorch手写一个transformer或者conv+bn+fc

8. 禾赛科技

第一轮：

项目问的很细

卡尔曼滤波Q和R怎么调

c++ 解释多态，在哪些场景应用过

vector和list的差别，底层实现，各种操作复杂度

template是否算一种多态？如果不在.h里面定义他的函数，在.cpp里面定义会有什么问题？

公司的优势：软硬件一体，易于沟通解决问题

客户的不同硬件平台，不同的功能需求。

第二轮：

又问了些项目相关的问题。

一堆点，找最大凸包。无序的话用什么排序？极点排序，最慢O(n^2)

第三轮：

现场面试

介绍下最有成就感的一个项目。

coding：快排，时间复杂度为什么是O(NlogN)

c++ segment fault如何debug

vector 和list底层实现，基础操作复杂度

问了些性格相关的问题

9. 字节aml

没有问八股，问了些大模型的较新的技术进展

llama，MAE，flamingo

transformer的encoder和decoder，position encoding，rope。

10. oppo研究院

第一轮：

问了项目中涉及到检测跟踪的算法

十几个人四个方向。检测跟踪2个人，做手机相册相关算法

c++ vector底层实现，基本操作复杂度，

虚函数，设计模式有哪些，用过哪些设计模式

第二轮：

介绍下某项目中对模型做了哪些优化

yolov5，v6，v7

clip有什么问题。为什么，适合什么场景

segement anything：prompt如何输入进网络

认为自己擅长算法的哪些方面

有些算法是外包的，准备转为自研

11. navinfo四维图新

泊车感知算法

传感器：超声波传感器和鱼眼相机

L2行车泊车。今年年中／年末交付

自动驾驶在内部相对独立。

图像感知在北京。

超声波传感器换了新版。输出的信息更多了，需要招人来。

国资背景

众包地图

上半年刚进行改革。压力比较小。

八小时弹性。无事不加班。

12. 商汤自动驾驶

第一轮：

了解哪些目标检测算法，各自的优缺点（anchor，anchor free，transformer）

传感器标定是怎么做的

domain adaption怎么做的

描述两次代码重构的过程和思想

描述卡尔曼滤波的过程，具体如何解决问题的

后融合怎么做的，速度的gt如何得到

coding：dbscan

第二轮：

是否了解learning的tracking？

是否了解sota的bev感知算法

是否能接受加班

13. 理想第一轮。

早九晚六／七

c++写的很多

coding；岛屿数量，延伸：如何统计不同形状的岛屿，如何对不同形状建模表示

描述下dbscan过程

c++ 为什么要用引用传参

目前lidar和融合一共20人

14. 地平线（合资）

第一轮：

加班没有特别频繁。上海会新开office在虹桥／张江。

coding：快排

第二轮：

问的c++问题相对较难：

内存分配，内存池

野指针，一般是什么情况下会产生，如何避免

智能指针，如何实现一个shared_ptr类，各个成员函数什么时候调用，成员变量什么时候更新。

new一个新对象时候发生了什么，如何能只创建对象不分配空间？

调用一个派生类的构造函数时发生了什么？

15. 英伟达

自动驾驶support岗位，每周去车上测试一次

描述图像resize的过程并实现

c++编译出现undefined reference如何debug

迁移软件时，出现找不到的binary怎么解决

c++多态，虚函数，构造函数可以是虚函数吗，为什么

内存泄漏如何避免

c++模板，应用场景

智能指针，shared_ptr, unique_ptr

指针和引用

external

感受野怎么算，如果有branch

描述NMS过程

yolo和ssd的box后处理的具体过程

transformer的self-attention过程

softmax为了让输出更稳定做了什么

2022年4月

ps：以下记录的公司相关的信息已经不太可信

1. 滴滴

第一轮：

pointnet input transform，feature transform

coding 834. Sum of Distances in Tree hard，dp+2dfs

C++ set和ordered set底层实现，insert和erase的复杂度

第二轮：

英文自我介绍&几个简单的问题

主要问的tracking，ukf有没有用，具体的R如何根据mean和std调整

coding https://www.techiedelight.com/find-triplet-with-given-sum-bst/

bst遍历的时间复杂度，3sum用左右指针的时间复杂度：O(N^2)

Time complexity of all BST Operations = O(h).
Here, h = Height of binary search tree

2. 轻舟智航

第一轮：

pointnet input transform，feature transform，

max-pooling可以用什么替代？怎样可以降低nx1024的参数量？

batch norm解决了什么问题？有什么优缺点？需要学习哪些参数？还有其他什么norm？

L1和L2 regularization，什么作用，具体怎么实现的，什么区别，和weight decay什么关系

卡尔曼滤波器，P,Q,R怎么决定K和协方差阵的？

状态量在平面坐标系，观测量在极坐标系，效果不好？

coding 547. Number of Provinces graph dfs

dfs的时间复杂度：O(N^2) 因为每个节点都要去遍历他的children，相当于两层循环

c++：

vector底层实现，空间是连续的吗？vector变量存在堆上还是栈上？里面的每一个值存在堆上还是栈上？

unordered map和map，有序还是无序？底层实现，insert和erase的复杂度

3. ecarx亿咖通

第一轮

coding：DBSCAN

主要业务：智能座舱+自动驾驶

芯片：xinqing科技

感知主要是lidar和camera

去年（2021年）获得了hdmap甲级资质

第二轮：

radar 后融合直接用cluster

偏向于lidar和camera

目前还在实现大部分功能

前装，乘用车，

主线：多V，多R，多lidar

高速+城区，逐步release

双休，九点半到八点，不打卡

徐汇滨江西岸

平台，系统更大，自动驾驶，芯片，智能座舱，

港股上市，

和tech lead面试的问题：

团队的组成？二十多个人做NN模型，研究生，平均四五年以上，大感知团队：有博士，

zhijia，小鹏，mmt，华为，

自己开发的训练模型的平台，pytorch。

平时有发paper或者刷榜的计划安排吗? 会和平时的工作相结合，互相验证。

比较看重员工的什么能力？技术能力，沟通。创造力。

做到25年的规划。

23年单V落地。

主要客户：泊车，adas，吉利汽车下面的。还有一些联合开发。

4. 纵目

一轮技术面：

更复杂的tracking算法。

传感器raw data。

前融合。

freespace 用雷达

视觉->系统供应商->雷达

毫米波雷达感知七八个人，还有信号处理，一共100多人。华为，美团，江淮。

hr面试：

工作时间九点半，五点半／六点半。双休，没有打卡

毫米波雷达感知七八个人

同一批人做量产／预研

中级／高级差不多各一半。

总监工作了十几年。比较平衡。

有mentor

张江

5. 采埃孚

ukf，

除了hm之外的其他匹配算法

观测和预测的相似度计算

PQR都是怎么设置的

单例模式和工厂模式的区别

6. 感铠科技

L2，L3，adas功能实现，主要在底特律

尝试前融合，目前是用原始radar detection和vision

4d radar 从硬件到软件

初创公司

有期权

乘用车

公司名字可能会改，四月份确定

项目制，

马上要A轮

在新江湾城

7. 文远知行

第一轮：

卡尔曼滤波，怎么用同一个filter同时适配车辆横穿的场景

感受野计算。

centernet等基于center的recall不够高，有什么办法来改善

做二分类，有80%的数据是标注正确的，20%是标注失败的，如何训练？

anchor-base和anchor-free的优劣；

如果anchor-based的方法，设置很多不同的anchor，对于非正常宽高比的物体以及小目标会有改善吗，除了计算速度以外会有什么其他问题

c++11之后的新特性有没有用过

智能指针

void test (const std::vector<shared_ptr>& aaa){

aaa[0].b += 1;

}

编译能不能通过

std::vectorgenerate() 和 void generate(std::vector*) 哪个效率高

一般是第二个效率高，因为函数返回值默认会赋值一份空间，除非编译器有做return value optimization

单例模式的实现：static、全局变量、指针判断（默认是空，每次用的时候判断是不是空，空就创建一个）

coding：二叉树的直径 543

上海这边一共50人，感知6～7个人，

大家同时做几个产品线，通用算法

毫米波雷达和视觉相关都有

第二轮：

coding：105. 从前序与中序遍历序列构造二叉树， 7. 整数反转

环卫车项目，要在广州2个月左右，目前是二三十个人，主要是基于已有的融合，tracking框架加入环卫车特有的一些规则

后面稳定下来后可以参与感知算法

8. 极氪科技

面试官是radar负责人

7，8点下班

coding：区间合并 56

目前毫米波雷达只有两个人

背靠吉利，在供应商面前占有强势地位，有conti的4d radar在手

目前可以拿到传感器目标级和点云级的输入

毫米波雷达在高速上比较重要，未来会扩展城区场景

主要来自蔚来，华为

第二轮：

面试官是感知负责人

感知包括定位等，一共目标一百六七十，

感知算法，目标检测这边目标八九十。

前融合，feature级别的融合

量产要求较高

最终目标是城区场景

目前是装的eq5

也会涉及到lidar，融合等算法

九点半之前上班。

9. autox

第一轮：

coding：number of islands

unorder_map map区别，unique_ptr

int const * const x; const放在*右边，指针的指向不能改，这一行第一个const也可以放到左边，const int也不能改 int * const y; 指向int的const指针,int值可以改，指针指向的地址不能改 const int& i = *y; i的值不能改，read only int& j =*y; j是别名，可以改，改了的话y指向的变量也会改

毫米波雷达感知只有美国一个人，国内十几个人在做autox自己的雷达。

也会做和camera，lidar的融合

第二轮：

卡尔曼滤波器，要是系统不是线性的会产生什么问题？

ekf是怎么解决不是线性的问题的？

匈牙利匹配是一个全局最优的，有没有试过其他的匹配方法

coding：判断一个点是否在一个旋转的box内

10. pony

第一轮：

coding：https://leetcode.com/problems/binary-tree-maximum-path-sum/

问了ssd，yolov3，centernet

第二轮：

是否了解radar如何测角测速

coding：无序数组，选三个连续子数组，每个子数组都是两个元素，求这三个子数组的和的最大值

用前缀和思想+

也会做和lidar，camera的融合，

有不同的项目线，基本上用同样的code base，自己决定做哪个项目

算法迭代需求主要来自于路测问题和evaluation结果

evaluation工具比较完善

11. 千挂

主要在北京，一共30, 感知5-6个人，前融合

coding：实现shared_ptr

两个bst，各选一个数，加起来等于target

12. 主线科技

第一轮：

重卡，物流运输，

干线物流+港口物流：L4，无安全员。

北京：港口，L4前瞻调研，lidar和vision提供general感知，地图等。300人。

按照博世系统来，

上海：算法十个人，平均工作五年以上

去年（2021年）九月份成立，主要是为了高速干线物流量产，落地，合作商用oem top2，radar后融合with lidar和vision，环境搭建，会来一位大佬，做过前后融合，目前没有人做radar，打算招7～8个人。目前是用目标级输出，未来用点云。50人->100人。算法三十人。

第二轮：

先做后融合，

当前是L2

第三轮：

日常的工作的大概内容？

路测数据，主导开发的原则，

比较看重员工的什么能力？

背景，学历，个性。

主要是Apollo系统，

组织架构合理，有凝聚力

毫米波雷达+融合。

嘉定安亭。上海汽车城大厦。九点到六点半。十一点半到一点午休。没有打卡。

13. 云骥科技

第一轮coding: 54. 螺旋矩阵

感知15个人，lidar，camera，radar，

干线物流，城市货运，乘用出行三个场景，从城市场景开始做？

做一个统一的平台，优先做robotaxi。然后做robo bus

园区L4无人小巴，计划六月份在上海公共道路

robotaxi已经有公司在做了，和友商比较的核心竞争力是什么？域控，有自己的gpu，不用ipc

团队完整，资金足够，王京傲的影响力。

自驱力，自我成长，团队合作精神。

14. 禾多科技

代客泊车和自动驾驶

第二轮

有多个项目

5R + 1V

5R + 7V

5R + 7V + 3L

一个人会参与多个项目

上海这边感知4/5个人

15. appen澳鹏

第一轮：

澳洲上市的外企

主要工作：数据预处理，后处理，算法开发。

上海有两个分部：local和global。这个岗位负责global业务，准备招4~5个人

流程：本地验证，和annotator合作验证，跑过线上ab test，由engineer部署。

第二轮：

coding：两个排好序的数组，找公有元素。

Product quantization (PQ)

问了概率计算，sample数据实现。

个人的优缺点

主要客户：Google，Apple，

16. 智加

coding：number of islands

量产由其他team负责，这个team负责预研及量产。

17. 商汤

点云和图片的区别

pointnet为什么没有用conv？

focal loss的参数如何调

有哪些loss

anchor free和anchor based的区别

anchor-free的target assign是怎么做的，怎么解决多个目标中心点位置比较靠近的问题？

centernet网络输出是什么

描述卡尔曼滤波器

如果分类问题中几个类别有overlap怎么办，如何设计网络结构

是否了解mmdetection的hook

如果需要在mmdetection中加一个backbone，需要改哪些代码？

coding：二叉树中序遍历，不用递归

18. 禾赛科技

第一轮：

数据，标注，感知，后处理，工程

15个人，点云特征，十点-八点

第二轮：

coding：环形链表，每一个node是一个point（x，y），连起来是一个多边形，判断凸凹性

19. 均胜电子

准备单独上市，去年（2021年）刚成立，准备从100人扩张到200人

目前有五家公司在谈合作。

先做国内再做国外

算法：感知10人->20人。

主要做L4 taxi，L2，L2++，芯片

目前主要在高速场景

老板郭济顺

客户稳定，传统tier1，有积累，有资源，70%业务来自于国外

第二轮：面试官以前在上汽，主要做视觉感知，七八年

上海office在莘庄。莘学路。两栋楼。

有食堂。

九点-五点。

#如何做vslam

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

短短4年的时间，vslam就犹如过气网红般声量渐失。曾经这个话题，还能引来各路大佬欢聚一堂好不热闹，如今曲终人散，门前冷落鞍马稀。今日赶个晚集，借这个话题做个我这几年开发的几个vslam项目总结，倘若能有一场时空对话，我将告诉曾经的我如何做这个事情。

衣带渐宽终不悔，为伊消得人憔悴。

SLAM 技术会是一场泡沫吗？

1.知彼

当被安排某个陌生的工作的时候，想必大家心情是这样的：

学习两年多，感觉SLAM太难了，大家对此有什么想法？

自己，队友，老大都是小白也没关系，都没思路也没关系，可以去搜搜别人工作先。每一个好厨子都肯定先是一个好吃货。当我从别处知道一个新概念的时候，那至少说明第一个螃蟹已经有人吃了，我可以去搜搜他的“小x书”看看那些“网红博主”的心得。

算法领域的“小x书”大家都懂：github，在里面搜搜高流量（star）帖子就好了。在这个“知播间”里我已经替家人们汇总好了：

请问是否有开源的实时视觉里程计？

通过上述总结，以特征点为例，可以发现框架性工作为vins，msckf，orbslam，kimera，这几篇给我们提供了优秀的ceres，滤波，g2o，gtsam的pipeline和学习手册，堪称vslam领域的基础设施。大量后来者在白嫖..啊不，致敬这些作品后进行二创。

vslam要干哪些事情呢？有特征提取和匹配，状态优化，深度解算，回环检测/VPR，全局BA/PGO。

在扫过大量二创后，发现他们都比较关注特征提取和匹配这个环节，尤其超爱线面特征。配合深度学习食用后又交叉到感知去了。

坚守SLAM还是拥抱大模型？

我对3dgs/nerf和事件相机的slam方向一直不感冒，可能是在企业里呆惯了也没读过博的缘故吧，在我有限的认知里，我看不到这几个方向落地的可能性，更像是学术圈闭门造车的自嗨。算法工程师算是相对比较贵的岗位，若只顾着发论文玩demo讲故事而不靠产品持续造血，当资本的浪潮褪去时，还是会略显尴尬吧。

方向错误是最可怕的事情，你越努力，朝错误的方向走得越远，沉没成本越高，就越难回头，也越跟不上。

这样的例子有很多，苏联和美国在计算机领域本在同一起跑线，甚至他们的数学更强，但是他们发展晶体管而不是集成电路，他们玩三进制而不是二进制，走错了路就再也追不上了；还有日本新能源科技树点到了氢上，已经彻底跟不上中美对步伐了，甚至他们的铁杆盟友乌克兰把他们的氢能源车拿去做炸弹刷给榜一大哥俄罗斯，这谁敢开他们的车？

对错误路线的判断取决于认知，认知局限导致走错路很可怕，明知故走就更可怕了。

2.知己

知己知彼，百战不殆。知彼，是为了知道别人在想什么干什么，知己，是为了知道自己啥条件啥需求。

啥需求？

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取？

室内还是室外，地上跑的天上飞的还是水里游的，静态还是动态环境，里程计还是建图，等等..

还有一个容易被忽略的点：初始化。初始化分为静态初始化和动态初始化，静态初始化只适用于带imu的。

vins的单目动态初始化让我格外印象深刻，得瞅着一个地方剧烈的动弹几下才行；而msckf，kimera就更显佛系，在那呆着不动把imu初始状态维护好就行了。至于哪种初始化更好就是仁者见仁智者见智，萝卜白菜各有所爱，一千个读者有一千个哈姆雷特的事情了。

啥条件？

数据频率，传感器数量质量类型（钞能力），标定，时间对齐等等。没条件也呆胶布，不是还有那么多数据集嘛。

3.没事走两步

把心仪的方案下载下来，编译配置，跑个demo。实践是检验吹牛的唯一标准。

那些经过普遍检验过的方法如果没跑出来，要么数据有问题，要么标定有问题，要么镜子里的吴彦祖有问题。

经过这一步之后，想必各位彦祖心里已经有信心了，就可以确定原型代码是哪篇了。

4.读论文和代码

先看代码后看论文。论文有时候像渣男口里的情话，让人脸上不禁激荡起一抹少女般的红晕；有时候像孔乙己讨论“茴”有多少种写法，高深莫测，回味无穷。代码里10行搞定的事情，他再配上高端晦涩的公式若干和滔滔不绝的长篇大论，令无数信徒迫不及待地一键三连，献上虔诚的膝盖，竞相折腰。原本木讷呆板的理工生，此时竟也学会了花言巧语，一口一个大佬大佬的叫嚷着，让人心里暖暖的。而冷酷无情的代码却化身最后的轻语，让人沉默又破防。

好在，代码是论文的照妖镜。就算看不懂代码里的公式，但是他干什么用的一定能测出来，而论文则可能会因为先验知识的缺乏而令人摸不着头脑。正如阅人无数的海王，情场得意的高手，早已品尝过人生百态，世态炎凉，在轻易看透了对方那点小心思后，一切便尽在把握。毕竟比起他说的什么，我更相信他做的什么。

为什么自学编程那么难？

看完代码后再看论文，此时论文里的内容，像久别重逢的挚友，失而复得的旧爱，回头是岸的浪子，沸羊羊的美羊羊，柳暗花明，豁然开朗。

原作的心思就像少年的女神一样深不可测，捉摸不透，令人浮想联翩。不说原作，很多人可能甚至连上个星期自己写的代码都看不懂，蓦然回首，chatgpt竟比我更懂我。因此先不要死磕，能run就行，慢慢理解。如果前方有一堵墙，老实人会拿头撞得头破血流，皮开肉绽，而小机灵鬼，会避其锋芒，另辟蹊径。小心思我读不懂，但身体是诚实的。

先模块化调试，理解数据流在不同函数之间流转过程的产出，假以时日，黑箱变白箱。

5.开始二创

想必到这一步时，脑子里肯定已经有很多idea了。如果还没有，可以继续看别人的二创，现在2024年出来的vio还是有点线特征这个思路的。因此，可以走别人的路，让别人无路可走。说不定你会化身芳心狙击手，你写的论文如蜜罐里的甜言蜜语，让审稿人小鹿乱撞，心神不宁，坐立不安，如痴如醉，辗转反侧，坠入爱河，仿佛回到那年夏天，看着十指相扣的TA。不知是一不小心还是欲拒还迎，被轻而易举的击中软肋，highlight和best paper就半推半就的献给了你。而你，我素未谋面的老熟人，翻身做了大佬，春风得意，容光焕发，便可在朋友圈里昭告天下，衣锦还乡。而企业里牛马们的二创基本是数据适配，框架重构，性能优化，基于自有场景corner case堆if，年会上鲜艳的大红花，说不定就能别在你笔挺的胸前，一想到刚满18岁的hr小姐姐的回眸一笑，是不是还有点小激动。

6.知识迁移

slam领域就像家一样，里面个个都是人才，说话又好听，想必各位和我一样，超喜欢呆在里面的。

曾经的slam犹如正襟危坐的高冷女神，但在知识的传播中不断去魅，现在逐渐成为了平易近人的邻家小妹。这一篇换一下语言风格，转载搬运请私信，近期周更，家人们点点关注不迷路。

#GoalFlow

端到端轨迹SOTA！中科院&地平线：解锁端到端多模态轨迹新框架

在自动驾驶场景中，很少有一个合适的轨迹满足所有场景。最近的方法越来越关注多模态轨迹分布的建模。然而由于高轨迹发散以及制导和场景信息之间的不一致，它们受到轨迹选择复杂性和轨迹质量降低的影响。为了解决这些问题，中科院&地平线等团队最提出了GoalFlow，用于生成高质量的多模式轨迹，这是一种有效约束生成过程以生成高质量、多模态轨迹的新方法。为了解决基于扩散的方法中固有的轨迹发散问题，GoalFlow通过引入目标点来约束生成的轨迹。GoalFlow建立了一种新的评分机制，根据场景信息从候选点中选择最合适的目标点。此外采用了一种高效的生成方法——流匹配来生成多模态轨迹，并结合了一种精细的评分机制来从候选者中选择最佳轨迹。GoalFlow在Navsim上得到了验证，并取得SOTA结果（90.3的PDMS），大大超过了其他方法，为自动驾驶提供了稳健的多模式轨迹。与其他基于扩散策略的方法相比，GoalFlow只需要一个去噪步骤就可以获得优异的性能。

论文链接：https://arxiv.org/abs/2503.05689
代码链接：https://github.com/YvanYin/GoalFlow

#2025年Occupancy还有入门研究的方向吗？

1、背景

随着自动驾驶及更广泛的机器人技术的蓬勃发展，无人系统对准确、高效且通用的环境感知能力的需求愈发迫切。其中，Bird’s-Eye View (BEV) 感知因其无遮挡的空间结构表示受到了广泛关注。然而，由于BEV缺乏对高度信息的建模能力，难以全面理解3D环境结构。相比之下，对周围环境进行稠密三维 (Dense 3D) 建模能够使车辆或机器人系统具备对环境更全面、细致且连续的感知，为复杂场景下的理解与决策提供坚实支撑。由此，基于占用网格 (Occupancy) 感知作为一种稠密建模3D空间占据状态的技术，近年来迅速崛起，并成为感知系统下一代形态的代表。

具体而言，Occupancy是将三维空间以固定尺寸的体素为单位进行划分，目标是预测每个体素单元的占据状态，如（“空闲”或“被占据”），甚至可进一步将“被占据”的类别进一步细化为语义占据类别（如车辆、行人、建筑等），从而构建出稠密、统一的空间表示。Occupancy具备对环境的三维感知能力，可对不规则的障碍物进行预测，且能够高度兼容下游任务，如轨迹预测、规划、决策、控制等模块。在端到端自动驾驶系统中，Occupancy已成为连接感知与决策的重要中间接口。目前，随着实际需求升级和技术迭代，Occupancy的感知任务又可分为3D Occupancy Prediction和4D Occupancy Forecasting，前者专注于对当前时刻的体素占用预测，而后者则增加了时间维度，着眼于未来时刻的占据状态预测。本文在调研已有文献基础上，融合笔者的个人理解，将将围绕上述脉络展开讨论，全文分为四大部分：

3D Semantic Scene Completion
3D Occupancy Prediction

3.1 基于激光雷达的 3D Occupancy Prediction
3.2 基于摄像头的3D Occupancy Predition
3.3 基于多模态融合的3D Occupancy Prediction

4D Occupancy Forecasting
主要研究挑战
未来研究方向
总结

在此基础上，我们希望帮助读者理清自动驾驶 Occupancy 感知的发展现状，以及可能的未来突破方向。

2. 3D Semantic Scene Completion

3D Semantic Scene Completion（3D SSC）旨在在稀疏或不完整的观测输入下，完成三维场景的几何和语义信息推理。SSC不同于传统的3D语义分割，其不仅需完成对可观测部分的语义标注，还需对不可观测区域进行几何与语义的补全推理[1]。这种任务依赖于从输入数据中学习到的空间结构先验与上下文关联，极具挑战性，尤其是在大规模、遮挡严重的户外自动驾驶场景下。该任务最初主要应用于室内场景，但近年来逐渐向室外自动驾驶环境迁移，并成为Occupancy感知领域的关键组成部分，SSC的主要数据集及形式如下图所示。

假设一个不完整的三维场景表示为，3D SSC的目的是通过一个函数，预测一个稠密的、带有语义信息的三维场景，使得尽量逼近真实三维场景。一般情况下，明显比稀疏。此时，通常需要从大量的配对数据中学习先验知识来完成 SSC任务。

SSC这一研究方向最早由Song等人[2]提出，并强调语义信息与几何结构信息是密不可分、相互依赖的两类关键信息。因此，SSC不仅要识别出哪些空间区域被物体占据（occupancy），还需进一步推理出这些占据区域所对应的语义类别（如建筑、人、车辆等）。这说明了语义-几何协同建模的重要性，也为后续研究提供了理论基础。随后在SUNCG等合成数据集上开展了大量研究。SSCNet[2]使用3D CNN结构，对输入的RGB-D数据进行体素化后直接进行体素分类，作为最早提出SSC任务的模型，为后续研究提供了理论基础。JS3C-Net[3]提出融合2D与3D双流语义建模的方法，基于投影一致性假设的监督方式，有效提升遮挡区域语义补全能力。该方法标志着SSC研究从单一模态建模迈向多模态融合。

SSC作为Occupancy感知的重要前置任务，其核心优势在于：1）、提供了一种统一建模几何与语义的表示方式；2）、关注区域建模能力，贴合真实场景需求；然而，SSC也存在一些挑战，如真实标签稀缺、动态场景适应困难、室内室外数据分布差异显著等。随着Occupancy建模任务边界的扩展，SSC正逐步从研究辅助走向实际部署，其方法与思路将在后续章节的3D与4D Occupancy感知中继续延展。

3、3D Occupancy Prediction

3D 占用预测（3D Occupancy Prediction）旨在从传感器（如多目相机或激光雷达）获取的场景信息中推断出环境中每个体素（Voxel）的状态空闲还是被占据，并可进一步赋予语义类别，以获得对场景的稠密三维理解。给定一组传感器的输入，其中可以是来自多模态的输入数据（如RGB图像、深度图、点云等），目标是预测一个稠密的三维体素网格：，其中每个体素位置表示三维空间中的一个体素的尺寸，为其占据状态标签。它不仅要推断可直接观测到的区域，还需对被遮挡或稀疏观测的数据进行补全，如下图所示，从而在三维空间中生成一致、完整且带有语义信息的占据表示。

自动驾驶环境感知主要使用的传感器为摄像头和激光雷达，根据输入数据的不同模态，该任务可主要分为：基于激光雷达、基于摄像头和多模态融合的3D Occupancy Prediction。

3.1 基于激光雷达的 3D Occupancy Prediction

激光雷达的点云是带有稀疏属性的，且会受到遮挡，所以激光雷达Occuapncy不仅需要将稀疏点云“补全”为稠密的三维占据预测，还要对物体进行完整的预测。基于激光雷达的占用预测的一般流程如下图所示。

首先，对输入的点云进行体素化（voxelization）和特征提取。然后，通过编码器-解码器（encoder-decoder）模块来增强表示。最后，输出稠密的完整占据结果。

当前工作中，有工作通将点云映射后使用二维分支来进行三维Occupnacy预测，比如DIFs[4]和PointOcc[5]。这些方法有效地简化了计算流程，减少了计算资源。但不可避免的丢失了高度信息，在一定程度上限制了对三维场景的完整理解和感知。虽然三维分支则可以完整保留原始数据中的空间信息，但如何平衡计算效率和精度是一个亟待解决的问题。为了在三维分支中提高内存效率，LMSCNet[6]将高度转换为特征的通道维度，可以在三维空间使用更高效的二维卷积，而不是传统的三维卷积。同时，利用U-Net架构完成语义体素分类。LMSCNet作为少数专注于室外大场景的SSC方法，兼顾了效率与建模能力，在SemanticKITTI等数据集上表现良好。S3CNet[7]提出了一种动态体素融合的后融合策略，引入2D和3D双流结构，通过融合多尺度上下文信息提升不可见区域预测能力，可带来5-12%的性能提升，进一步增强网络对遮挡场景的建模能力。PointOcc 引入三视角空间（TPV）表示点云稀疏结构，结合BEV卷积提升空间建模能力，在高维空间内保持稀疏性，显著提升了效率。SparseOcc [8]和FastOcc [9]针对点云稀疏性问题，采用稀疏卷积与注意力机制结合的方式，在保证计算效率前提下实现高精度预测。

基于LiDAR的Occupancy Prediction方法通常具备较强的结构建模能力和深度感知精度，适用于复杂几何结构和遮挡区域建模。然而，其存在的主要挑战包括：1）、点云分布非均匀，对远距离和低反射强度的区域感知能力弱；2）、数据过于稀疏；3）、成本高，限制其在大规模部署场景中的应用。近年来的研究重点集中于稀疏表示建模、点体素转换精度提升，以及多帧点云信息的聚合策略。

3.2 基于摄像头的 3D Occupancy Prediction

随着自动驾驶系统对低成本、高可扩展性感知方案的需求增加，基于摄像头的Occupancy感知逐渐成为研究热点。主要原因与激光雷达相比，摄像头不仅设备成本低、部署灵活，而且能够捕捉丰富的颜色和纹理信息。基于摄像头的占用预测的一般流程如下图所示。

首先，对图像数据进行特征提取。接着，将二维图像特征转换到三维空间，可以进行空间信息融合以及可选的时间信息融合。最后，通过一个Occupancy Head来预测环境的占用情况。

基于图像的方法可分为单目和多目相机的输入。 MonoScene[10]是首个基于单目图像的工作，采用2D语义分割与几何提升构建体素空间，再利用3D UNet进行语义预测，在无深度监督的条件下实现稠密体素推理。TPVFormer[11]引入三视角表示（top-view、front-view、side-view）作为中间结构，通过Transformer建模不同视角间的空间上下文信息，有效缓解图像到体素的映射不确定性。VoxFormer[12]设计体素查询机制，从图像特征中显式提取与体素位置相关的上下文信息。该方法将2D图像特征通过注意力机制映射到3D体素空间，有效提升了投影精度。OccFormer[13]提出BEV与Volume双分支结构，在BEV中建模长距离上下文。SurroundOcc[14]针对环视图多相机输入的场景，构建3D稠密体素表示，并提出体素卷积结构，在OpenOccupancy等大规模数据集上验证了其出色效果。SelfOcc[15]通过引入可微渲染一致性损失，实现无监督训练场景下的Occupancy学习，该方法打破了对大量3D标注的依赖。更GaussianFormer[16]、GaussianOcc[17]、GaussianFormer-2[18]、GaussianTR[19]等一系列方法将Gaussian Splatting的方法，验证了Gaussian在Occupancy任务的有效性。

基于摄像头的Occupancy感知方法在研究中展现出强大的潜力，特别是在成本受限、对部署灵活性要求高的场景中。其优势在于：1）、多视角与时间序列图像能够提供冗余信息，弥补单帧深度不确定性；2）、图像捕捉的纹理信息有利于语义建模，尤其对小目标和远距目标识别效果更优；3）、可与BEV感知任务共享2D主干网络结构，具备较好的系统兼容性。4）、Occupancy可以作为一种通用的环境感知的表示结果，可兼容多种下游任务。然而，该方向仍面临如下挑战：1）、不准确的深度估计会传导至体素投影阶段，影响整体精度；2）图像信息对遮挡区域推理能力弱，需结合时序建模增强补全效果，会增加计算开销；3）、投影方式选择（显式 vs 隐式）与空间一致性建模尚无统一范式。未来研究有望围绕自监督学习、跨帧语义聚合、多尺度体素表达等方向展开，进一步提升基于摄像头的Occupancy的建模能力。

3.3 基于多模态融合的 3D Occupancy Prediction

尽管单一模态方法在3D Occupancy建模上取得了显著进展，但仍难以全面覆盖复杂场景中的多样性信息。基于摄像头的图像数据可提供丰富的色彩及纹理信息，但对天气、光照等变化非常敏感，且缺乏三维信息。来自激光雷达的点云数据虽然擅长捕捉场景的空间信息，但其过于稀疏且缺乏色彩及细粒度纹理信息。多模态Occupancy感知可以结合多种模态的优势，同时减轻单一模态感知的局限性。基于摄像头的占用预测的一般流程如下图所示。

首先，大多数多模态方法将二维图像特征映射到三维空间。然后，与点云分支提取的点云特征进行融合。最后，融合后的表示经过一个可选的精细化模块和一个Occupancy Head（例如三维卷积或MLP）处理，生成Occupancy预测。其中，可选的细化模块可以是交叉注意力、自注意力和扩散去噪的组合。

在多模态Occupancy感知中，有三类主流的多模态融合策略：1）、Concatenation：将各模态体素特征直接在通道维拼接，再送入共享卷积层进行融合，结构简单，但对模态对齐精度敏感。2）、 Summation：通过轻量网络生成模态权重图，在空间层面进行加权平均，具备一定鲁棒性。3）、Cross Attention：显式建模多个模态间的对应关系，在语义不一致或结构不匹配时展现更强的泛化能力。基于Concatenation的方法中，RT3DSO[20]通过投影，将三维点的强度值与其对应的二维图像特征进行拼接，然后将拼接后的结果输入到卷积层。然而，三维空间中的一些体素可能只包含来自点云分支或视觉分支的特征。为了解决这个问题，Co-Occ[21]引入了几何和语义感知融合模块，该模块可识别包含同时包含点云和像素的体素，并利用KNN选择体素在特定半径内的k个最近邻。OccFusion[22]将图像和点云特征映射到统一体素空间后进行通道拼接，并通过多层3D卷积处理，表现出多模态感知在遮挡区域建模中的明显优势。在基于Summation的方法中，CONet[23]和OccGen[24]利用三维卷积处理多个单模态表示以确定它们的融合权重，随后将这些权重应用于求和点云分支和图像分支特征。在基于Cross Attention的方法中，HyDRa[25]提出了在透视图（PV）和BEV表示空间中整合多模态信息的方法。PV图像特征通过交叉注意力获得BEV点云特征的信息。然后，增强后的PV图像特征被转换为具有深度的BEV视觉表示，该表示与BEV点云特征进行拼接，随后经过Squeeze-and-Excitation层。通过交叉注意力进行融合并得到Occupancy表示。当前最新的融合方法倾向于采用多阶段融合+注意力机制，例如Co-Occ[21]和HyDRa[25]。

多模态融合为3D Occupancy感知带来了显著的性能提升，尤其体现在以下几个方面：1）、利用LiDAR进行几何引导，提升了多模态数据语义一致性；2）、弥补摄像头感知盲区和远距信息不足的局限；3）、在复杂天气、光照变化场景中展现更强鲁棒性。但其仍面临以下挑战：1）、模态对齐误差可能引入噪声，尤其在大角度视差区域；2）、模态间信息冗余导致训练不稳定，需设计更具选择性的融合结构；3）、多模态数据采集与标注成本较高，限制了数据规模的扩展。未来工作可聚焦于：1）、构建统一空间语义对齐框架，实现模态无关的体素特征抽取；2）、利用自监督与知识蒸馏策略减少模态依赖，提升迁移性与实用性；3）、结合大模型探索跨模态语义感知（例如图文融合引导）。

4. 4D Occupancy Forecasting

随着自动驾驶从静态环境感知迈向动态场景理解，Occupancy 感知任务也从单帧的 3D 预测进一步扩展为时序建模问题，即 4D Occupancy Forecasting。该任务旨在过去和当前的感知基础上，预测未来时刻空间体素的占据状态。该方向代表了 Occupancy 感知向预测范式过渡的关键阶段，也成为“World Model”构建的重要支撑模块之一。给定过去的帧以及当前时刻的图像作为输入，4D occupancy forecasting旨在输出当前occupancy 和未来occupancy ，其中分别表示在当前坐标系（）中定义的特定范围的高度、宽度和长度。的每个体素具有个连续状态，以表示其在未来某时刻的占用情况。

Cam4dOcc[26]首次定义了该任务，构建了用于4D Forecasting的数据集及评价指标，其考虑了两类具有不同运动特征的物体，即一般可移动物体（GMO）和一般静态物体（GSO），并将它们作为被占用体素网格的语义标签，如上图所示。OccSora[27]基于扩散模型对未来体素序列进行建模，引入时序一致性损失，保证预测序列的空间连续性。该方法首次将扩散生成引入Occupancy生成领域，显著提升了预测精度。DynamicCity[28]提出了一个新颖的4D激光雷达生成框架，能够生成大规模、高质量的激光雷达场景，捕捉动态环境的时间演变。其将HexPlane作为紧凑4D表示的VAE模型，通过新颖的投影模块将4D激光雷达特征有效压缩为六个2D特征图，显著提高了HexPlane的拟合质量，并基于DiT的扩散模型用于HexPlane生成，通过填充展开操作将HexPlane的六个特征平面重组为一个方形2D特征图，支持多种条件的引入。有效提升了Occupancy的生成质量。

4D Occupancy Forecasting 正处于从“定性建模”向“可控生成”的关键过渡期。相比传统 3D 感知任务，其研究难点和创新点体现在： 1）、如何有效融合历史信息，并引导生成未来占据状态序列？2）、如何建模目标间因果关系和交互行为对空间状态的影响？3）如何处理长时序帧预测中的不确定性？目前大语言模型、自回归Transformer以及控制条件生成策略是主流建模路径。同时，4D预测也推动了Occupancy从感知任务向“物理世界仿真”的演化，其与World Model的结合也是值得探索的研究方向。

5. 主要研究挑战

尽管当前的3D与4D Occupancy感知取得了显著进展，但在实际应用中仍面临诸多挑战。

1）、数据成本高昂Occupancy任务需要体素级别的三维语义标签，这种标签的获取依赖于多传感器标定、时序融合以及人工修正，成本极高。例如在OpenOccupancy中，每一帧的标签生成都需要十数帧点云进行融合，并结合人工检验，大幅限制了数据集规模。此外，由于体素标签本身具有三维结构，其标注不仅耗时，还易受对齐误差、遮挡影响等因素干扰，导致标签噪声对模型训练的影响显著。

2）、遮挡区域推理困难无论是3D还是4D Occupancy任务，对不可见区域、遮挡区域的建模仍是一个难题。尤其是在仅依赖图像或稀疏点云时，难以恢复被遮挡物体的空间分布与语义类别。尽管已有方法通过融合几何先验或多模态策略缓解该问题，但其效果在动态场景、稀疏区域或大尺度遮挡下仍不稳定。

3）、多模态融合一致性差多模态融合虽然理论上可以发挥模态互补优势，但实际中常常面临标定误差、模态信息时序不匹配、融合策略选择不当等问题。这些不一致性可能导致较差的预测结果。Xu 等人指出，在多模态体素空间构建过程中，缺乏统一的对齐表示与规范化机制是导致模态融合误差传播的主要原因之一。

4）、模型训练开销与部署难度大当前主流Occupancy建模方法多采用3D卷积、稀疏卷积或多分支Transformer结构，计算与内存开销显著高于2D感知任务。尤其在高分辨率体素空间下，显存与计算资源成为主要瓶颈。这制约了模型在边缘计算设备的实时推理能力。此外，模型对标定误差、时序对齐等条件高度敏感，也加大了实际部署的复杂度与难度。

6）、动态建模与未来预测不确定性高4D Occupancy Forecasting任务中，未来状态建模的不确定性极高。交通参与者的行为具有多样性和交互性，模型需在复杂场景下合理预测其影响下的空间状态变化。当前扩散模型、Transformer虽然在短时间预测上展现出较好效果，但在长时序下仍易出现模糊预测、不合理移动等问题。

7）、标准化评估体系尚不健全与成熟的感知任务（如目标检测、语义分割等）相比，Occupancy任务的评估体系仍在发展中。现有指标如 IoU、mIoU、ray IoU、occupancy flow consistency 等未形成统一标准，导致不同论文间结果难以横向比较。此外，如何在评估指标中同时衡量几何、语义、运动等多维度性能，依然缺乏系统设计。

6. 未来研究方向

Occupancy感知任务正处于高速发展与多方向演化阶段，未来可能的研究方向如下：

1）、感知任务的统一中间表示Occupancy不仅是感知的结果，更逐渐演化为连接感知、决策与规划任务的统一表示接口。与BEV或稀疏对象表示相比，其具备更强的几何一致性和语义覆盖能力。

2）、通用世界模型演化Occupancy本质上是一种稠密的世界建模形式，其静态与动态建模能力、对遮挡的空间补全能力，使其具备成为构建World Model的基础。

3）、自监督与无监督训练范式目前大多数Occupancy模型仍依赖高成本的监督信息。可通过自监督、无监督方式解决该问题。

4）、高效推理与部署Occupancy任务对存储和计算要求较高，未来可从稀疏建模、轻量化（蒸馏、剪枝）等方法进行探索。

7. 总结

Occupancy感知作为连接感知、认知、预测和决策的关键中间层，正逐步成为自动驾驶系统中不可或缺的模块。本文围绕Occupancy感知的研究现状与未来趋势进行了系统梳理，并将该领域划分为3D Semantic Scene Completion、3D Occupancy Prediction（包括LiDAR、Camera与多模态融合三类方法）、4D Occupancy Forecasting等方向。

可以看到当前Occupancy感知已逐步从静态重建走向动态世界建模，从单帧推理迈向长时间序列建模，从单一模态转向多模态融合与自监督预训练，同时也显现出与World Models、大模型等模型的融合趋势。尽管该领域仍面临数据标注高成本、遮挡区域重建困难、融合一致性不佳、部署效率低等一系列挑战，但围绕通用表示学习、高效推理结构、自监督学习范式及开放世界建模策略的发展，已逐步为Occupancy感知的广泛落地奠定基础。

未来，随着传感器硬件能力提升以及多模态预训练大模型的发展，Occupancy可能成为下一代智能体通用世界表示语言，在机器人、增强现实、数字孪生等更广泛场景中发挥重要作用。我们期待Occupancy感知的研究从建模精度、系统集成能力到语义可解释性与跨任务泛化能力全面提升，推动自动驾驶及更广泛智能系统的演进迈入新阶段。

参考文献

[1]. 3D Semantic Scene Completion: A Survey
[2]. Semantic scene completion from a single depth image.
[3]. Sparse single sweep LiDAR point cloud segmentation via learning contextual shape priors from scene completion.
[4]. Semantic scene completion using local deep implicit functions on lidar data.
[5]. Pointocc: Cylindrical tri-perspective view for point-based 3d semantic occupancy prediction.
[6]. Lmscnet: Lightweight multiscale 3d semantic completion.
[7]. S3cnet: A sparse semantic scene completion network for lidar point clouds.
[8]. Fully Sparse 3D Panoptic Occupancy Prediction.
[9]. FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D Bird's-Eye View and Perspective View.
[10]. Monoscene: Monocular 3d semantic scene completion.
[11]. Tri-perspective view for vision-based 3d semantic occupancy prediction.
[12]. Voxformer: Sparse voxel transformer for camera-based 3d semantic scene completion.
[13]. Occformer: Dual-path transformer for vision-based 3d semantic occupancy prediction.
[14]. Surroundocc: Multicamera 3d occupancy prediction for autonomous driving.
[15]. Selfocc: Self-supervised vision-based 3d occupancy prediction.
[16]. GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction.
[17]. GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting.
[18]. GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction.
[19]. GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding.
[20]. Real-time 3d semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution.
[21]. Co-occ: Coupling explicit feature fusion with volume rendering regularization for multi-modal 3d semantic occupancy prediction.
[22]. Occfusion: A straightforward and effective multi-sensor fusion framework for 3d occupancy prediction.
[23]. Openoccupancy: A large scale benchmark for surrounding semantic occupancy perception.
[24]. Occgen: Generative multi-modal 3d occupancy prediction for autonomous driving.
[25]. Unleashing hydra: Hybrid fusion, depth consistency and radar for unified 3d perception.
[26]. Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications.
[27]. OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving.
[28]. DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes.

#轨迹预测笔记：自动驾驶轨迹预测综述剖析

1 引言

准确预测众多交通参与者（agent）的未来行为对自动驾驶决策来说十分重要。

因此，作者将轨迹预测分为了scenario-based和perception-based两种类型。

scenario-based类：根据周围agent的历史状态以及环境信息（如HDmap）来预测agent的未来状态，这种方法是一种结构化的方法，摒弃掉如图像、点云等传感器数据，更集中于分析交通环境以及agent之间的交互。

perception-based类：顾名思义，直接用来自于传感器的感知数据，直接预测agent未来的轨迹，这种方法能更好地利用原始数据，以理解更复杂的场景。

两种预测pipeline的区别

从发展历史来看，作者总结了三个阶段，即physics-based models, rule-based models, and deep learning-based models.

其中physics-based models通过物理规则来预测短期的轨迹，通过车辆位置、加速度，航向角等信息来估计未来的行动，但是这种方法忽视了环境因素以及agent之间的交互，无法适应复杂环境。

rule-based models基于交通规则以及人类的先验知识，以一种固定的方式预测轨迹，这种方式符合直觉，且计算复杂度低。然而，这种方法缺乏泛化能力，难以应对复杂场景下的非线性交互。

deep learning-based models是目前最主流的轨迹预测方法，也是这篇文章所讨论的重点，在这类方法的早期阶段， supervised learning，如RNN-based networks、Graph-based networks、Transformer-based networks，在分析时空数据的复杂性上的表现十分优秀，但这类算法需要大量高精度的标注数据，而self-superviesed learning方法，却能够通过数据增强等手段，缓解高质量数据不足的问题。

Overview of motion forecasting methodologies, challenges, and future directions for autonomous vehicle trajectory prediction

2 问题表述

交通参与者（agent）的定义：TA，即自动驾驶车辆主要考虑的agent；EA，即自动驾驶车辆；SA，道路环境中其他能够影响EA的物体，如自行车、行人等。

2.1 输入类型

轨迹预测的输入能够分为三种类型，即Scenario Representation、Bird’s Eye View (BEV) representation以及raw perception data.

raw perception data指的是来自于传感器的原始数据，如三维点云以及二维图像

三维点云数据格式

二维图像数据格式

Scenario Representation包括两部分High Definition (HD) Map 以及过去时间段内 SAs的状态。

其中HD Map的数据格式如下

（x,y）为坐标，Attr为路段的特性，如是否为交叉口，是否有限速等，Light代表了信号灯信息（红黄绿)。

对于SAs的过去信息，则为：

其中X代表了N个SA在过去时间内的状态，包含位置，速度，朝向等信息。

BEV representation 是将原始感知数据转化为2D网格数据，简化处理复杂空间关系的流程。

其中和是 BEV平面的二维坐标，f()代表了从原始数据中提取的特征，如是否占用，速度，或者如道路标记、可驾驶区域等语义信息。

2.2 输出类型

1）Marginal Trajectory Prediction：TA的轨迹不会影响到其他agent，将每个TA的轨迹分布视作独立的，如下：

2）联合多智能体预测：考虑这一场景下所有TA的未来轨迹的交互作用，将其视为一个整体进行预测，其目标函数如下：

两类输出的区别，前者只考虑了单个TA，后者考虑多个TA

目前主流的预测输出都是后者。

3 目前的挑战

在自动驾驶领域，对交通参与者（TAs）的运动预测对于自动驾驶汽车（EA）的下一步行动具有很强的辅助作用。然而，由于交通环境的复杂性和灵活性，准确预测TAs的运动仍然是一个具有挑战性的任务。

高精地图信息的融合

为了推动自动驾驶领域的发展，研究人员利用更详细的特征，并通过构建高精地图（HDMaps）实现了车辆行为预测的厘米级精度。这些高精地图提供了丰富的上下文信息，例如车道边界、交通标志和道路几何形状，这些信息对于做出精确可靠的预测至关重要。然而，高精地图数据格式和内容缺乏统一标准，这给数据对齐和关联带来了重大挑战。如何在车辆行为预测中建立高精地图与交通参与者轨迹之间的数据对齐和关联，并有效整合这些信息，是一个巨大的挑战。

不同车辆之间的动态交互

道路环境对车辆行为的影响是静态的，而自动驾驶汽车（SAs）与交通参与者之间的交互是动态且不确定的，这给捕捉这种复杂的相互作用带来了重大挑战。例如，车辆在交叉路口右转的决策涉及与右转车道的静态环境的交互。然而，SAs与TAs之间动态且多变的交互增加了复杂性，使得对这些交互模式的分析和解释变得更加困难。

车辆行为的多模态性（不确定性）

在自动驾驶中，理解交通参与者和自动驾驶汽车的行为至关重要，因为它们具有固有的多模态性，即单一历史轨迹可能导致多种潜在的未来轨迹。将交通参与者的轨迹与道路信息相结合，可以为驾驶员的驾驶风格提供有价值的见解，尤其是他们对特定路段的熟悉程度。对交通参与者历史运动模式的深入分析能够识别出各种可能的未来行为。因此，自动驾驶系统中的有效运动预测模块应该能够识别所有这些潜在的未来行为。这种能力对于确保系统的可靠和安全运行至关重要。

缺乏可解释性

许多现有的运动预测模型采用数据驱动的方法来学习轨迹分布。尽管这些方法可以通过利用大型数据集实现高水平的准确性，但它们往往会导致交通参与者决策过程缺乏可解释性。这种“黑箱”性质使得人们难以理解或解释模型为何会预测某些行为，而这对于自动驾驶系统的安全性和可信度至关重要。此外，过度依赖纯数据驱动的技术可能导致模型过度拟合特定场景或数据中存在的偏差，从而降低模型在多样化和动态的真实世界环境中的泛化能力和鲁棒性。因此，迫切需要开发不仅能够准确预测运动，还能清晰揭示影响这些预测的潜在因素的方法。

4 训练和验证

4.1数据

除表格之外，笔者注意到作者没有写highD等数据集。

说明：

场景时长 (s)：表示每个场景的总时长，包括观察窗口和预测窗口。

场景数量：表示数据集中包含的总场景数。

典型模型：列出在该数据集上应用的代表性模型或方法。

4.2评估指标

为了在自动驾驶运动预测中获得定量结果，标准化的评估设置和常用的评估指标至关重要。这些评估指标可以从以下三个层面进行总结：

4.2.1 几何级评估指标

几何测量是评估预测轨迹与真实轨迹相似度的关键指标，能够有效反映预测的准确性。

1.最小平均位移误差（minADE)

用于衡量所有未来时间步的平均 L2 距离。minADE 用于评估多模态轨迹预测，通过计算最佳预测轨迹与真实轨迹之间的平均 L2 距离来衡量误差。对于每个目标的K条预测轨迹，公式为：

2.最小最终位移误差(minFDE)

FDE 用于衡量所有未来时间步的终点 L2 距离。minFDE 用于评估多模态轨迹预测，通过计算最佳预测轨迹与真实轨迹在最终时间步的误差来衡量。对于每个目标的条预测轨迹，公式为：

3.漏检率（MR)

指所有预测轨迹的终点误差超过 2.0 米的场景数量。

4.2.2 概率级评估指标

负对数似然（NLL）的不同版本可以用于概率测量，通过比较生成轨迹的分布与真实轨迹的分布来评估不确定性，尤其是对于多模态输出分布。例如，对于拉普拉斯分布的 NLL：

4.2.3 任务级评估指标

任务级评估指标用于评估轨迹预测对下游规划模块的影响。例如，基于规划信息的准确率指标（如 piADE 和 piFDE）可以表示为：

5 模型架构

无论是SL还是SSL，模型结构都离不开Encoder和Decoder

5.1 监督学习架构（SL）

SL模型的架构

监督学习的发展较早，在一开始，其对map信息和agent信息的利用还是将其转化为栅格数据，再利用CNN等手段来分析其中的时空关系（Rasterized-based Encoder），但是这种方法会损失环境中的拓扑关系。更进一步的研究将map信息和agent信息进行向量化，采用（Graph-based Encoder）提取向量特征，这种方法能够提取到agent之间的交互特征。此外，Attention-based Encoder利用transformer架构来解决多模态预测的问题。此外，也有研究将感知层和预测层直接相连，将感知信息直接编码，提取轨迹信息，用于预测轨迹。

至于解码方面，共有两种方式，分别为Anchor-Conditioned Decoding和Anchor-Free Decoding。nchor-Conditioned Decoding

Anchor-Conditioned Decoding（基于锚点的解码）

基于锚点的解码方法通常将数据集中的先验知识作为网络输入的一部分，通过条件概率生成多模态轨迹。这种方法依赖于预定义的锚点（anchors），最终输出的轨迹会被限制在这些锚点定义的集合内。其有效性高度依赖于锚点的质量和相关性。基于锚点的解码方法进一步细分为以下几种：

Goal-based Decoder（基于目标的解码器）:基于目标的解码器假设轨迹的终点包含了大部分不确定性，因此首先预测交通参与者的终点目标，然后基于该目标生成完整的轨迹。终点目标通常是通过对预定义的稀疏锚点进行分类和回归得到的。
Heatmap-based Decoder（基于热图的解码器）:基于热图的解码器将轨迹预测的输出格式定义为概率热图，通过全卷积模型生成热图来表示交通参与者未来位置的可能性分布。
Intention-based Decoder（基于意图的解码器）: 基于意图的解码器通过手动定义交通参与者的意图（如左转、换道等），并为每种意图学习独立的运动预测器。

Anchor-Free Decoding（无锚点的解码）

与基于锚点的解码方法不同，无锚点的解码方法不依赖于预定义的锚点，而是直接从解码器输出预测轨迹。这种方法避免了锚点带来的空间先验信息限制，但可能导致模型倾向于学习高频模式，而对低频模式的学习不足，从而在长期预测任务中精度下降。为了解决这一问题，提出了一种可学习锚点的解码范式，结合了基于锚点和无锚点方法的优点。

5.2 自监督学习架构（SSL）

SSL-based architecture for motion forecasting.

在文章的第5.2节“Self-Supervised Learning-based Architecture”中，作者详细介绍了自监督学习在自动驾驶车辆运动预测中的应用。自监督学习利用大规模未标记数据来学习更全面的特征表示，从而提高模型在下游任务中的泛化能力和鲁棒性。以下是该节内容的总结：

5.2.1 初步探索

VectorNet：首次在自动驾驶运动预测中引入自监督学习，通过图神经网络完成地图信息的图补全任务，为后续自监督方法奠定了基础。
PreTraM：针对轨迹数据有限的问题，提出通过对比学习生成额外的栅格化地图补丁，用于训练鲁棒的地图编码器。同时，采用预训练策略增强地图和轨迹编码器的学习能力。
SSL-Lanes：提出一系列针对单一输入模态（如车道掩蔽）的预训练任务，包括交叉口距离计算、操作分类等，通过复杂特征提取提升模型性能，无需额外数据。

5.2.2 数据增强

Azevedo et al. (2022)：开发了一种利用高精地图生成潜在轨迹的方法，通过合成速度和图节点的连通性生成轨迹，以增强有限的运动数据。该方法需要复杂建模，且在处理非标注数据时面临挑战。
Li et al. (2023)：提出一种生成伪轨迹的策略，通过预训练阶段生成符合车道结构的合成轨迹，缩小合成数据与真实数据之间的域差距。
Wagner et al. (2023)：采用双阶段训练方法，预训练阶段使用基础地图数据学习相似视图的嵌入，微调阶段使用标注的交通参与者历史数据提升运动预测精度。

5.2.3 MAE（Masked AutoEncoder）方法

Traj-MAE：首次提出用于自监督轨迹预测的掩码自编码器，分别对轨迹和地图输入设计独立的掩码-重建任务，探索多种掩码策略（如社交和时间掩码），但未充分强调预训练阶段中交通参与者与道路之间的空间关系。
Forecast-MAE：设计了一种新颖的掩码策略，通过掩码部分交通参与者的过去轨迹、其他参与者的未来轨迹以及随机掩码车道，使模型能够有效捕捉交通参与者的行为模式、道路环境特征及其相互作用。

5.2.4 辅助任务设计

POP：针对观测数据不足导致性能下降的问题，提出一种重建分支，通过掩码和重建头重建部分观测数据的缺失历史部分。
SEPT：整合三种自监督掩码-重建任务，分别针对场景输入中的交通参与者轨迹和道路网络，用于预训练场景编码器，使其能够捕捉轨迹的动力学特性、道路网络的空间结构以及道路与交通参与者之间的相互作用。

5.2.5 语言建模方法

STR：将运动预测和规划的所有组件（包括地图信息、其他道路使用者的过去轨迹、未来状态等）整合到一个序列中，使用因果Transformer（如GPT-2）作为核心，实现模型的可扩展性，并利用语言建模的最新进展。
AMP：采用定制的位置编码处理复杂的时空关系，包括相对空间位置编码、时间位置编码和旋转位置编码（RoPE），在以自我为中心的坐标系中统一输入和输出表示，并以GPT风格进行自回归预测。
MotionLM：包含场景编码器和轨迹解码器，场景编码器处理多模态输入（如道路图元素、交通灯状态、交通参与者及其近期历史特征），轨迹解码器自回归生成多个交通参与者的离散运动标记序列，通过最大似然目标训练，能够在推理时采样多样化的轨迹并聚合为一组代表性的联合模式。

6 结论与展望

文章指出，尽管运动预测领域在模型架构和数据利用方面取得了显著进展，但仍然面临以下挑战：

先验信息融合不足：当前模型对交通信号灯、交通标志等关键信息的利用有限，影响了对复杂交通场景的理解。
模型鲁棒性不足：大多数模型依赖完整观测数据，但在实际场景中，传感器的局限性和遮挡问题可能导致数据缺失，影响预测性能。
评估指标不一致：联合感知-预测模型与传统预测模型之间缺乏统一的评估标准，难以进行公平比较。
自监督学习潜力未充分发挥：自监督学习在运动预测中的应用仍有很大空间，需要探索更多新颖的预训练任务。

针对这些挑战，未来的研究方向包括：

更全面的先验信息融合：将交通信号灯、交通标志等信息纳入模型，提升决策能力。
提升模型鲁棒性：开发能够在不完整数据下稳健运行的模型，处理数据缺失和不确定性。
统一评估协议：开发考虑感知误差的评估标准，实现不同类型模型的公平比较。
探索新的预训练任务：利用自监督学习和扩散模型等新兴技术，提升模型的泛化能力和鲁棒性。

文章强调，尽管技术不断进步，但运动预测领域仍需进一步研究，以推动自动驾驶技术的发展和应用

#ADGaussian

港中文最新：性能拉满，新视角暴涨10个点！

我们提出了一种新颖的方法，称为ADGaussian，用于可泛化的街景重建。所提出的方法能够从单视图输入实现高质量的渲染。与之前主要侧重于几何优化的GS方法不同，我们强调图像和深度特征联合优化对于精确高斯预测的重要性。为此，我们首先将稀疏LiDAR深度作为额外的输入模态，将高斯预测过程表述为视觉信息和几何线索的联合学习框架。此外，我们提出了一种多模态特征匹配策略，并结合多尺度高斯解码模型，以增强多模态特征的联合优化，从而实现高效的多模态高斯学习。在两个大规模自动驾驶数据集Waymo和KITTI上的广泛实验表明，我们的ADGaussian达到了最先进的性能，并在新视角变换中表现出优越的零样本泛化能力。

项目主页：https://maggiesong7.github.io/research/ADGaussian/

本文引言

最近，3DGS（3DGS）因其实时渲染速度和高质量输出在3D场景重建和新视角合成领域引起了广泛关注。一个关键应用是从图像序列中对街道场景进行建模，这在自动驾驶等领域中起着至关重要的作用。在城市场景建模中，一些方法遵循逐场景优化技术，特别是Street-Gaussians，它将动态城市街道表示为一组配备语义逻辑和3D高斯点的点云。尽管逐场景优化方法在高质量重建方面表现出色，但它通常面临昂贵的训练成本和大范围的新视角合成问题。

为了实现可泛化的街景重建，大多数现有方法都基于PixelSplat或MVSplat的架构。例如，GGRt引入了一种无姿态架构来迭代更新多视角深度图，随后基于PixelSplat估计高斯原语。类似地，GGS通过集成多视角深度细化模块增强了MVSplat的深度估计。然而，基于多视角特征匹配的深度估计在诸如无纹理区域和反射表面等挑战性条件下可能会失败。为了解决这个问题，同期工作DepthSplat结合了来自Depth Anything V2的预训练深度特征与多视角深度估计，以实现准确的深度回归，其中估计的深度特征进一步用于高斯预测。

鉴于Depth Anything V2的强大泛化能力，将其扩展到城市街道场景是合理的。然而，当应用于这些环境时，DepthSplat面临特定的限制。首先，视觉渲染质量受到预训练深度模型有效性的限制。此外，即使在深度质量较高的情况下，直接串联图像和深度特征来进行高斯预测，在复杂的自动驾驶情境中也会导致不令人满意的视觉重建（见图1）。

为此，我们提出了一种新的多模态表示框架，旨在增强街景中的几何建模和视觉渲染。该框架利用两种互补的模态：图像视觉线索和深度几何线索。关键见解在于促进不同模态之间的有效信息共享和联合优化。具体而言，我们的框架首先将稀疏LiDAR深度信息作为额外的输入模态进行整合，这为增强几何重建提供了精确的度量尺度先验。给定图像数据和稀疏深度图，我们介绍了一种有效的多模态特征匹配策略，通过暹罗式编码器和由深度引导位置嵌入（DPE）增强的信息交叉注意解码器实现。这种设计确保了几何和外观信息的融合，从而产生对齐良好的多模态令牌。随后，我们采用多尺度高斯解码模型将多尺度深度信息聚合到图像和深度令牌中，以进行最终的高斯预测。值得注意的是，我们的模型即使在大视角变化下也表现出优越的性能，如图1底部所示。这一能力证明了联合优化多模态特征的有效性，从而实现了优越的几何和纹理重建。总体而言，这项工作做出了以下贡献：

我们提出了ADGaussian，这是第一个使用多模态数据（特别是彩色图像和深度图）对街景进行建模的可泛化框架。
我们开发了一种多模态特征匹配策略以及多尺度高斯解码模型，以促进有效的多模态高斯学习。
我们在两个大规模驾驶数据集上进行了广泛的比较，展示了我们方法的最先进性能，并证明了所提出组件的有效性。

相关工作回顾可泛化的3DGS

可泛化的GS旨在学习强大的先验知识，以实现跨未见场景的有效泛化。现有方法大致可以分为两类。第一类包括PixelSplat、MVSplat、MVS-Gaussian和SplatterImage等方法，它们利用已知的相机参数预测每像素的3D高斯原语。

第二类方法则提出同时预测相机参数和3D表示，消除了对已知相机姿态的需求。例如，GGRt采用迭代姿态优化网络来估计并迭代更新目标图像与参考图像之间的相对姿态。然而，在街道场景建模中，相机姿态为从视频序列中确定场景尺度和增强重建精度提供了关键约束。此外，街道场景中的相机姿态易于获取，使其成为一种实用且可靠的数据资源。因此，我们选择利用有姿态的图像进行我们的方法。

深度与高斯GS

深度质量在GS中起着关键作用。为了确保精确的几何重建，GPS-Gaussian和DN-Splatter等方法将额外的深度监督纳入优化过程。然而，由于密集的真实深度数据通常不可用，研究方向转向利用预训练的深度基础模型提供可靠的几何线索。

例如，Chung等人使用稀疏COLMAP点重新缩放预训练的深度图，从而为模型优化提供准确的深度约束。此外，Flash3D利用冻结的现成网络估计度量深度，随后直接作为重建模型的输入。为了减少误差传播，DepthSplat融合了预训练的深度特征与多视角成本体积特征，同时保持预训练网络的学习能力。与先前的方法相比，这些方法主要侧重于几何改进，我们认为图像和深度特征的联合优化对于实现高质量重建更为关键。

集成LiDAR的GS

LiDAR数据的集成已成为街道场景重建中广泛采用的方法，主要是因为它在促进几何学习方面的有效性。传统的LiDAR方法通常包括两个主要步骤：从LiDAR点云初始化高斯分布，并进一步用LiDAR先验监督预测的高斯位置。然而，在没有LiDAR测量值的区域，重建质量往往会下降。为了解决这一限制，HGS-Mapping从相邻RGB帧中提取匹配特征点，并利用估计的空间位置初始化LiDAR覆盖范围之外的区域。类似地，TCLC-GS通过结合LiDAR几何和图像颜色构建混合3D表示，能够同时初始化3D高斯的几何和外观属性。我们不直接使用LiDAR点云，而是建议利用稀疏LiDAR深度来弥合LiDAR和相机数据之间的差距。此外，我们将深度先验整合到训练过程中，实现深度几何和图像光度属性的联合优化，而不是仅限于初始化的做法。

方法详解

深度基础模型已被集成到GS中以改善几何重建。然而，由于光度和几何线索之间的交互不足，这种框架往往在渲染质量上表现不佳。为了解决这个问题，我们提出了ADGaussian，这是一种同步多模态优化架构，结合了稀疏深度数据与单目图像，用于增强街景建模。

预备知识：GS的深度基础模型

最近，像DepthSplat这样的工作研究了使用预训练深度基础模型进行基于图像条件的3D高斯重建的优势，利用其在各种现实世界数据集上的卓越表现。所有这些方法都利用预训练的单目深度特征来增强最终的深度估计，从而提高高斯渲染的质量。

例如，DepthSplat通过两个并行分支处理多视图图像提取密集的每像素深度。一个分支专注于从多视图输入中建模成本体积特征，而另一个分支则采用预训练的单目深度骨干网络（特别是Depth Anything V2）来获取单目深度特征。随后，每视图的成本体积和单目深度特征被连接起来用于3D高斯预测。

直观地，这种模型可以轻松适应城市场景。尽管如此，我们观察到重建效果很大程度上依赖于预训练深度基础模型的表现，导致不同街道数据集和场景中的准确性不一致。此外，图像和深度特征的处理总是针对每个视图并行进行，没有任何信息共享或同步优化，这限制了模型的学习能力。

多模态特征匹配

在本节中，我们寻求一种有效的方法，将稀疏LiDAR深度整合到GS中，并充分利用多模态特征。为此，我们提出了一种专为城市场景设计的多模态特征匹配架构，以实现稀疏深度信息与彩色图像数据的同步整合。在此过程中，深度引导的位置嵌入将深度线索整合到位置嵌入中，增强了3D空间感知并改善了多模态上下文理解。

多模态特征匹配。如图2所示，我们模型的核心是来自图像的光度特征与来自深度数据的几何线索的多模态特征匹配。这是通过Siamese式编码器和信息交叉注意解码器实现的，灵感来自于DUSt3R系列。

具体来说，单目图像和同步的稀疏深度图被输入到一个权重共享的ViT编码器中，形成两个token表示和：

这两个相同的编码器以权重共享的方式协同处理多模态特征，允许自动学习相似性特征。

之后，配备了交叉注意的变压器解码器被用来增强两个多模态分支之间的信息共享和同步优化。这一步对于生成融合良好的多模态特征图至关重要：

深度引导的位置嵌入（DPE）。传统的位置嵌入在视觉变压器中编码2D图像平面上的相对或绝对空间位置，以确保图像内的空间感知。然而，仅依赖2D图像平面的几何属性对于我们的同步多模态设计是不够的。为此，我们提出了一种直接的深度引导位置嵌入（DPE），将深度位置与基于图像的空间位置整合在一起。

具体而言，给定下采样的图像尺寸和稀疏深度图，我们首先将2D网格的空间位置展平为1D向量，其中每个元素对应图像中的特定空间位置。随后，稀疏深度图被下采样以匹配图像分辨率，生成一组独立的深度索引，补充空间位置。最终的位置嵌入通过将展平的空间位置与深度位置连接起来构建，有效地在xy-z平面上编码位置信息。

通过整合空间和深度几何，该模块为有效的多模态特征匹配提供了全面的位置先验。

多尺度高斯解码

给定多模态tokens 和，我们的目标是预测像素对齐的高斯参数µα，其中µα 和分别是3D高斯的中心位置、不透明度、协方差和颜色信息。为了充分利用图像token 和深度token 提供的外观线索和几何先验，我们实现了两个具有相同架构的独立回归头，分别称为高斯头和几何头，以生成不同的高斯参数。

这两个回归头遵循DPT架构，并增强了一个额外的多尺度深度编码，提供精确的比例先验用于高斯预测。特别是在DPT解码器的每个尺度内，我们首先调整输入稀疏深度图的大小，以与当前特征尺度的空间大小对齐。之后，调整大小后的深度图通过包含两层卷积层的浅层网络处理，提取深度特征，然后将其添加到DPT中间特征中。最后，输入图像和深度图各自通过单个卷积层处理后，分别整合到高斯头和几何头的最终特征中，以促进基于外观或基于几何的高斯解码。

训练损失

我们的模型使用视图合成损失和深度损失的组合进行训练。总体损失函数定义如下：

新视图合成损失。我们使用渲染图像和真实图像颜色之间的均方误差（MSE）和LPIPS损失的组合来训练完整模型：

其中LPIPS损失权重λ设置为0.05。深度损失。我们利用深度损失来平滑相邻像素的深度值，从而最小化小区域内的急剧变化：

其中和分别表示深度和图像在x轴和y轴方向上的第一导数。

实验分析

实现细节

数据集。我们在两个广泛使用的自动驾驶数据集上评估了我们提出的方法：Waymo开放数据集和KITTI跟踪基准。对于这两个数据集，我们采用了大约1:7的训练-测试分割比例。具体来说，在Waymo数据集上，我们的重点主要在于静态和动态场景，每种场景类型分为4个测试场景和28个训练场景。同样，对于KITTI数据集，分割包括5个测试场景和37个训练场景。这种分区确保了在不同场景中对我们的方法进行平衡评估，同时也提供了足够的训练数据以进行有效的模型训练。

度量标准。为了评估渲染质量，我们采用了标准的图像质量度量，包括峰值信噪比（PSNR）、结构相似性指数测度（SSIM）和学习感知图像块相似性（LPIPS）。还提供了运行时间和GPU内存使用情况，以便全面比较速度和精度之间的权衡（详见补充材料）。

训练细节。我们的实现基于PyTorch框架。我们采用Adam优化器和余弦学习率调度策略，初始学习率为1e − 4。我们在3090 Ti GPU上训练我们的模型，在Waymo和KITTI数据集上运行150k次迭代，批处理大小为1。为了确保公平比较，所有实验都在Waymo数据集的320 × 480分辨率和KITTI数据集的256 × 608分辨率下进行。

与现有技术的比较

在将我们的工作与当前最先进的GS方法进行比较时，我们选择了基于多视图成本体积的方法MVSplat和基于深度基础模型的方法DepthSplat。由于GGRt具有无姿态架构，我们将其排除在比较之外。在每个场景中，MVSplat和DepthSplat利用两帧作为输入来生成后续新帧以供评估。

Waymo和KITTI基准上的定量比较分别在表1和表2中呈现。在Waymo数据集上，我们的ADGaussian在几乎所有视觉度量上都超过了先前的最先进模型，特别是在静态场景中表现尤为显著。此外，我们的方法在不同场景中表现出一致的性能，突显了其多模态特征匹配能力的稳健性。

从表2可以看出，我们的方法在KITTI数据集上的性能提升不如在Waymo数据集上那么显著。这主要是由于KITTI数据集整体图像质量较低且色彩再现不佳。由于我们的方法仅依赖单张图像作为输入，因此相比之前的工作保留了较少的图像细节，这进一步限制了其在图像质量较差的数据集上的表现。

我们在图3和图4中提供了两个数据集的定性比较。可以看出，我们的模型在遮挡区域和细小细节（如纤细信号杆）方面实现了优越的渲染质量。

此外，DepthSplat与MVSplat的比较显示，DepthSplat表现出更强的深度推理能力，这归因于其通过预训练深度模型增强的几何重建。然而，由于外观属性整合不足，DepthSplat在整体视觉重建质量方面表现欠佳，这与我们前面部分的分析一致。

消融研究与分析

消融研究。表3详细列出了消融研究，以进一步确认所提组件的有效性。首先，可以看到完整模型达到了最高的性能，PSNR、SSIM和LPIPS得分分别为31.0、0.921和0.068。值得注意的是，移除深度引导的位置嵌入（DPE）导致了所有指标的下降（分别为0.69、1.3%和1%），强调了深度线索在促进多模态特征联合优化中的重要性。此外，缺乏多尺度高斯解码（w/o Multi-scale）的模型表现下降，PSNR为28.73、SSIM为0.868、LPIPS为0.100，突显了多层次深度解码和独立高斯推断的有效性。同时移除DPE和Multi-scale导致了更显著的性能下降，尤其是LPIPS得分下降了4.6%。

最后，为了展示我们同步多模态优化公式的效果，我们展示了不使用多模态特征匹配（w/o Matching）的结果，用下一帧的颜色图像替代稀疏深度输入。显然，多模态特征匹配在PSNR、NDS和mAP方面带来了显著提升（分别为4.32、10.7%和3.8%），突显了图像相关外观特征和深度相关几何特征信息交换和同步优化的重要性。

多模态输入分析。为了确保公平比较，我们使用最先进的深度补全方法构建了具有相同多模态输入的基线网络。具体来说，我们将CFormer和BPNet重新实现为比较目标，这些模型同时接受深度和图像作为输入，并使用多模态融合特征预测高斯参数。如表4所示，显然，仅增加额外的深度输入并不能显著提高新视角渲染的质量，进一步突显了我们联合优化的关键需求。此外，图5中的深度比较结果显示，我们的模型在捕捉细粒度细节（如保持汽车和杆子形状）方面表现出色，即使没有在深度补全任务上进行预训练。

跨数据集泛化。我们进行了跨数据集评估，以展示我们方法对分布外新场景的泛化能力。具体来说，直接在Waymo数据集上评估在KITTI数据集上训练的模型，无需微调。如表5所示，即使只有单视角输入图像，我们的ADGaussian方法始终优于DepthSplat，并实现了与MVSplat相当的跨数据集泛化性能，获得了更高的PSNR和SSIM得分。这一结果突显了我们在处理多样和未知场景方面的稳健性。

应用：新视角变换

新视角变换的概念涉及从与训练数据中存在的原始视角显著不同的视角生成图像。这项任务特别苛刻，通常需要可靠的深度估计来处理视角、尺度和遮挡的大幅变化。在这项研究中，我们进一步调查了模型在视角变换中的稳健性。首先，使用KITTI数据集中提供的真实右相机图像来评估视角变换的定量性能。如表6所示，我们的模型在零样本视角变换（从左相机到右相机）中显著优于MVSplat和DepthSplat。值得注意的是，我们的零样本视角变换结果仅略低于正常训练模型（PSNR：23.60，SSIM：0.776，LPIPS：0.164）。此外，两个数据集的视觉比较如图6所示。无论是向右还是向左变换，我们的ADGaussian在Waymo数据集上表现出卓越的整体视角变换质量，特别是在捕捉车辆形状和复杂外观细节方面。同样，与KITTI数据集上的真实图像的定性比较进一步验证了我们模型在视角变换中的优越性。

结论和局限性

本文介绍了一种新颖的多模态框架，用于可泛化的街景重建，证明了多模态特征的联合优化显著提高了几何和视觉重建质量。此外，我们验证了我们的模型支持零样本视角变换，突显了其生成可靠尺度线索的能力。

局限性

由于依赖单帧输入，我们的方法在较低质量的数据集上的准确性受到限制，并且在动态场景中的改进不如静态场景显著。这些问题可以通过在未来的工作中有效整合多帧信息来解决。

#全向高分辨多模态数据集OmniHD-Scenes

更多OmniHD-Scenes的技术细节和实现方案：技术博客：https://www.2077ai.com/OmniHD-Scenes研究论文：https://arxiv.org/abs/2412.10734

问题解答

同时，我们整理了直播过程中的众多精彩提问，并由专家团队进行了详细解答，欢迎查看完整问答内容：

1. 是否有OmniHD的测试代码？/代码是否开源？
项目代码将全部开源。

2. 数据集目前是否可以下载?
数据集预计于三月底完成法务流程后开放下载。

3. VLM如何帮助3D真值生成？/ OCC如何和VLM配合使用？
项目创新性地将Grounded-SAM应用于自动驾驶场景的真值生成。通过优化的Prompts strategy实现精确的交通场景语义分割，为点云数据提供丰富的语义信息。实验结果表明，在仅使用50%的OCC伪标签情况下，系统可达到92%以上的真值训练性能，显著提升了标注效率。当前技术在远距离目标的投影精度和复杂遮挡场景下仍存在一定局限性，这也是未来优化的重点方向。

4. 运动中的车辆如何标注？

以下视频来源于

整数智能

，时长01:28

5. 4D Radar是如何去除多径虚景？
系统采用高精度同步触发机制进行数据采集，为确保多传感器数据的精确对齐，实现了完整的运动补偿方案。考虑到LiDAR 10Hz的采样频率会导致运动畸变，系统通过高频率自测获取精确的位姿信息，结合线性插值或球面线性插值算法进行补偿。该方案有效解决了传统点云采集中的运动畸变问题，显著提升了数据质量和后续处理精度。

6. 如何进行脱敏处理？
在进行数据脱敏处理时，需要重点关注人脸和车牌两大核心对象。对于人脸识别，系统要求在不同图像分辨率下（如长边>690像素时最小检出人脸≥长边/60）满足特定姿态角度范围（水平转动±45°，俯仰角±30°，倾斜角±45°），并确保关键部位的完整度达标。车牌识别则需要依据图像高度（>1080像素时最小检出高度≥高度/54）设定检测标准。脱敏处理采用统一色块或马赛克替换方案，确保数据不可逆且不可恢复。整个处理过程需满足严格的性能指标：脱敏区域与实际区域交并比维持在50%~85%之间，同时检测准确率不低于90%，误检率不超过10%，召回率达到90%以上。为确保数据的多样性和代表性，建议采集不少于300小时的不同地域车载摄像头视频序列，并保持原始分辨率和帧率进行处理。

7. 构建地图的时候，点云有做运动补偿吗？
动态障碍物补偿是自动驾驶感知中的关键挑战。由于LiDAR的360度扫描特性，在切包处补偿后可能出现显著的位移偏差。我们的解决方案包括：

通过标注信息精确计算跟踪目标的运动状态（速度矢量、朝向等）
基于状态估计对点云和检测框进行位置补偿
在100ms扫描周期内采用匀速直线运动假设

8. 抽帧有什么建议？

基于dynamic object detection技术，我们建议采用每秒2帧的抽帧频率，这一方案在标注效率和经济性方面达到最优平衡。

9. ICP会改变某一帧点云结果吗？

ICP主要输出位姿信息，通过匹配方式优化动态目标点云叠加效果。由于采用刚体转换，不会改变点云本身的形态特征。

10. 目前是否支持复现其他目标识别算法？

项目将开源baseline和完整的数据评估流程。

11. 动态障碍物运动补偿有什么建议？

LiDAR 360度扫描特性导致切包处补偿后存在位移偏差。可通过标注信息计算跟踪目标状态（速度、朝向等）进行点云和框的位置计算。目前采用100ms内匀速直线运动假设。

12.有没有三维重建这种虚拟数据方向?

数据采集自国家测试路段和封闭测试场，提供局部坐标系下的位姿信息及经脱敏处理的图像数据，可支持不同的重建任务。

13. 请问真值是用什么软件标注的？

采用整数智能自研的MooreData数据工程平台进行标注。该平台专注于自动驾驶场景下的数据标注需求，通过智能化工具和专业标注团队的配合，显著降低了4D数据标注成本，为用户提供高效、专业、经济的标注解决方案。目前该平台在高精度点云处理、多模态数据融合等方面具有显著优势。

14. 这个动态框也是标注之后合成的吗？

系统实现了高精度的多模态数据标注映射机制。具体流程包括：

基于标注的3D信息进行初始化处理
通过精确标定的转换矩阵实现雷达坐标系到相机坐标系的变换
利用相机内参将3D信息投影至成像平面
建立像素级的精确映射关系

这个机制确保了不同传感器数据间的精确对齐，为后续的感知算法开发提供了高质量的训练数据。

15. 相机是什么模型？鱼眼吗？

本项目采用标准针孔相机模型进行图像采集，区别于鱼眼结构，该配置能够确保更高的几何精度和成像质量。相机系统经过严格的参数标定，可提供稳定的成像效果和准确的投影关系，其视场角和焦距的选择均经过优化，以满足自动驾驶场景的特定需求。在雷达系统方面，项目选用几何伙伴（Geometric Partner）最新一代4D毫米波雷达，保留了完整的原始点云数据，包含空间和多普勒信息，并支持直接访问原始电源数据。

关于多径效应处理，我们选择保留原始多径信息，使研究者可以根据具体需求选择适当的处理方案，如基于空间滤波的方法、基于多普勒特征的分离技术或深度学习based的去噪方案等。我们将发布包含完整原始数据、详细传感器标定参数以及标注结果的综合数据集，并提供相应的评估基准，以支持研究者开展多样化的算法探索和验证工作。

16. 开源数据是7V还是11V的方案？

采用6V的方案，前后视配置800万像素，侧视配置200万像素。系统将开放所有数据，包括点云、图像数据、标注结果及投影外参。

#MPDrive

视觉标记重新定义自动驾驶空间感知~

自动驾驶视觉问答（AD-VQA）旨在基于给定的驾驶场景图像回答与感知、预测和规划相关的问题，这高度依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息，导致视觉坐标表示和文本描述之间的语义差距。这种疏忽阻碍了空间信息的准确传递，并增加了表达负担。为了解决这一问题，我们提出了一种新的基于标记的提示学习框架（MPDrive），它通过简明的视觉标记来表示空间坐标，确保语言表达的一致性，并提高AD-VQA中视觉感知和空间表达的准确性。具体来说，我们通过使用检测专家在目标区域上叠加数字标签来创建标记图像，将复杂的文本坐标生成转换为基于文本的视觉标记预测。此外，我们将原始图像和标记图像融合为场景级特征，并结合检测先验来获取实例级特征。通过结合这些特征，我们构建了双粒度的视觉提示以激发LLM的空间感知能力。在DriveLM和CODA-LM数据集上的广泛实验表明，MPDrive在需要复杂空间理解的情况下实现了最先进的性能。

论文链接：https://arxiv.org/abs/2504.00379

引言

自动驾驶技术迅速发展，显示出提升道路安全、交通效率和减少人为错误的潜力。一个强大的自动驾驶系统需要能够感知复杂环境并做出明智决策的代理。最近，多模态大语言模型（MLLMs）已成为自动驾驶的一种有前景的方法，在视觉问答（AD-VQA）任务中展示了强大的泛化能力。当前的MLLMs在自动驾驶场景中的空间理解方面面临挑战，限制了它们准确定位、识别和描述驾驶场景中目标及其状态的能力。尽管一些AD-VQA方法尝试通过指令调优领域特定数据集来增强MLLM性能，但它们并未充分解决空间推理优化的核心挑战。在这些方法中，有些通过整合检测先验来增强空间理解。然而，这些方法通常以文本格式表达空间坐标，导致基于坐标和语言描述之间的不一致，从而削弱了自动驾驶中的感知准确性和精确的空间表达。

如图1所示，当前研究直接以文本格式表示目标空间坐标，导致坐标和文本描述之间的语义差距。这种错位对后续的预测和规划任务产生了不利影响。相比之下，MPDrive将复杂的生成空间坐标的过程转换为基于文本的视觉标记（带有数字标签的区域）预测，确保语言一致性。

本文重点关注提高自动驾驶中坐标表示和空间理解的一致性。我们提出了基于标记的提示学习框架（MPDrive），这是一种新颖的多模态框架，使用文本索引来注释每个交通元素，并直接预测相应索引的坐标。

如图1所示，MPDrive利用视觉标记，即在图像检测区域上叠加的基于文本的索引，突出关键目标的空间位置。这种转换将复杂的生成空间坐标的过程简化为基于文本的视觉标记预测，从而弥合了AD-VQA中坐标表示和语言描述之间的差距。此外，通过结合多层次的空间特征，MPDrive激发LLM的空间感知能力，提高视觉标记预测的准确性，提升预测和规划任务的性能。

为此，我们提出了两个组件：标记控制网络（MCNet）和感知增强空间提示学习（PSPL）。具体而言，MCNet处理原始图像和视觉标记图像，在保留原始图像特征的同时准确表达空间信息。PSPL结合场景级和实例级视觉提示：i) MCNet生成场景级提示以捕捉全面的空间关系，而ii) 实例级提示通过遮罩平均池化整合细粒度的目标特征。这种集成显著增强了MPDrive的空间理解能力。

总之，本文的主要贡献如下：

提出了MPDrive，一种基于标记的提示学习框架，利用视觉标记弥合AD-VQA中基于坐标和语言描述之间的差距，显著提高了自动驾驶中的空间理解能力。
MPDrive由两个组件组成：标记控制网络（MCNet）和感知增强空间提示学习（PSPL）。MCNet融合视觉标记图像以获取场景特征，而PSPL整合场景级和实例级视觉提示，增强多层次的空间理解能力。
广泛的实验表明，MPDrive在AD-VQA任务中取得了最先进的结果，在DriveLM数据集的多图像任务和CODA-LM数据集的单图像任务中表现优异，特别是在复杂的场景中。

相关工作回顾AD-VQA

AD-VQA已成为促进人车交互和提高复杂驾驶场景中决策能力的重要组成部分。最近的自动驾驶研究通过多个视角取得了进展：用于场景理解的多模态融合、用于决策的多步推理、信号控制优化、运动规划和角落案例处理。这些方法通过有效整合多模态数据和推理机制，共同增强了系统的能力。

近期的研究越来越关注在自动驾驶中增强MLLMs的空间理解能力。ELM利用专家生成的文本描述来改进目标定位，而LLM-Driver通过将向量化数值模式与预训练的LLMs集成，提升了上下文理解能力。同样，Reason2Drive采用先验分词器和指令视觉解码器来加强视觉定位能力。尽管这些策略旨在通过检测先验来增强空间理解，但通常涉及复杂的训练方案，例如添加复杂的网络架构或检测优化函数。此外，这些策略通常以文本格式表示空间坐标，这可能增加模型的复杂性。因此，这些方法忽视了基于坐标和语言描述之间的差异，损害了自动驾驶系统中的感知准确性和空间信息的精确表达。

MLLMs

MLLMs展示了显著的可解释性和泛化能力。近期MLLMs的进步主要集中在视觉-语言对齐和训练策略上。对于对齐，BLIP-2引入了Q-Former以实现高效的模态桥接，MiniGPT-4通过投影层将冻结的视觉编码器与LLMs对齐，而InternVL提出了视觉模型与LLMs之间的渐进对齐。对于训练策略，LLAVA利用机器生成的指令数据，而MiniCPM通过高级学习率调度优化性能。这些进步使MLLMs成功应用于视频理解、图像理解和具身AI。

在自动驾驶中，MLLMs以多种方式进行了探索。Atlas和DriveGPT4分别通过3D标记化和多帧视频处理增强驾驶能力。为了资源效率，MiniDrive和EM-VLM4AD提供了轻量级的MLLMs用于自动驾驶。同时，TOKEN集成了标记化的目标级知识，而DriveAdapter通过特征对齐和动作引导学习提高了模型性能。这些努力尝试将MLLMs应用于自动驾驶；然而，它们尚未充分探索驾驶场景中的空间理解。

视觉提示

视觉提示已被广泛用于各种下游任务的迁移和适应，可分为可学习和图像修改方法。可学习的视觉提示方法将可训练的标记作为额外的视觉输入，LM-BFF和VPT等作品通过基于提示的微调展示了增强的学习效率。图像修改的视觉提示方法侧重于通过专家生成的元素修改图像，FGVP、API和SoM通过分割掩码和注意力热图等技术显著提高了MLLMs的视觉理解能力。

虽然我们的方法受到SoM的启发，它在图像上叠加掩码和标记，但我们引入了几项关键改进，以更好地应对自动驾驶任务中的特定挑战。首先，传统标记可能会遮挡原始图像中的关键信息，例如目标的颜色和特征。为了解决这个问题，我们使用Marker ControlNet逐步引入标记衍生的信息，从而保留原始图像的关键视觉信息，同时利用视觉标记的好处。此外，我们还引入了一种视觉提示过程：Perception-Enhanced Spatial Prompt Learning，包括场景级和实例级视觉提示，显著增强了MPDrive的空间感知能力。

方法详解

预备知识

给定一组视图图像和文本问题，AD-VQA旨在生成响应序列，其中表示长度为的序列中的第个标记。MLLMs在AD-VQA中的工作流程如下：1）一个视觉编码器，用于从每个视图中提取视觉特征；2）一个连接的多层感知机（MLP），用于将多视图特征转换为图像标记；3）一个文本标记器，用于将问题转换为文本标记；4）一个大型语言模型（LLM），用于融合图像标记和文本标记以生成响应序列。

基于这些MLLMs，我们提出了MPDrive来增强空间理解能力。为了清晰起见，我们使用单视图场景说明方法，同时注意到所有操作自然扩展到多视图情况。

视觉标记

为了弥合空间坐标表示和语言描述之间的差距，我们引入了视觉标记。该方法通过将空间坐标生成任务简化为直接的基于文本的视觉标记预测来实现这一点。如图2所示，给定输入图像，我们使用检测专家StreamPETR识别交通目标（例如汽车、卡车和公共汽车）。检测专家生成个目标掩码，表示为二进制掩码，其中表示第个检测掩码。对于，我们计算其平均质心坐标，这代表了该目标的中心位置。标注的标记图像通过对原始图像进行两步修改生成：首先，在每个目标的质心处标注标记索引，其次，叠加相应的半透明掩码区域以描述目标边界。此外，当在问题中引用距离现有坐标超过像素的新空间坐标时，我们为其分配一个标记索引，并在上标注该索引，以保持视觉和文本模态之间的一致空间推理。

对于响应生成，我们利用视觉标记提高视觉提示的有效性并确保语言输出的一致性。具体而言，LLM首先从给定的图像和问题中生成指示符，然后将此索引映射到其对应的质心坐标以进行精确定位。这一过程允许MPDrive通过其标记识别关键目标，而复杂的空间感知由检测专家处理。通过避免直接输出坐标，这种方法减轻了LLM的语言复杂性，确保生成一致的文本输出。

MPDrive架构

如图2所示，MPDrive由两个关键组件组成：MCNet和PSPL。MCNet通过利用原始图像和额外的视觉标记图像来增强空间表示，从而实现双级融合的场景特征。基于这些提取的特征和检测专家，PSPL生成场景级和实例级的视觉提示，从而增强对驾驶场景信息和目标信息的理解。这些组件的集成显著增强了MPDrive的空间感知能力。

标记控制网络（Marker ControlNet）

为了有效保留原始图像的关键特征并充分利用视觉标记中的丰富信息，我们提出了标记控制网络（MCNet）。该模块将原始图像和视觉标记图像作为输入，并生成场景级特征。

我们冻结原始视觉编码器的参数，并创建一个带参数的可训练副本，记作。在训练过程中，原始视觉编码器保持冻结状态，我们专注于使用低秩适应（LoRA）对多头注意力模块和前馈网络进行训练，秩为16。我们通过零线性连接原始视觉编码器和控制块，其中权重和偏置均初始化为零，参数为。这些层与控制块一起训练，允许有效的参数调整和性能改进。原始图像特征使用原始视觉编码器提取，而视觉标记图像特征则使用新的控制块结合提取。

这些特征通过逐元素相加进行场景级特征融合：

其中表示场景级特征。

由于零线性层的权重和偏置参数初始化为零，方程1中的项初始值为零，从而保留了原始图像特征的完整性。在随后的优化阶段，来自视觉标记图像的有益特征将通过反向传播逐渐引入。

MCNet有效地整合了视觉标记，使MPDrive能够在视觉标记的指导下学习额外的语义信息，同时保留原始图像的关键特征。更重要的是，这种方法确保MPDrive能够捕捉视觉标记信息，然后输出相应的基于文本的标记，从而在生成空间信息时保持语言输出的一致性。

感知增强空间提示学习

为了应对MLLMs在空间表达能力方面的局限性，我们引入了感知增强空间提示学习（PSPL），旨在通过使用场景级和实例级视觉提示来增强MPDrive的空间感知能力。

图像中的视觉标记准确地表示整个场景的空间信息。因此，MCNet的输出特征包含丰富的场景级空间信息。随后，通过连接的MLP处理以生成场景级视觉提示。

这些场景级视觉提示显著提高了在复杂场景中对空间信息的感知和准确理解。

为了进一步增强实例级的空间信息表示，我们引入了实例级视觉提示。给定第个检测目标及其区域掩码，场景级视觉提示，其中是通道数，是宽度，是高度，我们将二进制区域掩码调整为与相同的大小，并使用掩码平均池化：

其中表示掩码平均池化操作，表示第个实例级视觉特征。

给定个目标，我们获得了一组实例级视觉特征。这些特征通过连接的MLP处理以生成实例级视觉提示。这个实例级视觉提示丰富了目标的空间表示。PSPL将场景级视觉提示和实例级视觉提示串联在一起，增强了MPDrive的空间感知能力。

大语言模型

LLM接收来自文本标记器的输入文本标记以及来自PSPL模块的空间提示和。它使用其内部模型处理这些输入，其中LoRA应用于多头注意模块和前馈网络，秩为16，生成长度为的输出序列。输出标记序列然后用于计算与真实序列的交叉熵损失：

实验结果分析

实验设置

数据集

我们在DriveLM和CODA-LM数据集上进行实验。对于DriveLM数据集，我们遵循EM-VLM4AD和MiniDrive所采用的数据划分策略，将数据集划分为训练集和验证集，分别分配70%和30%的数据。训练集包含341,353个独特的问答对，而验证集包含18,817个不同的问答对。每个问答对包括六个视角图像：前视图、左前视图、右前视图、后视图、左后视图和右后视图。对于CODA-LM数据集，我们使用包含20,495个问答对的训练集对MPDrive进行训练，并使用一个包含193个问答对的小型集进行验证。每个问答对包括一张前视图图像。

评估指标

为了促进严格和公平的比较，我们采用了与EM-VLM4AD和MiniDrive研究一致的评估指标，包括BLEU-4、ROUGE L、CIDEr和METEOR。这些指标通过重叠、召回率、基于共识的评估和语义相似性来评估预测值与真实值之间的语言一致性，反映了MLLMs的感知、预测和规划能力。此外，根据CVPR 2024自动驾驶挑战赛指南，我们还纳入了额外的性能指标：匹配度和准确性。匹配度指标量化预测中心点坐标与真实值之间的欧几里得距离小于16像素的百分比，为MLLMs的空间信息表达能力提供了直观的验证。准确性评估多选题和是非题的响应正确性，为MLLMs的能力提供全面的评估。

实现细节

在训练阶段，我们采用初始率为5e−4的余弦学习计划，并使用AdamW优化器，权重衰减为0.01。对于DriveLM数据集，我们采用批量大小为128，并在八块A800 GPU上进行3,000次迭代训练，相当于大约1个epoch。对于CODA-LM数据集，我们进行了2000次迭代训练，相当于大约12个epoch。在整个训练过程中，视觉编码器权重保持冻结。我们微调连接的MLP和零MLP，同时对MCNet内的视觉编码器和LLM解码器应用低秩适应(LoRA)。在训练和推理阶段，我们将输入图像分辨率调整为448×448像素。检测到的目标数量K由每个图像的检测专家动态确定，所有摄像机视图的最大限制为100个目标。我们设置了新空间坐标的dth=50。

定量结果

我们在DriveLM数据集上与竞争方法进行了定量评估，以展示MPDrive的有效性，如表1所示。我们提出的方法表现出卓越的性能，特别是在CIDEr和METEOR指标上，分别获得了3.56和38.31的分数。此外，它在BLEU-4中的表现超过了所有单轮推理方法，接近基于图的多轮推理方法(DriveLM-Agent)的性能，表明其在语言一致性方面的优越性能。此外，MPDrive显示出强大的空间感知能力，匹配得分达到13.43，准确率达到85.18，超过了InternVL-2的表现。

如表2所示，MPDrive在CODA-LM数据集上的各种任务中表现出显著的性能。在一般感知任务中，MPDrive取得了41.80的分数，显著优于其他竞争方法。这表明其在有效感知和解释驾驶场景方面的卓越能力。对于与空间相关的区域感知任务，MPDrive在多个子类别中表现出色。它在车辆类别中获得79.48分，在VRU（弱势道路使用者）类别中获得70.00分，突显了其对空间目标的细粒度感知能力。此外，它在锥形物（77.77）、障碍物（70.00）和其他（62.85）类别中表现良好，突显了其全面的空间理解能力。MPDrive在驾驶建议生成中取得了58.20的最高分，展示了出色的空间意识和规划能力，为有效的驾驶建议提供支持。

这些结果验证了MPDrive在精确空间表达方面的能力，并展示了MPDrive在自动驾驶场景中的增强空间感知能力。

定性示例

在图3中，我们将MPDrive与InternVL-2在未见样本上的实际响应结果进行了比较，评估了MPDrive的空间感知和任务规划能力。在图3的上部样本中，我们显示了最相关图像之一的预测坐标。InternVL-2的预测位于错误区域，而MPDrive定位了重要目标，与真实标注一致。这表明了MPDrive卓越的空间理解能力。

在图3的下部示例中，当被要求识别涉及车辆和行人的危险行为时，InternVL-2错误地得出结论认为与行人没有碰撞风险。相比之下，MPDrive准确评估了车辆与行人之间的空间关系，从而做出正确的规划决策。这表明了MPDrive分析复杂场景并做出精确决策的先进能力，突显了其在自动驾驶应用中的有效性。更多定性示例可以在补充材料中找到。

总之，MPDrive在未见样本上优于InternVL-2，表现出准确的目标定位和可靠的空间关系评估能力，这对于安全的自动驾驶至关重要。

消融研究

在本节中，我们对视觉标记、MCNet和实例级视觉提示进行了消融研究。此外，我们还在不同MLLMs上评估了MPDrive。为了确保公平比较，我们在DriveLM数据集上进行了消融实验，该数据集包括六视角图像并涵盖感知、预测和规划任务，从而便于对自动驾驶场景中的MLLM进行全面评估。此外，DriveLM数据集上的各种评估指标可以从多个角度评估MPDrive的性能。

场景级视觉提示

为了评估场景级视觉提示的有效性，我们对视觉标记和MCNet进行了消融实验。表3展示了场景级提示的消融研究。视觉标记显著提高了空间感知能力，匹配得分从7.59提高到11.89。然而，其对语言指标的影响结果参差不齐。虽然准确性略微下降到80.42，但BLEU-4和METEOR得分的提升表明MPDrive的语言表达一致性有所增强。我们将此性能归因于视觉标记和目标特征在视觉空间中潜在的特征干扰。

通过合并MCNet，大多数衡量语言一致性的指标都有所改善。尽管匹配得分从单独使用视觉标记时的11.89下降到9.70，但模型在BLEU-4（52.56）和METEOR（38.14）得分方面实现了更好的语言质量。这表明MCNet有助于平衡空间信息和语义理解之间的特征表示，尽管牺牲了一些空间感知能力。

实例级视觉提示

为了评估实例级视觉提示的有效性，我们在保持所有其他设置相同的情况下，进行了有无该组件的对比实验，如表3所示。实例级视觉提示的整合在空间和语言指标上都带来了全面的改进。具体而言，匹配得分进一步增加到13.43，超越了所有先前的配置，而准确性达到了最高的85.18。

此外，语言生成质量持续改善，BLEU-4达到52.71，ROUGE L达到76.98，CIDEr达到3.56，METEOR达到38.31。这些结果表明，实例级视觉提示有效地增强了空间感知和语言理解，表明其在精确文本标记索引预测中的关键作用。

不同MLLMs

为了评估MPDrive的模型无关性，我们将实验扩展到包括LLaMA-Adapter作为替代MLLM。表4表明，将我们的MPDrive框架应用于LLaMA-Adapter相较于原始LLaMA-Adapter实现带来了显著的性能提升。具体来说，MPDrive(LLaMA-Adapter)实现了显著更高的匹配得分10.05，相比于LLaMA-Adapter的1.48，表明其空间感知能力得到了大幅增强。

在语言生成指标方面，MPDrive(LLaMA-Adapter)在各个方面都优于LLaMA-Adapter：BLEU-4从45.96提高到47.97，ROUGE-L从69.78提高到73.54，CIDEr从3.07上升到3.28，METEOR从33.66提高到35.58。

此外，MPDrive的准确性略高，达到68.25，相比66.66。对比分析表明，MPDrive有效地增强了不同MLLMs的空间理解能力。

结论

我们介绍了一种新颖的基于MLLM的框架，称为MPDrive，用于AD-VQA。MPDrive将复杂的空域坐标生成转化为简洁的视觉标记预测。它结合了MCNet和PSPL以增强场景级和实例级的空间感知能力。MPDrive在使用DriveLM数据集的多视角输入自动驾驶任务以及使用CODA-LM数据集的单视角输入任务中均取得了最先进的性能。

MPDrive依赖于先验专家进行空间感知和语言表达，专家的错误可能会影响其性能。此外，尽管MPDrive增强了AD-VQA的空间感知能力，但长时间跨度的时间感知仍然是自动驾驶中的一个重要挑战。因此，基于MPDrive推进这一研究值得进一步探讨。

#数据闭环的核心 - Auto-labeling 方案分享

一. 简介：

在实际工作中，自动驾驶的数据是非常重要的，如何高效低成本的获得高质量的数据集成为了自动驾驶企业的核心竞争力。

随着自动驾驶感知技术的不断发展，对于标注的要求也越来越高，很多标注任务也越来越难。 Camera/Lidar 联合标注， 3d 语义分割，最近大火的多Camera BEV，如何向特斯拉那样，完成vector space 的自动化标注，目前也没有看到有哪个国内公司能做的。

自动标注算法(auto-labeling)其实就是高精度的真值生成算法，可以不受车端的算力限制，并且可以用全时序的数据来联合优化结果。因为是离线的，精度怎么高怎么来。这么一套系统，除了可以做自动化的标注/预标注，也有很多其他的作用，例如可以挖掘corner case, 指导车端模型训练等。

我这边整理了一些论文和业界的方案，记录在这边和大家分享。本文主要讨论3d 空间下的标注，以激光雷达为主。有错误或者理解不到位的情况，欢迎大家指正。

二. 业界的一些方案

Robesense RS-reference 系统：

RoboSense 的 RS-Reference 系统，有一个车顶模组 + 数采设备 + 离线工控机组成，可以装在测试车上，完成数据采集，真值生成，感知算法评价等功能, 从2018 到现在，也经过了好几代系统的迭代，这块的积累也比较深。

主要分为2块核心算法：

目标检测：

机器学习 + 深度学习联合处理点云（corse - to - fine)，完成更多检出，和消除误检。（目前应该加入了多相机的前融合算法）
加入毫米波雷达（Conti 408），如果毫米波数据和激光雷达检出匹配，则优化目标的运动属性（速度+加速度等），然后得到每个目标的全生命周期轨迹，将全生命周期的整个轨迹作为考虑，通过滤波/贴边等操作优化目标的属性

可行驶区域/路沿/车道线：

多传感器SLAM 建图（速腾这套设配可以配备惯导）
通过点云分隔网络（或其他）完成点云高精地图的静态元素检测
再将结果从点云地图反向转化为单帧的结果

这不过这套设备也不便宜，财大气粗的OEM爸爸应该愿意买单，毕竟真的很有帮助。在北美福特工作的时候，AVL也来present过这么一套系统，不过后面好像没听到啥消息了。

2019年的时候拜访速腾聚创，非常有幸和王博有过深入沟通，感兴趣的同学可以看一下B站王博的介绍：

RS-Reference 2.0 海量真值数据的获取与感知系统的评测 | RoboSense(速腾聚创)线上分享会回顾_哔哩哔哩_bilibili

三. 3d 动态元素自动标注

3DAL - Waymo, 2021

Offboard 3D Object Detection from Point Cloud Sequences

2021年， Waymo 放出来一篇自自己是如何做 offboard 3d object detection的工作，由Charles R.Qi大神和 YinZhou大神带队。

整体的思路也遵循 Coarse-to-Fine 的操作：

先通过一个离线的3d 目标检测 (MVF++) + 3d 跟踪算法（Kalman Filter）完成Coarse 的目标检测，通过这一个，可以得到每一个目标的整个轨迹序列
通过目标检测轨迹 + 原始点云，将目标的点云从检测框里抠出来，可以得到 Sequence Object Points + Sequence Objects Boxes, 用于下一阶段的进一步box refine
点云叠加后，动态目标会形成一条轨迹，点云会形成拖影，静态目标会形成更加完整的目标，因此，使用了一个简单的静/动分类器来完成分类。
Static Object Auto Labeling 1. 将多帧点云从世界坐标系转化到目标中心坐标系 2. 用一个Pointnet 来分类点云的前景点和背景点，然后将背景点去除

再用一个 Pointnet Variant 来回归物体中心点，heading, size和类别，完成静态物体的refine

Dynamic Object Auto Labeling

Foreground Seg Network, 额外加入了时间的encoding, 当前帧为0，前后各取两帧数据，共五帧数据，每帧数据的点云降采样到1024个点，然后总共有5120 points 进入分割网络
--> MLP (64, 128, 256, 512 ) -> MaxPool -> MLP（512， 256），最后输出256维度的点云编码特征
Box Sequence encoder Network, 也编码成特殊的点云（c_x, c_y, c_z, length, width, height, theta, time_enocding），基本用了所有的目标时序，共计101帧数据
--> 用了一个额外的PointNet, 但是卷积可以换为 1D ConvNet，（Uber用了 1D Unet来编码），
--> Pointnet(64, 64, 128, 512, max-pooling, MLP(128, 128) , 最后输出 128-dim feature,我们叫做trajectory embedding
将 point embedding 和 trajectory embedding concatenated在一起，得到Joint Embedding
Joint Embedding用MLP (128, 128, Linear层) 回归目标的尺寸
为了促进两个分支的贡献，用trajectory embedding 和 object embedding 加上两个额外的分支单独用来预测bbox

魔改复现

Auto4D - Uber, 2021

Auto4D: Learning to Label 4D Objects from Sequential Point Clouds

2021年1月， Uber首先放出来一篇自自己是如何做 auto - labeling的工作，作者包括多伦多大学的 Bin Yang 大神和后来创办Waabi 的 Raquel Urtasun

http://www.cs.toronto.edu/~byang/.

思路大体也是follow Coarse to Fine 的操作，只不过和waymo 不同，在refine的时候，将目标的回归分为两个步骤，一块是目标的不变属性，例如尺寸，类型等，一块是目标的运动变化属性(位置，heading等)

Object Size Branch

第一步也是通过uber自己的检测网络 + 跟踪算法完成初步的 Init Trajectory 生成
将bbox 扩大1.1倍，然后将点云抠出来放到局部物体坐标系内（这个地方其实有个疑问，不管定位精度怎么高，将点云合起来后不可避免的肯定会出现点云的重影模糊问题，如果多帧点云是重影模糊的，如果回归正确的尺寸？）
将抠出来的点云做一个 refine, 这边确认了 corner align 要优于center align
然后将目标点云投影到BEV 视角下，使用uber 自己的 2D CNN Detector 提取特征，回归size, 类别这类不变的属性。

Lidar BEV Encoder

Motion Path Branch:

整个Motion branch的操作，都在世界坐标系下完成。

Path Observation:

世界坐标系的时序点云，但是没有将时间信息保存在点云里面

Path Encoder:

每一帧点云使用2D CNN 提取multi-scale feature maps
然后提取两帧之间的差，motion wise feature
将多帧的运动特征信息cat在一起，然后用一个1D-CNN 提取运动特征（1D UNet）

个人更加认同Uber 的思路，先确定目标是什么类型，固定好全时序的尺寸。然后将问题转化为size-fixed motion refine problem，但是确定尺寸的时候不一定要全都移到目标的中心坐标系。在waymo 和 Uber的方法中，各有优劣式，组合一下可能会更好。

MPPNet - MMlab-CUHK/MPI-INF, 2022

MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection

CUHK 的mmalb 和马普所的史少帅大神，最近也发了一篇利用多帧来优化检测结果的，虽然不是autolabeling的方法，但是在2阶段refine上也waymo/Uber 的思路也很类似，并且可以作为端到端优化，而不像waymo + Uber要经过多次操作，很新颖的提出Proxy - Point(代理点) 来表示一个目标，并且在时序的操作上加入了MLP-Mixer, group feature attention等技术，更好的处理时序的数据。

加入全时序的信息，就可以拓展成auto-label的方法。

整体操作如下：

1. 使用一个single - frame proposal network 来获得初始的 3d proposal trajectories.

利用已有的 centerpoint/pointpillars, 采用4帧点云聚合作为输入。
为了关联目标，使用了一个speed prediction head ，和centerpoint 预测xy 的速度不同，本文使得速度方向和heading方向一致, 通过速度去预测目标位置，然后通过IOU 匹配
经过第一阶段后：得到T-frame 的 3d proposal 和时序的3d points region pooled from each frame t , 作为2阶段的输入

2. 构建 proxy points，在每个时刻t, 均匀在3d框内均匀采样N * N * N 个 proxy point, 这些点保持了和轨迹盒相同的位移

3. Decoupled per-frame feature encoding ，将Trajectory 通过motion encoding 和 Geometry encoding 提取特征并且相加，获得每一个trajectory 的特征。

将目标点和 proposal box 相减，得到difference between each object and 8corner+1center, 得到目标当前坐标系的值
然后通过 set abstraction 在点云中提取局部特征
为了提取目标的运动信息, 将每一帧的prixy point，减去第一帧的目标的9个点（目标中心 + 8个角点）
在运动信息里加入了一维度的time offset embedding e^t
将目标的geometry features 和 motion features相加起来，最后的特征可以表示成：

4. Grouping for multi-frame feature interaction

由于巨大的计算成本和GPU内存，在所有帧之间建立密集连接还是比较难负担的。所以将较长的轨迹划分成成少数几个不重叠的组，每个组包含一个较短的子轨迹 (由于整个模型还是需要很大的显存，如果可以将之前一阶段的网络训练好，冻结权重，可能后面的操作会容易点？ )

5. 时序特征聚合

Intra-group feature mixing

参考了视觉的MLP-Mixer , 来进行不同帧的proxy points的特征聚合。

后续实验也证明了MLP mixing 要比attention mechanism 能更好的实现组内特性交互。

Inter-group feature attention

Inter group feature attention 可以有效的编码特征和传播全局全序列信息，提高局部的组间表示。上述组内特征混合和组间交叉注意力多次反复叠加，可以让轨迹逐渐意识到全局和局部上下文，从而从轨迹提取出更加精确的3d bbox 框

6. 3D temporal detection head with transformer

利用 transformer layer 来解码，构建了一个learnable feature embedding E = R (1 * D) as query, 从每一个 group feature Gi中使用 multi - head attention
参考了 Offborad Object detection , 将目标的proposal 轨迹通过一个 PointNet sub-network 来完成目标轨迹的特征提取。
因此，检测头集成了group - wise feauter {E1，…， ES}，通过特征拼接，分别从对象点和bbox的embedding ，进行最终置信度预测和框回归。

作者说后来应该会在Openpcdet 开源，蹲守一波，等开源了学习一下。

四. 3d 静态场景元素自动标注

我理解静态场景重建的自动标注，其实可以转化为建立高精地图的工作。需要标注的元素包括：车道线，路沿，斑马线，停止线，红绿灯等。如果需要做语义定位的话，还需要做一些类似灯杆，标识牌等元素的识别和矢量化。

感兴趣的同学可以看一下这篇综述，知乎上也有解析：

High-Definition Map Generation Technologies ForAutonomous Driving: A Review

黄浴：自动驾驶的高清地图生成技术综述

SLAM 建图 / 大规模点云语义分割：

Ref: HDMapNet

其中的一种方式可以通过多传感器slam 建图，然后通过点云地图的自动/人工标注，构建局部的高精地图。

优点：精度比较高，步骤较为流程化。然后模型识别不准的，人工在点云地图上做一些修正。

缺点：想训练一个大规模的语义分割的网络，前期还是需要一定量的数据集，且分割的性能不一定能保证

另外一个点是从语义分割后的点云，想得到矢量化的场景元素，也需要比较繁琐的后处理操作，这块在某一些场景下可能会引入较大误差。

自动化的步骤可以大概分为如下：

通过多传感器SLAM 建图：
--> 可以构建点云 intensity based 的地图（LOAM, Lego-Loam）

--> 或者通过Camera + Lidar fusion 构建rgb based 的彩色点云地图

过一个目标检测网络，去除动态的障碍物，构建更加干净的点云
然后可以将高精地图切块，类似于做成比如50m * 50m的点云方块，训练一个大规模的城市场景语义分割的大模型来做点云的语义分割（RandLA-Net, KPConv等）
再通过一些后处理的方法，将场景元素提取成矢量元素
人工做一些质检，来确保地图和元素的生成质量。

Automatic labelling of urban point clouds using data fusion

HDMAPNet - 清华Mars Lab

得益于最新的多相机BEV 的检测方法发展， Mars Lab提出了连续两篇自动化在车端实时构建高精地图的工作。

HdMapnet 和 VectorMapNet(升级版)

HDMapnet 将点云和HdMapNet做融合，构建了BEV 特征之后，搭了3个检测头（Semantic Segmentation 分支，Direction Prediction 分支, Instance embedding 分支，然后通过后处理再将矢量结果构建出来。

是一个提出端到端构建高精地图的，虽然精度可能没有办法用于auto-labeling，后处理也比较重，但是却提供了一个非常好的思路.

代码中，点云只采用了当前帧的数据，相机采用了过去几帧数据（通过ego_motion 将多帧camera 的特征通过grid_sampler给cat在一起）。如果不考虑实车，将前后多帧点云/图像特征拼接，我觉得可能精度能提升一个水平。

HDMapNet

Fusion BEV Encoding:

Decoder:

VectorMapNet - 清华大学Mars Lab

希望能端到端的输出矢量地图，又有了升级版本 VectorMapnet.

VectorMapNet是一种端到端的高清语义地图学习方法。与以往的工作不同，它使用折线（polyline）来表示地图元素，并直接预测传感器观测的矢量化输出，而不需要地图光栅化或后处理
联合建模地图元素和每个地图元素的几何之间的拓扑关系是一项具有挑战性的工作。利用折线作为基元来建模复杂的地图元素，并通过将该联合模块分离为两个部分来缓解这一困难：地图元素检测器和折线生成器
VectorMapnet 在nuscenes 上达到sota, 超过hdmapnet 14.2 MAP

论文细节分析我就不写太多，知乎上已经有一些细节论文分析，供大家参考：

wanghy：VectorMapNet: 端到端的矢量化高精地图学习

https://github.com/Mrmoore98/VectorMapNet_code

本文的重点是提出了用polyline 来作为地图的基础元素，其实在人工标注的时候也是用的这种点集的形式。

VectorMapNet的整体结构

Map Element Detector & Polyline Generator

这个思路真的非常受启发：

不光点/anchor 可以作为query 来和BEV feature 做交互，任何内容都可以作为query 和bev 特征做attention，例如（折线，圆，点集等), 相当于在网络中加入了基础检测元素的先验，非常有利于端到端的检测和sparse的检测。

VectorMapNet 留了一个未来改进项，时序信息的加入和多帧之间的输出consistency，我觉得如果能解决这个问题，那真的可以作为场景重建的auto- labeling 的重要模块，等代码开源了好好学习一下。

五. 在没有激光雷达的情况下，多相机 BEV 如何进行准确的3d 标注？

来到这个章节，也是得益于特斯拉的带动和最近多相机BEV的火爆。

学术界关心如何刷点，如何构建更加准确地bev 特征， nuscene/waymo都提供了高质量的数据集。

然而在工业界，当老板问你是否能做多相机 BEV 的开发，我们有那么多ADAS 量产项目，相机数据回传后能否用？

作为算法工程师的我们在角落瑟瑟发抖， view transformer 如何部署？ BEV 真值从何而来？传感器时空标定精度是否足够？云端服务器8卡A100完全不够大家开发？一大堆问题迎面而来。

非常欢迎大家关注这个问题，多贡献自己的想法。

自动驾驶BEV感知的下一步是什么？

我也提出我自己的一些想法吧, 也是对于特斯拉的一些分析：

对于前期，可以在量产项目的测试车辆上撘高线束的激光雷达，然后给量产视觉提供真值，可以看到几家公司，小鹏，蔚来，momenta, 百度，地平线都是这么做的。每天都能看到这些公司的车顶着128线的lidar 到处跑。
等测试车辆有了一定的 3d 真值数据量，需要做的就是训练一些大模型了，包括像素深度估计，Structure from Motion, 光流， pseudo Lidar等，这块我觉得PerceptionX 实验室的文章分析的很全面:

PerceptionX：Tesla AI DAY 深度分析硬核！EP3 Auto Labeling

Vidar - Toyota Research

TRI 在2021 CVPR WAD 中分享了一些他们在3d 视觉中场景重建，自监督, 深度估计的一些工作，感兴趣的同学可以去看一下Adrien Gaidon的分享：

包括可以follow 一些他们的工作：

Full Surround Monodepth from Multiple Cameras， 2022

Multi-Frame Self-Supervised Depth Estimation with Transformers ，2022

3D Packing for Self-Supervised Monocular Depth Estimation, 2020

Autolabeling 3D Objects With Differentiable Rendering of SDF Shape Priors (CVPR 2020 oral)

https://github.com/TRI-ML/vidar

BEV-Depth - 旷视

待更新..

六. 半监督 & 弱标注 & MAE