论文阅读DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

yang_daxia

已于 2024-04-25 17:09:47 修改

阅读量1.4k

点赞数 3

文章标签： LLM

于 2024-04-11 17:02:08 首次发布

本文链接：https://blog.csdn.net/yang_daxia/article/details/137640635

版权

DriveVLM利用VLMs增强自动驾驶理解与规划，通过CoT推理改善性能。DriveVLM-Dual结合传统模块优化特征分析和实时轨迹规划。实验显示其在复杂场景中的优势，尤其是在数据量有限时。作者通过异步系统设计解决了大模型推理速度问题，并探讨了VLM与感知的集成方式和再训练需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述：

DriveVLM是一种结合了自动驾驶技术和大型视觉语言模型（VLMs）的系统，旨在提高自动驾驶车辆在复杂和长尾场景下的理解能力和规划能力。该系统通过引入一种特殊的思维链（Chain-of-Thought，CoT）推理过程，将场景描述、场景分析和层级规划三个关键模块结合起来，以对应传统的感知、预测和规划流程。此外，DriveVLM-Dual作为一种混合系统，结合了DriveVLM和传统自动驾驶流程的优势，以弥补VLM在空间推理和计算需求方面的局限性。

关键贡献：

DriveVLM利用VLMs的强大泛化和认知能力，实现了比传统模块更优越的性能。
DriveVLM-Dual通过与传统感知和规划模块的有选择性交互，提高了特征分析的精度，并实现了实时且更精细的轨迹规划。
作者提出了一套挖掘复杂和长尾驾驶场景的数据挖掘流程，并构建了多样化的SUP-AD数据集。
DriveVLM在提出的SUP-AD和nuScenes数据集上的实验结果证明了其有效性，尤其在少量样本情况下的性能表现，以及DriveVLM-Dual在规划任务上的先进性能。