自动驾驶_三谷秋水的博客-CSDN博客

自动驾驶

关注

文章平均质量分 86

关注数：文章数：160 文章阅读量：164224 文章收藏量：2295

作者: 三谷秋水

计算机视觉、图像视频处理、机器学习（深度学习）、自动驾驶、大模型和具身智体。

展开

RobotxR1：通过闭环强化学习在大语言模型上实现具身机器人智能

25年5月来自瑞士 ETH 的论文“RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning”。未来在现实环境中运行的机器人系统将需要机载具身智能，而无需持续的云连接，从而在功能与计算能力和内存限制之间取得平衡。这项工作提出 R1-zero 方法的扩展，该方法支持在机器人领域使用低参数计数大语言模型 (LLM)。R1-Zero 方

原创 2025-05-14 00:15:00 · 1383 阅读 · 0 评论
LMPOcc：利用历史遍历的长期记忆先验进行 3D 语义占用预测

25年4月来自复旦和重庆长安汽车公司的论文“LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals”。基于视觉的 3D 语义占用预测对于自动驾驶至关重要，可实现静态基础设施和动态代理的统一建模。实际上，自动驾驶汽车可能会在不同的环境条件下（例如天气波动和光照变化）重复穿越相同的地理位置。现有的 3D 占用预测方法主要整合相邻的时间上下文。然而，这些研究忽略利用

原创 2025-05-04 00:15:00 · 789 阅读 · 0 评论
HiP-AD：用于单解码器自动驾驶的可变形注意分层多粒度规划

25年3月来自 Nullmax 自动驾驶公司的论文“HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder”。尽管端到端自动驾驶 (E2E-AD) 技术近年来取得了显著进展，但在闭环评估方面的表现仍然不尽人意。在查询设计和交互中利用规划的潜力尚未得到充分挖掘。本文介绍一种多粒度规划查询表示，它集成异构航路点，包括跨各种采

原创 2025-05-04 00:15:00 · 774 阅读 · 0 评论
基于视觉的自动驾驶 3D 占据预测：回顾与展望

24年5月来自北航大学的论文“Vision-based 3D occupancy prediction in autonomous driving: a review and outlook”。近年来，自动驾驶因其在减轻驾驶员负担和提高驾驶安全性方面的潜力而受到越来越多的关注。基于视觉的 3D 占据预测是根据图像输入预测自动驾驶汽车周围 3D 体素网格的空间占据状态和语义，是一项新兴的感知任务，适用于经济高效的自动驾驶感知系统。本文首先介绍基于视觉的 3D 占据预测的背景并讨论该任务中的挑战。其次，从特

原创 2025-04-30 00:49:47 · 1076 阅读 · 0 评论
端到端自动驾驶的数据规模化定律

25年4月来自Nvidia、多伦多大学、NYU和斯坦福大学的论文“Data Scaling Laws for End-to-End Autonomous Driving”。自动驾驶汽车 (AV) 栈传统上依赖于分解方法，使用单独的模块处理感知、预测和规划。然而，这种设计在模块间通信期间会引入信息丢失，增加计算开销，并可能导致复合错误。为了应对这些挑战，最近的研究提出将所有组件集成到端到端可微分模型中的架构，从而实现整体系统优化。这种转变强调数据工程而不是软件集成，只需扩大训练资源规模即可提供提高系统性能

原创 2025-04-27 00:15:00 · 1902 阅读 · 0 评论
ChatBEV：一种理解 BEV 地图的可视化语言模型

25年3月来自上海交大、上海AI实验室、同济大学和MAGIC的论文“ChatBEV: A Visual Language Model that Understands BEV Maps”。交通场景理解对于智能交通系统和自动驾驶至关重要，可确保车辆安全高效地运行。虽然 VLM 的最新进展已显示出整体场景理解的前景，但 VLM 在交通场景中的应用（尤其是使用 BEV 地图）仍未得到充分探索。现有方法通常受任务设计和数据量限制的影响，从而阻碍全面的场景理解。为了应对这些挑战，推出 ChatBEV-QA，这是一

原创 2025-04-24 00:15:00 · 1314 阅读 · 0 评论
UniOcc：自动驾驶占用预测和预报的统一基准

25年3月来自 UC Riverside、U Wisconsin 和 TAMU 的论文"UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving"。UniOcc 是一个全面统一的占用预测基准（即基于历史信息预测未来占用）和基于摄像头图像的当前帧占用预测。UniOcc 整合来自多个真实数据集（例如 nuScenes、Waymo）和高保真驾驶模拟器（例如 CARLA、OpenCOOD）

原创 2025-04-24 00:15:00 · 995 阅读 · 0 评论
测试-时间规模化定律可以改进世界基础模型吗？

25年3月来自 UT Austin、UW Madison 和 Nvidia 的论文“Can Test-Time Scaling Improve World Foundation Model?”。世界基础模型（WFM）通过根据当前的观察和输入预测未来状态来模拟物理世界，已成为许多物理智能（PI）应用的核心，包括自动驾驶和机器人技术。然而，这些模型需要大量的计算资源进行预训练，并且在训练后受到可用数据的限制。因此，在测试-时规模化计算量成为传统模型扩大或重训练的关键且实用的替代方案。本文介绍 SWIFT，一

原创 2025-04-23 00:15:00 · 1074 阅读 · 0 评论
Scenario Dreamer：用于生成驾驶模拟环境的矢量化潜扩散模型

25年3月来自加拿大 Mila AI研究院、蒙特利尔大学、蒙特利尔理工、普林斯顿、加拿大 CIFAR AI Chair 计划和 Torc 机器人公司的论文“Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments”。Scenario Dreamer，是一个完全数据驱动的自动驾驶汽车规划生成模拟器，它可以生成初始交通场景（包括车道图和智体边框）和闭环智体行为。现有的生成驾驶模拟环

原创 2025-04-23 00:15:00 · 1039 阅读 · 0 评论
GAIA-2：用于自动驾驶的可控多视图生成世界模型

25年3月来自英国创业公司 Wayze 的论文“GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving”。（注：23年9月其发布GAIA-1）生成模型为模拟复杂环境提供一种可扩展且灵活的范例，但目前的方法不足以满足自动驾驶领域特定要求，例如多智体交互、细粒度控制和多摄像头一致性。其推出 GAIA-2（自主生成人工智能），这是一个潜扩散世界模型，将这些功能统一在一个生成框架中。GAIA-2 支持以丰富的

原创 2025-04-22 00:15:00 · 1339 阅读 · 0 评论
ORION：通过视觉-语言指令动作生成的一个整体端到端自动驾驶框架

25年3月来自华中科技和小米电动汽车的论文“ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation”。由于因果推理能力有限，端到端 (E2E) 自动驾驶方法仍然难以在交互式闭环评估中做出正确决策。当前的方法试图利用视觉-语言模型 (VLM) 强大的理解和推理能力来解决这一难题。然而，由于语义推理空间和动作空间中纯数值轨迹输出之间的差距，很少有用于 E

原创 2025-04-22 00:15:00 · 1162 阅读 · 0 评论
CoT-Drive：利用 LLM 和思维链提示实现自动驾驶的高效运动预测

25年3月来自澳门大学和 MIT 的论文“CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting”。准确的运动预测对于安全的自动驾驶 (AD) 至关重要。本研究提出 CoT-Drive，这是一种利用大语言模型 (LLM) 和思维链 (CoT) 提示方法来增强运动预测的创新方法。本文引入一种师生知识蒸馏策略，将 LLM 的高级场景理解能力有效地迁移到轻量级

原创 2025-04-21 00:15:00 · 1226 阅读 · 0 评论
DriveGen：面向无限多样化交通场景的大模型

25年3月来自上海交大和重庆长安汽车公司的论文“DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models”。微观交通模拟已成为自动驾驶训练和测试的重要工具。尽管近期数据驱动的方法推进逼真行为的生成，但它们的学习仍然主要依赖于单一的真实世界数据集，这限制其多样性，从而阻碍下游算法的优化。本文提出 DriveGen，一个交通模拟框架，它拥有大模型，可以生成更多样化的交通数据，并支持进一步的定制化设计。DriveGen 包

原创 2025-04-21 00:15:00 · 855 阅读 · 0 评论
MPDrive：利用基于标记的提示学习提高自动驾驶的空间理解能力

25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室（广东 AI 和数字经济实验室）的论文“MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving”。自动驾驶视觉问答（AD-VQA）旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题，这在很大程度上依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息，导致视觉坐标表示和文本描述之间存

原创 2025-04-09 00:15:00 · 1738 阅读 · 0 评论
ADGaussian：用于自动驾驶的多模态输入泛化GS方法

25年4月来自香港中文大学和浙大的论文“ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs”。提出 ADGaussian 方法，用于可泛化的街道场景重建。所提出的方法能够从单视图输入实现高质量渲染。与之前主要关注几何细化的 gaussian Splatting 方法不同，其强调联合优化图像和深度特征以实现准确的高斯预测的重要性。为此，首先将稀疏 LiDAR 深度作为一种额外

原创 2025-04-08 10:00:21 · 1097 阅读 · 0 评论
通过 BEV 世界模型进行在线轨迹评估的端到端驾驶

25年4月来自中科院自动化所和中科院大学的论文“End-to-End Driving with Online Trajectory Evaluation via BEV World Model”。端到端自动驾驶通过将感知、预测和规划整合到一个完全可微分的框架中，取得显著进展。然而，要充分发挥其潜力，有效的在线轨迹评估对于确保安全是必不可少的。通过预测给定轨迹的未来结果，轨迹评估变得更加有效。这一目标可以通过采用世界模型来捕捉环境动态和预测未来状态来实现。因此，提出一个端到端驾驶框架 WoTE，它利用 BE

原创 2025-04-08 03:45:00 · 882 阅读 · 0 评论
OpenDriveVLA：通过大型视觉-语言-动作模型实现端到端自动驾驶

25年3月来自慕尼黑工大和慕尼黑大学的论文“OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model”。OpenDriveVLA，一种专为端到端自动驾驶而设计的视觉-语言-动作 (VLA) 模型。OpenDriveVLA 以开源预训练大型视觉-语言模型 (VLM) 为基础，以 3D 环境感知、自车状态和驾驶员命令为条件生成可靠的驾驶动作。为了弥合驾驶视觉表示和语言嵌入之间的模态差

原创 2025-04-06 17:08:00 · 1313 阅读 · 0 评论
DiffAD：自动驾驶的统一扩散建模方法

25年3月来自新加坡公司 Carion 和北航的论文“DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving”。端到端自动驾驶 (E2E-AD) 已迅速成为实现完全自动驾驶的一种有前途的方法。然而，现有的 E2E-AD 系统通常采用传统的多任务框架，通过单独的特定任务头来处理感知、预测和规划任务。尽管以完全可微分的方式进行训练，但它们仍然遇到任务协调问题，并且系统复杂性仍然很高。这项工作引入 DiffAD——一种扩散概率模

原创 2025-04-06 16:17:32 · 1037 阅读 · 0 评论
CoLMDriver：基于 LLM 的协商有利于合作自动驾驶

25年3月来自上海交大和上海AI实验室的论文“CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving”。车对车 (V2V) 协作式自动驾驶通过解决单智体系统固有的感知和预测不确定性，有望在提高安全性方面取得巨大进展。然而，传统的协作方法受到严格的协作协议和对未见过交互场景有限泛化的限制。虽然基于 LLM 的方法提供了广义推理能力，但它们在空间规划方面的挑战和不稳定的推理延迟阻碍它们在协作驾驶中的直接应用。为了解决

原创 2025-04-05 00:15:00 · 805 阅读 · 0 评论
RAD：通过基于大规模 3DGS 的强化学习训练端-到-端驾驶策略

25年2月来自华中科大和地平线的论文“RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning”。现有的端到端自动驾驶 (AD) 算法通常遵循模仿学习 (IL) 范式，该范式面临着因果混淆和开环间隙等挑战。这项工作建立一个基于 3DGS 的闭环强化学习 (RL) 训练范式。通过利用 3DGS 技术，构建真实物理世界的逼真数字复制，使 AD 策略能够广泛探索状态空间并通过大规模反

原创 2025-04-05 00:15:00 · 1145 阅读 · 0 评论
Chameleon: 快-慢思考的神经-符号车道拓扑提取

25年3月来自清华和博世的论文“Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction”。车道拓扑提取，涉及检测车道和交通元素并确定它们之间的关系，这是无地图自动驾驶的一项关键感知任务。此任务需要复杂的推理，例如确定是否可以左转进入特定车道。为了应对这一挑战，引入由视觉-语言基础模型 (VLM) 驱动的神经-符号方法。现有方法有明显的局限性：(1) 使用 VLM 进行密集的视觉提示可以实现强大的性能，但在财务资源和碳足迹方面成本高昂，因此

原创 2025-03-15 00:15:00 · 973 阅读 · 0 评论
Occ-LLM：利用基于占用的大语言模型增强自动驾驶

25年2月来自香港科技大学广州分校的论文“Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models”。大语言模型 (LLM) 在机器人和自动驾驶领域取得重大进步。本研究提出一个基于占用的大型语言模型 (Occ-LLM)，它代表将 LLM 与重要表示相结合的开创性努力。为了有效地将占用编码为 LLM 的输入并解决与占用相关的类别不平衡问题，其提出运动分离-变分自动编码器 (MS-VAE)。这种方法利用先验

原创 2025-03-15 00:15:00 · 977 阅读 · 0 评论
AlphaDrive：通过强化学习和推理释放自动驾驶中 VLM 的力量

25年3月来自华中科技大学和地平线的论文“AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning”。OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到甚至超越人类专家级表现，其中强化学习 (RL) 和推理发挥着至关重要的作用。在自动驾驶中，最近的端到端模型已经大大提高规划性能，但由于常识和推理能力有限，仍然难以解决长尾问题。一些研究

原创 2025-03-14 00:15:00 · 1029 阅读 · 0 评论
Sce2DriveX：用于场景-到-驾驶学习的通用 MLLM 框架

25年2月来自中科院软件所和中科院大学的论文“Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning”。端到端自动驾驶是具身智能的重要组成部分，它将原始传感器输入直接映射到低级车辆控制。尽管在应用多模态大语言模型 (MLLM) 进行高级交通场景语义理解方面取得成功，但将这些概念语义理解有效地转化为低级运动控制命令并在跨场景驾驶中实现泛化和共识仍然具有挑战性。Sce2DriveX，是一种类似人类驾驶思维链 (CoT) 推理

原创 2025-03-09 00:15:00 · 764 阅读 · 0 评论
CarPlanner：用于自动驾驶大规模强化学习的一致性自回归轨迹规划

25年2月来自浙大和菜鸟网络的论文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。轨迹规划对于自动驾驶至关重要，可确保在复杂环境中安全高效地导航。虽然最近基于学习的方法，特别是强化学习 (RL)，在特定场景中显示出良好的前景，但 RL 规划器在训练效率低下和管理大规模真实驾驶场景方面仍存在困难。本文介绍 Car

原创 2025-03-08 08:54:00 · 1290 阅读 · 0 评论
用于自动驾驶的半监督视觉中心 3D 占用世界模型

25年2月来自清华大学的论文“Semi-supervised Vision-centric 3d Occupancy World Model For Autonomous Driving”。了解世界动态对于自动驾驶规划至关重要。最近的方法试图通过学习 3D 占用世界模型来实现这一点，该模型基于当前观察预测未来的周围场景。然而，3D 占用标签仍然需要产生有希望的结果。考虑到 3D 户外场景的注释成本很高，本文提出一个半监督的以视觉为中心 3D 占用世界模型 PreWorld，通过一种两阶段训练范式来利用

原创 2025-03-08 04:00:00 · 1324 阅读 · 0 评论
ReconDreamer：通过在线恢复构建驾驶场景重建的世界模型

24年11月来自极佳科技、北大、理想汽车和中科院自动化所的论文“ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration”。ReconDreamer，通过逐步整合世界模型知识来增强驾驶场景重建。具体来说，DriveRestorer 通过在线恢复来减轻伪影。该功能通过渐进式数据更新策略加以补充，旨在确保更复杂机动的高质量渲染。ReconDreamer 是一种能够在大规模机动中有效渲

原创 2025-03-06 00:15:00 · 791 阅读 · 0 评论
MagicDriveDiT：具有自适应控制的自动驾驶高分辨率长视频生成

24年11月来自香港中文大学、香港科技大学和华为公司的论文“MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control”。扩散模型的快速进步极大地改善视频合成，特别是可控视频生成，这对于自动驾驶等应用至关重要。然而，现有的方法受到可扩展性和控制条件集成方式的限制，无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍一种基于 DiT 架构的方法 MagicDriveDi

原创 2025-03-06 00:15:00 · 563 阅读 · 0 评论
VLM-E2E：通过多模态驾驶员注意融合增强端到端自动驾驶

25年2月来自香港科大广州分校、理想汽车和厦门大学的论文“VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion”。人类驾驶员能够利用丰富的注意语义，熟练地应对复杂场景，但当前的自动驾驶系统难以复制这种能力，因为它们在将 2D 观测值转换为 3D 空间时经常会丢失关键的语义信息。从这个意义上说，这阻碍了它们在动态和复杂环境中的有效部署。利用视觉-语言模型 (VLM) 卓越的场景理解和

原创 2025-03-05 00:15:00 · 1245 阅读 · 0 评论
LeapVAD：通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃

25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。尽管自动驾驶技术取得长足进步，但由于推理能力有限，数据驱动方法仍然难以应对复杂场景。与此同时，随着视觉语言模型的普及，知识驱动的自动驾驶系统也得到了长足发展。本文提出一种基于认知感知和 Dual-Process 思维的新方法 LeapVAD。该方法实现

原创 2025-03-01 00:15:00 · 1308 阅读 · 0 评论
FASIONAD：自适应反馈的类人自动驾驶中快速和慢速思维融合系统

24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大（成都）、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback”。确保安全、舒适和高效的导航是自动驾驶系统开发和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好，但它们往往难以应对罕见的长尾事件。大语

原创 2025-03-01 00:15:00 · 1058 阅读 · 0 评论
GEM：一种可泛化的自我视觉多模态世界模型，用于细粒度自我运动、目标动态和场景合成控制

24年12月来自瑞士EPFL、Bern大学、瑞士国家数据中心、苏黎世大学和ETH的论文“GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control”。GEM 是一种可泛化的自我视觉多模态世界模型，它使用参考帧、稀疏特征、人体姿态和自我轨迹来预测未来帧。因此，模型可以精确控制目标动态、自我智体运动和人体姿态

原创 2025-02-16 07:17:21 · 1137 阅读 · 0 评论
LearningFlow：大语言模型城市驾驶的自动化策略学习工作流程

25年1月来自香港科技大学广州分校的论文“LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models”。强化学习 (RL) 的最新进展表明其在自动驾驶领域具有巨大潜力。尽管前景光明，但诸如手动设计奖励函数和复杂环境中的低样本效率等挑战，仍然阻碍着安全有效的驾驶策略开发。为了解决这些问题，LearningFlow，针对城市驾驶的自动化策略学习，提出一个工作流程。该框架在整个 RL

原创 2025-02-14 00:15:00 · 1291 阅读 · 0 评论
使用零样本 LLM 在现实环境中推广端到端自动驾驶

24年12月来自纽约stony brook大学、UIC和桑瑞思（数字化医疗科技公司）的论文“Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs”。传统的自动驾驶方法采用模块化设计，将任务分解为子任务。相反，端到端自动驾驶直接从原始传感器数据输出动作，避免错误积累。然而，训练端到端模型需要全面的数据集；否则，模型的泛化能力较差。最近，大语言模型（LLM）已被用于增强端到端驾驶模

原创 2025-01-24 00:15:00 · 761 阅读 · 0 评论
PARA-Drive：实时自动驾驶的并行架构

24年CVPR来自Nvidia、USC 和斯坦福的论文“PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving”。最近的研究提出由可微分模块组成的端到端自动驾驶汽车 (AV) 架构，以实现最先进的驾驶性能。虽然它们比传统的感知-预测-规划流程更具优势（例如，消除组件之间的信息瓶颈并减轻集成挑战），但它们使用多样化的任务、模块及其互连组合来实现这一点。然而，到目前为止，还没有系统地分析过这些模块的必要性，也没有分析过它们

原创 2025-01-24 00:15:00 · 1037 阅读 · 0 评论
SparseDrive：通过稀疏场景表示实现端到端自动驾驶

24年5月来自清华和地平线的论文“SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation”。成熟的模块化自动驾驶系统被分解为不同的独立任务，例如感知、预测和规划，这些任务在模块之间会遭受信息丢失和错误积累。相比之下，端到端范式将多任务统一到一个完全可微的框架中，从而可以以规划为导向进行优化。尽管端到端范式具有巨大潜力，但现有方法的性能和效率都不令人满意，特别是在规划安全方面。其归因于计算成本高昂的 BEV（鸟瞰

原创 2025-01-24 00:15:00 · 996 阅读 · 0 评论
WiseAD：基于视觉-语言模型的知识增强型端到端自动驾驶

24年12月来自新加坡国立和浙大的论文“WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model”。随着视觉语言模型 (VLM) 的快速发展，人类通用知识和令人印象深刻的逻辑推理能力的出现，推动人们对将 VLM 应用于高级自动驾驶任务（如场景理解和决策）的兴趣日益浓厚。然而，深入研究知识熟练程度（尤其是基本驾驶专业知识）与闭环自动驾驶性能之间的关系需要进一步探索。本文研究基本驾驶知识的深度和广

原创 2025-01-21 00:15:33 · 1212 阅读 · 0 评论
SafeDrive：大语言模型实现自动驾驶汽车知识驱动和数据驱动的风险-敏感决策

24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。然而，确保动态、高风险环境中的安全并管理，对安全至关重要的长尾事件仍然是一项重大挑

原创 2025-01-21 00:13:49 · 943 阅读 · 0 评论
探索决策策略的紧要测试场景：一个LLM方法

24年12月来自清华大学的论文“Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach”。决策策略的最新进展已在自动驾驶和机器人等领域取得重大进展。然而，由于存在可能威胁其可靠性的关键场景，测试这些策略仍然至关重要。尽管研究正在进行中，但由于决策策略及其环境的复杂性，测试效率低和多样性有限等挑战仍然存在。为了应对这些挑战，本文提出一个适应性强的大语言模型 (LLM) 驱动的在线测试框架，以探索决策

原创 2025-01-19 00:18:36 · 1153 阅读 · 0 评论
PLUTO：突破基于模仿学习的自动驾驶规划极限

24年4月来自香港科技大学的论文“PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous Driving”。PLUTO，突破基于模仿学习的自动驾驶规划极限。改进来自三个关键方面：一种纵向横向感知模型架构，可实现灵活多样的驾驶行为；一种创新的辅助损失计算方法，可广泛应用且可高效地进行批量计算；一种利用对比学习的训练框架，采用一系列数据增强，以规范驾驶行为并促进对底层交互的理解。用大规模真实世界 nuPlan

原创 2025-01-18 00:34:42 · 1244 阅读 · 0 评论

自动驾驶

作者: 三谷秋水

RobotxR1：通过闭环强化学习在大语言模型上实现具身机器人智能

LMPOcc：利用历史遍历的长期记忆先验进行 3D 语义占用预测

HiP-AD：用于单解码器自动驾驶的可变形注意分层多粒度规划

基于视觉的自动驾驶 3D 占据预测：回顾与展望

端到端自动驾驶的数据规模化定律

ChatBEV：一种理解 BEV 地图的可视化语言模型

UniOcc：自动驾驶占用预测和预报的统一基准

测试-时间规模化定律可以改进世界基础模型吗？

Scenario Dreamer：用于生成驾驶模拟环境的矢量化潜扩散模型

GAIA-2：用于自动驾驶的可控多视图生成世界模型

ORION：通过视觉-语言指令动作生成的一个整体端到端自动驾驶框架

CoT-Drive：利用 LLM 和思维链提示实现自动驾驶的高效运动预测

DriveGen：面向无限多样化交通场景的大模型

MPDrive：利用基于标记的提示学习提高自动驾驶的空间理解能力

ADGaussian：用于自动驾驶的多模态输入泛化GS方法

通过 BEV 世界模型进行在线轨迹评估的端到端驾驶

OpenDriveVLA：通过大型视觉-语言-动作模型实现端到端自动驾驶

DiffAD：自动驾驶的统一扩散建模方法

CoLMDriver：基于 LLM 的协商有利于合作自动驾驶

RAD：通过基于大规模 3DGS 的强化学习训练端-到-端驾驶策略

Chameleon: 快-慢思考的神经-符号车道拓扑提取

Occ-LLM：利用基于占用的大语言模型增强自动驾驶

AlphaDrive：通过强化学习和推理释放自动驾驶中 VLM 的力量

Sce2DriveX：用于场景-到-驾驶学习的通用 MLLM 框架

CarPlanner：用于自动驾驶大规模强化学习的一致性自回归轨迹规划

用于自动驾驶的半监督视觉中心 3D 占用世界模型

ReconDreamer：通过在线恢复构建驾驶场景重建的世界模型

MagicDriveDiT：具有自适应控制的自动驾驶高分辨率长视频生成

VLM-E2E：通过多模态驾驶员注意融合增强端到端自动驾驶

LeapVAD：通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃

FASIONAD：自适应反馈的类人自动驾驶中快速和慢速思维融合系统

GEM：一种可泛化的自我视觉多模态世界模型，用于细粒度自我运动、目标动态和场景合成控制

LearningFlow：大语言模型城市驾驶的自动化策略学习工作流程

使用零样本 LLM 在现实环境中推广端到端自动驾驶

PARA-Drive：实时自动驾驶的并行架构

SparseDrive：通过稀疏场景表示实现端到端自动驾驶

WiseAD：基于视觉-语言模型的知识增强型端到端自动驾驶

SafeDrive：大语言模型实现自动驾驶汽车知识驱动和数据驱动的风险-敏感决策

探索决策策略的紧要测试场景：一个LLM方法

PLUTO：突破基于模仿学习的自动驾驶规划极限