Drive Anywhere: 带多模态基础模型的可泛化端到端自动驾驶_drive anywhere: generalizable end-to-end autonomou-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139652624

23年10月来自MIT、上海交大和TRI（Toyota）的论文“Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models“。

随自动驾驶技术的成熟，端到端的方法已经成为一种领先的策略，有望通过深度学习实现从感知到控制的无缝集成。然而，现有系统正在努力应对诸如意外的开放集环境和黑盒子模型的复杂性等挑战。与此同时，深度学习的发展引入了更大的多模态基础模型，提供了多模态的视觉和文本理解。本文利用这些多模态基础模型来增强自动驾驶系统的鲁棒性和适应性，实现分布式、端到端、多模态和可解释的自主性。具体而言，提出一种应用端到端开放集（任何环境/场景）自动驾驶的方法，该方法能够根据图像和文本可查询的表示提供驾驶决策。为此，介绍了一种方法，从Transformer中提取细微的空间（像素/补丁对齐）特征，实现空间和语义特征的封装。

如图所示：Drive Anywhere的直观图。在端到端驾驶中利用多模态基础模型的力量来增强泛化能力，并利用语言进行数据扩充和调试：（i）在开放集设置中实现端到端自动驾驶，在各种场景中实现最先进的结果，并允许基于可查询图像和文本表示的决策。（ii）开发了一种用于提取像素或补丁对齐特征的新机制，该机制扩展了传统多模态基础模型（生成图像级向量）的能力。（iii）系统实现了一种具有语言模态的潜空间模拟技术，用于在策略调试期间进行数据扩充和反事实推理。（iv）在逼真的模拟环境中进行的广泛分析，可以在未见的环境中无缝驾驶，并避开未经训练学习的障碍物。

添加图片注释，不超过 140 字（可选）

如图是方法概述。左图：多模态基础模型的特征提取将不同模态（如图像、文本）的数据映射到统一潜空间中的特征向量。中图：介绍了一种用于逐补丁特征提取的通用方法，该方法保留了对端到端驾驶至关重要的空间信息；这涉及到构建在每个补丁位置锚定的注意掩码，关注注意模块的特定区域（由着色描绘）。右图：具有语言模态的多模态表示实现了与LLM的无缝集成；这样通过用上下文相关的语言特征（例如，树）代替原始特征F′，来模拟潜特征→ 房子、商店、建筑物）。

添加图片注释，不超过 140 字（可选）