打造自动驾驶的视觉基础模型:挑战、方法和机遇

24年1月综述论文“Forging Vision Foundation Models for AutonomousDriving: Challenges, Methodologies, and Opportunities“,来自香港中文大学和华为。

在广泛的数据集上训练的大型基础模型,正在彻底改变人工智能领域。SAM、DALL-E2和GPT-4等模型通过提取复杂的模式和有效执行不同任务来展示其适应性,从而成为广泛人工智能应用有说服力的构建块。自动驾驶由于缺乏专门的视觉基础模型(VFM),仍然面临挑战。综合训练数据的稀缺性、多传感器集成的需要以及不同的任务专用架构对VFM在该领域的发展构成了重大障碍。本文深入探讨打造专为自动驾驶量身定制VFM的关键挑战,同时也概述了未来的发展方向。通过对250多篇论文的系统分析,剖析VFM开发的基本技术,包括数据准备、预训练策略和下游任务适应。此外还探索NeRF、扩散模型、3D Gaussian Splatting和世界模型等关键进展,为未来的研究提供了全面的路线图。

如图是VFM的研究树:

添加图片注释,不超过 140 字(可选)

如图显示图像、激光雷达、BEV和占用表征的时序概述。只展示一些具有代表性的方法。

添加图片注释,不超过 140 字(可选)

在自动驾驶的背景下,考虑到确保人类安全的高风险,确保在处理复杂驾驶场景时的稳健性至关重要。自动驾驶系统必须有效应对各种挑战,包括交通参与者、天气条件、照明和道路条件。然而,收集一个包含所有可能场景的数据集是不切实际和低效的,例如与行人有关的意外交通事故。此外,由于数据分布的潜在差异,在合成数据上训练的模型可能难以有效地推广到真实世界的场景。因此,问题的关键在于生成现实和可控的数据。令人鼓舞的是,最近的进展,特别是在扩散模型和NeRF方面,已经产生了模糊真实和机器生成之间界限的图像,为解决数据短缺问题提供了有希望的技术支持。下表概述了这些数据生成方法。

添加图片注释,不超过 140 字(可选)

在获得广泛的真实数据后,有效的预训练范式对于从海量数据集中提取一般信息和构建视觉基础模型至关重要。自监督学习涉及对大量未标记数据的训练,在自然语言处理和特定图像处理应用等各个领域都显示出了前景。此外,它还为自动驾驶VFM的发展带来了新的前景。如表所示,对构建自动驾驶VFM的自训练范式进行了全面调查,包括以自监督或无监督方式进行的所有努力。这些方法主要分为五类,包括基于对比的、基于重构的、基于蒸馏的、基于渲染的和基于世界模型的。

添加图片注释,不超过 140 字(可选)

世界模型是人工智能中一个长期存在的概念,通常被定义为预测以行动和过去观察为条件的未来状态。(Ha&Schmidhuber)。由于能够让智体对周围世界进行推理,预测未来状态,并在不需要与真实环境进行一致交互的情况下做出明智的决定,他们在机器人领域取得了成功的应用,从模拟环境(Hafner、Pasukonis、Ba & Lillicrap2023)、(Schrittwiser2020)到真实世界场景(Reed2022)、(P. Wu、Escontrela、Hafner、Abbeel & Goldberg2023)。

对于自动驾驶任务,自动驾驶车辆在动态变化的场景中行驶,这要求车辆具备环境如何演变的知识。因此,近年来,世界自动驾驶模式引起了人们的关注(Hu2023)(Jia2023),因为有潜力为端到端的自动驾驶铺平道路(Hu2022)(Jiang2022)。从另一个角度来看,自动驾驶世界模型的尝试也引入了一种很有前途的训练范式,打造自动驾驶的视觉基础模型。具体而言,世界模型通常以自监督的方式进行训练,可以在大规模未标记数据中进行优化。此外,通过学习世界的可概括表示,智体可以更容易地适应新的任务和挑战。现有世界模型的比较如表所示。

添加图片注释,不超过 140 字(可选)

虽然目前缺乏针对自动驾驶的定制视觉基础模型是一个挑战,但可以分析现有基础模型的应用,如视觉基础模型、多模态基础模型和其他领域的大型语言模型,增强理解。下表提供了一些突出模型的清晰摘要。通过检查现有解决方案的局限性,提取关键见解,并提出一个专门为自动驾驶定制的视觉基础模型。

添加图片注释,不超过 140 字(可选)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值