24年1月,Bosch、Syracuse University联合发布VLP: Vision Language Planning for Autonomous Driving,自动驾驶的视觉语言规划。
Abstract
自动驾驶是一项复杂而具有挑战性的任务,旨在通过场景理解和推理来实现安全的运动规划。虽然纯视觉自动驾驶方法最近取得了显著的性能,但通过增强场景理解,仍然需要解决几个关键问题,包括缺少推理、低泛化性和长尾场景。在本文中,我们提出了一种新的视觉语言规划框架VLP,它利用语言模型来弥合语言理解和自动驾驶之间的差距。VLP通过增强资源记忆设施(BEV特征)、自动驾驶汽车上下文理解来增强自动驾驶系统。与之前的最佳方法相比,VLP在具有挑战性的NuScenes数据集上实现了最先进的端到端规划性能,其平均L2错误和碰撞率分别降低了35.9%和60.5%。此外,VLP在具有挑战性的长尾场景中表现出更好的性能,在面对新的城市环境时表现出强大的泛化能力。
1. Introduction
自动驾驶是一个复杂的问题,需要对场景进行理解和推理,以确保安全的运动规划。
### AIgraphX组织了几次视频理解工作的讨论,目前界定视频理解算法还不成熟,和运动场景生成
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



