51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解（含模型数据流梳理）

深圳季连AIgraphX

已于 2024-06-04 09:30:37 修改

阅读量1.1k

点赞数 28

分类专栏： aiXpilot 智驾大模型文章标签：自动驾驶人工智能 AIGC stable diffusion 计算机视觉智慧城市

于 2024-05-21 09:41:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45035094/article/details/139029063

版权

aiXpilot 智驾大模型专栏收录该内容

52 篇文章 29 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

24年5月，北京大学、国防创新研究院无人系统技术研究中心、中国电信人工智能研究院联合发布了DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving。

DriveWorld在UniAD的基础上又有所成长，提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能，后期扩大数据集和调整骨干网络大小应该会收益不少。

DriveWorld集成了BEV、Occupancy、World Model、LLM、Probabilistic Generative Model等核心技术，个人认为质量很高，改善精进的空间也蛮高。

总之，都在为开发出安全、舒适的自动驾驶基础模型努力着。

Abstract

以视觉为中心的自动驾驶由于其成本较低，最近引起了广泛的关注。预训练对于提取通用表示至关重要。然而当前以视觉为中心的预训练通常依赖于2D或3D前置Pre-text任务，忽略了自动驾驶作为4D场景理解任务的时间特征。在本文中，引入一个基于世界模型的自动驾驶 4D 表示学习框架（称为 DriveWorld）来解决这一挑战，该框架能够以时空方式从多摄像头驾驶视频进行预训练。具体而言，提出了一个用于时空建模的记忆状态空间模型，该模型由动态记忆库模块和静态场景传播模块组成。动态记忆库模块用于学习时间-觉察潜在动态以预测未来变化，静态场景传播模块用于学习空间-觉察潜在静态以提供全面的场景上下文。我们还引入了一个任务提示，将任务-觉察特征解耦为各种下游任务。实验结果表明，DriveWorld 在各种自动驾驶任务上取得了可喜的成果。当使用 OpenScene 数据集进行预训练时，DriveWorld 在 3D 对象检测的 mAP 增加了 7.5%，在线构图的 IoU 增加了 3.0%，多目标跟踪的 AMOTA 增加了 5.0%

了解本专栏

超级会员免费看

深圳季连AIgraphX

关注

28
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
1
评论
51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解（含模型数据流梳理）

DriveWorld在UniAD的基础上又有所成长，提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

深圳季连AIgraphX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。