51-51 CVPR 2024 | Panacea：自动驾驶全景可控视频生成

深圳季连AIgraphX

已于 2024-05-19 14:47:57 修改

阅读量1k

点赞数 21

分类专栏： aiXpilot 智驾大模型文章标签： stable diffusion AIGC 自动驾驶智慧城市计算机视觉

于 2024-05-16 16:41:38 首次发布

本文链接：https://blog.csdn.net/weixin_45035094/article/details/138912055

版权

aiXpilot 智驾大模型专栏收录该内容

58 篇文章 33 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Panacea，一种创新方法，用于生成具有全景和可控性的驾驶场景视频，解决了一致性和可控性的挑战。该方法基于稳定扩散模型，采用分解的4D注意力和两阶段生成管道，结合ControlNet实现对Bird's-Eye-View布局的精确控制，以BEV序列生成对应的视频。实验结果表明，Panacea在nuScenes数据集上表现优秀，生成的视频具有高质量、多视图和时间一致性，并且可以增强自动驾驶感知模型的训练数据集。

摘要由CSDN通过智能技术生成

23年11月，中科大联合旷视科技发布了Panacea:Panoramic and Controllable Video Generation for Autonomous Driving。作者提出了 Panacea，这是一种在驾驶场景中生成全景和可控视频的创新方法，能够生成多样化、带标注的Gen-nuScenes数据集。它解决了两个关键挑战：“一致性”和“可控性”。Panacea模型以Stable Diffusion 2.1版本为基础，引入4D attention的UNet主干。模型集成各种控制信号（图像、文本提示），特别是引入ControlNet模块，注入BEV sequences以进行精确控制（Box边界框、对象深度、道路地图和相机姿势），最终实现了高质量、多视图、全景可控的自动驾驶视频生成。

Abstract

自动驾驶领域越来越需要高质量的带标注训练数据。在本文中，我们提出了 Panacea，这是一种在驾驶场景中生成全景和可控视频的创新方法。它能够产生无限数量的多样化、带标注样本，这对自动驾驶进步至关重要。Panacea 解决了两个关键挑战：“一致性”和“可控性”。一致性确保了时间和跨视图的一致性，而可控性确保了生成内容与相应标注的对齐。我们的方法集成了一种新颖的 4D 注意力和两阶段生成管道来保持连贯性，辅以 ControlNet 框架，