23年11月,中科大联合旷视科技发布了Panacea:Panoramic and Controllable Video Generation for Autonomous Driving。作者提出了 Panacea,这是一种在驾驶场景中生成全景和可控视频的创新方法,能够生成多样化、带标注的Gen-nuScenes数据集。它解决了两个关键挑战:“一致性”和“可控性”。Panacea模型以Stable Diffusion 2.1版本为基础,引入4D attention的UNet主干。模型集成各种控制信号(图像、文本提示),特别是引入ControlNet模块,注入BEV sequences以进行精确控制(Box边界框、对象深度、道路地图和相机姿势),最终实现了高质量、多视图、全景可控的自动驾驶视频生成。
Abstract
自动驾驶领域越来越需要高质量的带标注训练数据。在本文中,我们提出了 Panacea,这是一种在驾驶场景中生成全景和可控视频的创新方法。它能够产生无限数量的多样化、带标注样本,这对自动驾驶进步至关重要。Panacea 解决了两个关键挑战:“一致性”和“可控性”。一致性确保了时间和跨视图的一致性,而可控性确保了生成内容与相应标注的对齐。我们的方法集成了一种新颖的 4D 注意力和两阶段生成管道来保持连贯性,辅以 ControlNet 框架,