51-51 CVPR 2024 | Panacea:自动驾驶全景可控视频生成

本文介绍了Panacea,一种创新方法,用于生成具有全景和可控性的驾驶场景视频,解决了一致性和可控性的挑战。该方法基于稳定扩散模型,采用分解的4D注意力和两阶段生成管道,结合ControlNet实现对Bird's-Eye-View布局的精确控制,以BEV序列生成对应的视频。实验结果表明,Panacea在nuScenes数据集上表现优秀,生成的视频具有高质量、多视图和时间一致性,并且可以增强自动驾驶感知模型的训练数据集。
摘要由CSDN通过智能技术生成

23年11月,中科大联合旷视科技发布了Panacea:Panoramic and Controllable Video Generation for Autonomous Driving。作者提出了 Panacea,这是一种在驾驶场景中生成全景和可控视频的创新方法,能够生成多样化、带标注的Gen-nuScenes数据集。它解决了两个关键挑战:“一致性”和“可控性”。Panacea模型以Stable Diffusion 2.1版本为基础,引入4D attention的UNet主干。模型集成各种控制信号(图像、文本提示),特别是引入ControlNet模块,注入BEV sequences以进行精确控制(Box边界框、对象深度、道路地图和相机姿势),最终实现了高质量、多视图、全景可控的自动驾驶视频生成。

Abstract

自动驾驶领域越来越需要高质量的带标注训练数据。在本文中,我们提出了 Panacea,这是一种在驾驶场景中生成全景和可控视频的创新方法。它能够产生无限数量的多样化、带标注样本,这对自动驾驶进步至关重要。Panacea 解决了两个关键挑战:“一致性”和“可控性”。一致性确保了时间和跨视图的一致性,而可控性确保了生成内容与相应标注的对齐。我们的方法集成了一种新颖的 4D 注意力和两阶段生成管道来保持连贯性,辅以 ControlNet 框架,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值