MagicDrive: 多样3D几何控制的街景生成

170 篇文章 0 订阅
165 篇文章 1 订阅

23年10月来自香港中文大学、香港科技大学和华为诺亚的论文“MagicDrive: Street View Generation With Diverse 3D Geometry Control“。

扩散模型的最新进展显著增强了2-D控制下的数据合成。然而,街景生成中的精确 3D 控制对于 3D 感知任务至关重要,但仍然难以解释。具体来说,鸟瞰图(BEV)作为主要条件通常会给几何控制(例如高度)带来挑战,影响物体形状、遮挡模式和路面高程的表示,所有这些对于感知数据的合成至关重要,尤其是对于3D目标检测任务。本文介绍 MAGICDRIVE,一种街景生成框架,提供多样化的 3D 几何控件,包括相机姿势、路线图和 3D 边框,以及通过定制编码策略实现的文本描述。此外,设计包含一个交叉视图注意模块,确保多个摄像机视图的一致性。借助 MAGICDRIVE,实现了高保真街景合成,捕捉细微差别。

如图所示:MAGICDRIVE 通过独立对路线图、目标框和相机参数等编码来生成高逼真的图像,其中利用来自 3D 标注的几何信息实现精确的几何引导合成。此外,MAGICDRIVE还可以适应来自描述性条件(例如天气)的指导。这里将信息注入扩散模型的UNet采用了两种策略:交叉注意和加性编码器分支。鉴于注意机制(Vaswani2017)是为序列数据量身定制的,交叉注意适合管理可变长度的输入,如文本token和边框。相反,对于类似网格的数据,例如路线图,加法编码器分支在信息注入方面是有效的(Zhang2023a)。因此,MAGICDRIVE针对各种条件采用了不同的编码模块。

添加图片注释,不超过 140 字(可选)

对照一下之前的BEVGen(Swerdlow2023)的框架:BEV布局和多视图源图像被编码为离散表示,并在传递到自回归Transformer之前被展平化。空间嵌入被添加到每个转换块内相机和BEVtoken中,学习的成对相机偏差被添加到注意权重中。在训练期间应用加权 CE 损失,将token传递给解码器,在推理过程中获得生成的图像。

添加图片注释,不超过 140 字(可选)

还比对一下之前的BEVControl(Yang2023)框架:(a) BEVControl的输入是易于编辑的BEV草图S,多视图噪声图像Zt和文本提示,生成多视图图像Z0;BEVControl是一个由一系列模块组成的UNet结构生成网络。每个模块有两个元素,控制器和协调器。每个控制器从投影模块中提取的BEV草图特征中获取输入。文本特征被编码在交叉注意中。(b) 控制器模块以自注意的方式获取摄像机视图草图的前景和背景位置信息,并输出与BEV草图S相关的几何一致街景特征Gt。 (c)协调器模块利用交叉视图交叉元素注意机制,实现交叉视图的上下文交互,输出外观一致的街景特征 At。

添加图片注释,不超过 140 字(可选)

这两个工作都没有场景生成的3D控制。

在多相机视图生成中,图像合成在不同视角下保持一致至关重要。为了保持一致性,本文引入一个交叉视图注意模块。如图是MagicDrive的交叉视图注意机制:左图是在交叉注意模块之后引入对预训练UNet的交叉视角注意。右图是在没有交叉视角和有交叉视角的情况下的比较。

添加图片注释,不超过 140 字(可选)

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值