MagicDrive: 多样3D几何控制的街景生成_magicdrive: street view generation with diverse 3d-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139763560

23年10月来自香港中文大学、香港科技大学和华为诺亚的论文“MagicDrive: Street View Generation With Diverse 3D Geometry Control“。

扩散模型的最新进展显著增强了2-D控制下的数据合成。然而，街景生成中的精确 3D 控制对于 3D 感知任务至关重要，但仍然难以解释。具体来说，鸟瞰图（BEV）作为主要条件通常会给几何控制（例如高度）带来挑战，影响物体形状、遮挡模式和路面高程的表示，所有这些对于感知数据的合成至关重要，尤其是对于3D目标检测任务。本文介绍 MAGICDRIVE，一种街景生成框架，提供多样化的 3D 几何控件，包括相机姿势、路线图和 3D 边框，以及通过定制编码策略实现的文本描述。此外，设计包含一个交叉视图注意模块，确保多个摄像机视图的一致性。借助 MAGICDRIVE，实现了高保真街景合成，捕捉细微差别。

如图所示：MAGICDRIVE 通过独立对路线图、目标框和相机参数等编码来生成高逼真的图像，其中利用来自 3D 标注的几何信息实现精确的几何引导合成。此外，MAGICDRIVE还可以适应来自描述性条件（例如天气）的指导。这里将信息注入扩散模型的UNet采用了两种策略：交叉注意和加性编码器分支。鉴于注意机制（Vaswani2017）是为序列数据量身定制的，交叉注意适合管理可变长度的输入，如文本token和边框。相反，对于类似网格的数据，例如路线图，加法编码器分支在信息注入方面是有效的（Zhang2023a）。因此，MAGICDRIVE针对各种条件采用了不同的编码模块。

添加图片注释，不超过 140 字（可选）

对照一下之前的BEVGen（Swerdlow2023）的框架：BEV布局和多视图源图像被编码为离散表示，并在传递到自回归Transformer之前被展平化。空间嵌入被添加到每个转换块内相机和BEVtoken中，学习的成对相机偏差被添加到注意权重中。在训练期间应用加权 CE 损失，将token传递给解码器，在推理过程中获得生成的图像。

添加图片注释，不超过 140 字（可选）

还比对一下之前的BEVControl（Yang2023）框架：（a） BEVControl的输入是易于编辑的BEV草图S，多视图噪声图像Zt和文本提示，生成多视图图像Z0；BEVControl是一个由一系列模块组成的UNet结构生成网络。每个模块有两个元素，控制器和协调器。每个控制器从投影模块中提取的BEV草图特征中获取输入。文本特征被编码在交叉注意中。（b）控制器模块以自注意的方式获取摄像机视图草图的前景和背景位置信息，并输出与BEV草图S相关的几何一致街景特征Gt。（c）协调器模块利用交叉视图交叉元素注意机制，实现交叉视图的上下文交互，输出外观一致的街景特征 At。

添加图片注释，不超过 140 字（可选）