DrivingDiffusion: 采用潜扩散模型通过3D布局引导的多视图驾驶场景视频合成

最新推荐文章于 2024-08-08 04:32:56 发布

硅谷秋水

最新推荐文章于 2024-08-08 04:32:56 发布

阅读量914

点赞数 7

分类专栏：大模型计算机视觉机器学习文章标签： 3d 自动驾驶视频

本文链接：https://blog.csdn.net/yorkhunter/article/details/139693117

版权

大模型同时被 3 个专栏收录

463 篇文章 7 订阅

订阅专栏

机器学习

278 篇文章 2 订阅

订阅专栏

计算机视觉

166 篇文章 1 订阅

订阅专栏

23年10月11日来自百度的论文“DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model“。

由于昂贵的收集和标注成本，大规模的多视图数据很难获得。为了缓解这个问题，提出一个时空一致的扩散模型框架DrivingDiffusion，生成受3D布局控制的逼真多视图视频。在给定3D布局的情况下合成多视图视频有三个挑战：如何保持1）跨视图一致性？和2）跨帧一致性？3）如何保证生成实例的质量？DrivingDiffusion通过级联多视图单帧图像生成步骤、多个摄像头共享的单视图视频生成步骤以及处理长视频生成的后处理来解决这个问题。

在多视图模型中，通过相邻摄像头之间的信息交换来保证多视图图像的一致性。在时间模型中，主要从第一帧的多视图图像中查询后续帧生成中需要注意的信息。还引入了局部提示，有效地提高生成实例的质量。在后处理中，采用时间滑动窗算法进一步增强后续帧的跨视图一致性，并延长视频长度。在没有任何额外成本的情况下，模型可以在复杂的城市场景中生成大规模逼真多摄像头驾驶视频，为下游的驾驶任务提供支持。

如图是DrivingDiffusion从人工3D布局（包括障碍物和道路结构的3D边框）生成的多视图视频示例。用摄影机参数将三维布局投影到六个摄影机视图。其中展示了六个摄像头视图和六个连续帧的生成结果。

添加图片注释，不超过 140 字（可选）

如图是多视图视频生成框架DrivingDiffusion的示意图。对于训练，分别训练多视图模型和时间模型。除了橙色和紫色组件外，这两种模型的结构相似。在推理阶段，这两个模型以级联的方式连接在一起。首先，多视图模型生成视频的初始化多视图帧。然后将该帧设置为时间模型的关键帧。最后，时间模型为每个视图生成视频帧，形成最终的多视图视频。

添加图片注释，不超过 140 字（可选）

用于图像合成的流行扩散模型通常使用U-Net架构进行去噪，这需要先进行两轮空间下采样，然后再进行上采样。它由多层二维卷积残差和注意块组成，包括自注意、交叉注意和前馈网络。空间自注意评估特征图中像素之间的相互依赖性，而交叉注意则考虑像素与条件输入（如文本）之间的对齐。在生成视频时，通常对视频输入使用细长的1×3×3卷积核，保留单帧预训练扩散模型的参数，并将其扩展到新维度。在多视图和时间模型中，分别为视图和时间引入了额外维度。与VDM[8]类似，将2D卷积层扩展为具有1×3×3内核的伪3D卷积层，并在每个Transformer块中集成时间自聚焦（self focusing）层，促进维度间信息交换。此外，还集成了几个模块，如3D布局控制器、关键帧控制器、跨视图/跨帧一致性模块和局部提示引导模块，提高实例生成质量。

引入一种多阶推理策略来生成多视角长视频，如图所示：1）首先采用多视角模型来生成视频序列的第一帧全景图像。2）然后，从每个视角生成的图像作为时间模型的输入，允许为每个相应的视角并行生成序列。3）对于后续帧，采用微调模型进行并行推理。4）在识别新的关键帧后扩展视频，就像滑动窗算法一样。最后得到了完整的合成多视图视频。

添加图片注释，不超过 140 字（可选）

3D布局的输入为模型提供了每个目标的位置、类别和实例信息，在某种程度上有助于增强局部多视图和时间一致性。然而，仅凭这一点不足以确保全局一致性，尤其是在静态场景中。为了解决这一问题，提出一种有效的注意机制，强调跨视图和跨框架的交互，并引入几何约束来监督生成的结果。如图右显示一致性模块的有效范围：（1）多视图中的相邻视图，（2）多帧中的当前帧和第一个/以前的帧。

添加图片注释，不超过 140 字（可选）

为了提高实例的生成质量，设计一个本地提示模块。首先，预先存储类别k和与类别名称对应的文本Tk，并对类别嵌入进行编码Fk=φ（Tk），其中φ是CLIP[23]编码器。投影3D布局的最小周围矩形区域作为每个类别k的掩码Mk。然后，用潜表征计算z和类别文本编码Ek，用Mk作为注意掩码，以全局提示相同的方式，计算交叉注意。如上图左说明全局提示和局部提示如何协作。

在训练过程中没有使用固定数字编码，因为假设局部提示和全局提示的概念是一致的，唯一的区别是它们各自的范围。因此，局部提示复制了与全局提示相同的结构和参数，使其能充分利用预训练的扩散模型参数，该模型已经包含了目标类别的理解。

注：这里3D布局的引导算是一个限制。