CVPR'24 不限规模！BerfScene：任意修改你的3D场景！-CSDN博客

本文链接：https://blog.csdn.net/weixin_46788581/article/details/139513155

点击下方卡片，关注「计算机视觉工坊」公众号
选择星标，干货第一时间送达

作者：Qihang Zhang | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉从入门到精通知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程(星球成员免费学习)、最新顶会论文、优质计算机视觉书籍文档、优质3D视觉算法源码、3D高斯系列教程、大量高质量项目对接等等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0 读者理解

本文介绍了一种名为BerfScene的方法，用于生成任意规模的3D场景。它通过引入BirdEye-View（BEV）地图作为输入，结合辐射场来生成图像，从而实现了对场景的直接控制。文章重点介绍了BEV-conditioned radiance field的设计和构建过程，以及如何利用这一表示来生成大规模场景。实验结果表明，BerfScene在生成3D场景方面具有很高的效果和性能。

从我的理解来看，BerfScene的关键创新点在于利用BEV地图来控制场景生成，从而实现了对场景的精细化控制和大规模合成能力。如摄像机视角有限和无法处理动态场景等，这些都是未来可以改进的方向。

论文链接：https://arxiv.org/pdf/2403.05897.pdf

代码链接：https://github.com/cnulab/RealNet

1 引言

这项工作介绍了一个名为BerfScene的框架，用于大规模3D场景的合成和灵活编辑。传统的对象合成方法无法直接应用于3D场景生成，因为场景包含了不同尺度和构成的对象。为了解决这个问题，提出了一种以鸟瞰图（BEV）地图为基础的3D场景表示方法。BEV地图能够清晰指定对象的组成和尺度，使得生成大规模场景可以分解为先合成局部场景，然后将它们组合在一起。为了避免在3D空间中组合局部场景时出现的问题，采用了BEV条件等变辐射场的表示方法。这种方法通过在生成器中引入额外的填充和低通滤波器，可以从2D图像中学习场景的分布，并生成无限规模的3D场景。实验证明，BerfScene在生成大规模3D场景方面具有最先进的性能。

2 方法

BerfScene方法使用BEV地图作为输入来描述场景，并生成一个以BEV表示为条件的辐射场，然后通过体素渲染将其用于图像合成。为了支持大规模场景生成，该方法将BEV条件的辐射场扩展为一个等变表示，通过精心设计的特征提取器实现。

2.1 初步知识

这部分介绍了神经辐射场在视图合成和图像生成中的应用。通过沿着每条射线采样多个点，并查询每个点的颜色和密度来渲染图像。颜色的计算是每个点颜色的加权平均值。对于每个点的编码特征，可以采用位置嵌入或从2D特征图中采样特征。最近的研究还引入了潜变量，并将其合并到编码特征中，用于生成具有3D感知的图像。

2.2 辐射场的等变BEV条件表示

本节介绍了如何利用BirdEye-View（BEV）地图来引导辐射场的生成，并改进了表示以支持大规模场景合成的等变性。为了整合BEV地图提供的先验信息，引入了一个生成器U，生成一个条件的2D特征图。生成器的网络架构是一个带有StyleGAN块的U-Net架构。生成器以2D Fourier特征图作为输入，并使用序列编码器和解码器逐步修改特征图，这些编码器和解码器受到随机采样的潜变量和BEV地图的调制。最终将输出特征图通过与坐标的位置嵌入进行交叉乘积，得到3D表示。在设计中，采用了空间编码层（SEL）来整合BEV地图，并引入了低通滤波器来减少下采样带来的混叠效应。通过这样的设计，能够以一种等变的方式生成大规模场景，保证了合成场景的一致性。

2.3 场景生成框架

本节介绍了BerfScene方法的场景生成框架。生成器使用U-Net编码器生成体素渲染的空间特征图，其中包括了对BEV地图和潜在代码的调制。判别器采用了EG3D的双判别器设计。训练过程中，样式代码、BEV地图和相机姿态从数据集中随机采样，优化传统的对抗损失和正则化损失。推断时，BerfScene支持无限规模的场景生成，通过将全局BEV地图划分为局部BEV，并在其上条件渲染图像来实现。同时采用超采样抗锯齿来提高视觉质量。

3 实验

实验部分评估了BerfScene在不同数据集上的性能，并与基线方法进行了比较，包括图像生成和3D感知图像生成。首先介绍了实验设置，包括使用的数据集和评估指标。然后描述了生成器、判别器和训练目标等实现细节。接着展示了定性结果，对比了BerfScene与基线方法在局部和全局场景合成方面的效果。定量结果表明，BerfScene在FID和EQT方面表现优异，特别是在CLEVR和3D-Front数据集上，相对于其他方法具有明显的优势。最后，通过消融实验验证了主要组件的作用，包括辐射场表示设计、BEV填充、低通滤波器和SEL层等，证明了这些设计对提高生成质量和保持等变性的重要性。

4 应用场景

BerfScene 的应用场景包括但不限于以下几个方面：

无限场景生成：BerfScene 可以生成大规模甚至无限规模的场景。通过将全局场景划分为局部区域，生成局部场景并无缝组合它们，可以实现对整个场景的生成。这种方法适用于需要生成大型场景的应用，如游戏开发、虚拟现实和增强现实应用等。
场景编辑：由于生成器是基于 BEV 地图进行条件化的，因此可以通过变换输入的 BEV 地图来轻松编辑场景。例如，可以通过平移、重新设计和插入/删除对象等方式对场景进行编辑。这种灵活性使得 BerfScene 在需要动态调整场景的应用中具有广泛的适用性，如虚拟演播室、建筑设计和游戏关卡编辑等。
视频生成：通过在局部 BEV 地图上滑动窗口来获取连续的局部 BEV 地图，BerfScene 可以生成导航视频。通过提取每帧视频的中间垂直线并堆叠它们，可以形成整个场景的全貌。这种功能可以应用于需要生成导航视频的场景，如自动驾驶模拟、虚拟旅游和教育应用等。

5 总结

BerfScene是一个能够生成任意规模3D场景的方法。它使用了基于BirdEye-View（BEV）的辐射场表示，通过BEV地图直接控制生成的空间配置。为了实现多个场景的平滑和一致的组合，BerfScene确保了BEV条件表示的等变性。通过将局部BEV地图控制的多个合成组合在一起，BerfScene可以合成无限规模的场景。在多个3D场景数据集上的实验结果表明，BerfScene的有效性和性能优于其他方法。然而，BerfScene仍存在一些限制，如推断时的摄像机视角有限以及无法实现大规模动态场景合成等。未来的工作可以着眼于解决这些限制，进一步提高BerfScene的性能和功能。

6 参考

[1] BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多