CVPR'24 不限规模!BerfScene:任意修改你的3D场景!

点击下方卡片,关注「计算机视觉工坊」公众号
选择星标,干货第一时间送达

作者:Qihang Zhang | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉从入门到精通知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文优质计算机视觉书籍文档优质3D视觉算法源码3D高斯系列教程大量高质量项目对接等等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

a5aade4d278407e1160258ee8176180a.jpeg

0 读者理解

本文介绍了一种名为BerfScene的方法,用于生成任意规模的3D场景。它通过引入BirdEye-View(BEV)地图作为输入,结合辐射场来生成图像,从而实现了对场景的直接控制。文章重点介绍了BEV-conditioned radiance field的设计和构建过程,以及如何利用这一表示来生成大规模场景。实验结果表明,BerfScene在生成3D场景方面具有很高的效果和性能。

从我的理解来看,BerfScene的关键创新点在于利用BEV地图来控制场景生成,从而实现了对场景的精细化控制和大规模合成能力。如摄像机视角有限和无法处理动态场景等,这些都是未来可以改进的方向。

论文链接:https://arxiv.org/pdf/2403.05897.pdf

代码链接:https://github.com/cnulab/RealNet

1 引言

这项工作介绍了一个名为BerfScene的框架,用于大规模3D场景的合成和灵活编辑。传统的对象合成方法无法直接应用于3D场景生成,因为场景包含了不同尺度和构成的对象。为了解决这个问题,提出了一种以鸟瞰图(BEV)地图为基础的3D场景表示方法。BEV地图能够清晰指定对象的组成和尺度,使得生成大规模场景可以分解为先合成局部场景,然后将它们组合在一起。为了避免在3D空间中组合局部场景时出现的问题,采用了BEV条件等变辐射场的表示方法。这种方法通过在生成器中引入额外的填充和低通滤波器,可以从2D图像中学习场景的分布,并生成无限规模的3D场景。实验证明,BerfScene在生成大规模3D场景方面具有最先进的性能。

6a7d40eb554a82a32d25e9809e5cd808.png

2 方法

BerfScene方法使用BEV地图作为输入来描述场景,并生成一个以BEV表示为条件的辐射场,然后通过体素渲染将其用于图像合成。为了支持大规模场景生成,该方法将BEV条件的辐射场扩展为一个等变表示,通过精心设计的特征提取器实现。

8754ccc009e1efa8c1fab415040c6bea.png

2.1 初步知识

这部分介绍了神经辐射场在视图合成和图像生成中的应用。通过沿着每条射线采样多个点,并查询每个点的颜色和密度来渲染图像。颜色的计算是每个点颜色的加权平均值。对于每个点的编码特征,可以采用位置嵌入或从2D特征图中采样特征。最近的研究还引入了潜变量,并将其合并到编码特征中,用于生成具有3D感知的图像。

2.2 辐射场的等变BEV条件表示

本节介绍了如何利用BirdEye-View(BEV)地图来引导辐射场的生成,并改进了表示以支持大规模场景合成的等变性。为了整合BEV地图提供的先验信息,引入了一个生成器U,生成一个条件的2D特征图。生成器的网络架构是一个带有StyleGAN块的U-Net架构。生成器以2D Fourier特征图作为输入,并使用序列编码器和解码器逐步修改特征图,这些编码器和解码器受到随机采样的潜变量和BEV地图的调制。最终将输出特征图通过与坐标的位置嵌入进行交叉乘积,得到3D表示。在设计中,采用了空间编码层(SEL)来整合BEV地图,并引入了低通滤波器来减少下采样带来的混叠效应。通过这样的设计,能够以一种等变的方式生成大规模场景,保证了合成场景的一致性。

2.3 场景生成框架

本节介绍了BerfScene方法的场景生成框架。生成器使用U-Net编码器生成体素渲染的空间特征图,其中包括了对BEV地图和潜在代码的调制。判别器采用了EG3D的双判别器设计。训练过程中,样式代码、BEV地图和相机姿态从数据集中随机采样,优化传统的对抗损失和正则化损失。推断时,BerfScene支持无限规模的场景生成,通过将全局BEV地图划分为局部BEV,并在其上条件渲染图像来实现。同时采用超采样抗锯齿来提高视觉质量。

3 实验

实验部分评估了BerfScene在不同数据集上的性能,并与基线方法进行了比较,包括图像生成和3D感知图像生成。首先介绍了实验设置,包括使用的数据集和评估指标。然后描述了生成器、判别器和训练目标等实现细节。接着展示了定性结果,对比了BerfScene与基线方法在局部和全局场景合成方面的效果。定量结果表明,BerfScene在FID和EQT方面表现优异,特别是在CLEVR和3D-Front数据集上,相对于其他方法具有明显的优势。最后,通过消融实验验证了主要组件的作用,包括辐射场表示设计、BEV填充、低通滤波器和SEL层等,证明了这些设计对提高生成质量和保持等变性的重要性。

f2f3bc690525d51fc694bda1b1188a2b.png 13757c69780a0136c3e1ebae1aa03ecb.png

4 应用场景

BerfScene 的应用场景包括但不限于以下几个方面:

  • 无限场景生成:BerfScene 可以生成大规模甚至无限规模的场景。通过将全局场景划分为局部区域,生成局部场景并无缝组合它们,可以实现对整个场景的生成。这种方法适用于需要生成大型场景的应用,如游戏开发、虚拟现实和增强现实应用等。

  • 场景编辑:由于生成器是基于 BEV 地图进行条件化的,因此可以通过变换输入的 BEV 地图来轻松编辑场景。例如,可以通过平移、重新设计和插入/删除对象等方式对场景进行编辑。这种灵活性使得 BerfScene 在需要动态调整场景的应用中具有广泛的适用性,如虚拟演播室、建筑设计和游戏关卡编辑等。

  • 视频生成:通过在局部 BEV 地图上滑动窗口来获取连续的局部 BEV 地图,BerfScene 可以生成导航视频。通过提取每帧视频的中间垂直线并堆叠它们,可以形成整个场景的全貌。这种功能可以应用于需要生成导航视频的场景,如自动驾驶模拟、虚拟旅游和教育应用等。

69b8214ba6919ab9da407995f775436a.png cdc087c5f848a9084d19333b3fd59fe8.png

5 总结

BerfScene是一个能够生成任意规模3D场景的方法。它使用了基于BirdEye-View(BEV)的辐射场表示,通过BEV地图直接控制生成的空间配置。为了实现多个场景的平滑和一致的组合,BerfScene确保了BEV条件表示的等变性。通过将局部BEV地图控制的多个合成组合在一起,BerfScene可以合成无限规模的场景。在多个3D场景数据集上的实验结果表明,BerfScene的有效性和性能优于其他方法。然而,BerfScene仍存在一些限制,如推断时的摄像机视角有限以及无法实现大规模动态场景合成等。未来的工作可以着眼于解决这些限制,进一步提高BerfScene的性能和功能。

157cdb8cf52a3e44fd963aed5ac74811.png fb3520b7703f4213a3243f7f0802520a.png

6 参考

[1] BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

277b59d26f42f74c6c650957a09f8fac.png
▲长按扫码添加助理
3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
33abef2056c7f39afe9f711a6c259d8a.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
5b25a28e8c43da6096599819c3a9c609.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
d781e5359dd0e90a25f0d0dbc35f76b0.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
48cd1bb106d7fe1f7275cb5d6d07b172.png硬件+源码工坊智能ROS小车
9593cdae7a64f462ddec9523d4c628f2.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
欢迎点个 在看, 你最 好看!
  • 13
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值