扩散模型赋能3D 视觉的综述报告

近年来,3D 视觉成为计算机视觉领域的一个重要研究方向,推动了诸如具身智能、自动驾驶、虚拟现实(VR)、医学成像等课题的发展。3D 视觉研究的核心在于从2D 数据源中精准地感知、理解和重建3D 场景。扩散模型作为一种强大的深度生成模型,能够估计复杂的2D 数据分布,为真实世界中的3D 视觉研究提供了新思路。为此,本报告综述了使用扩散模型解决3D 视觉任务的SOTA 方法,主要包括:3D 内容生成与编辑等。报告的组织结构安排如下:首先,从得分匹配的视角简述扩散模型的数学原理;其次,介绍关于3D 视觉的基础知识,包括3D 视觉表征的基本形式与3D 视觉任务现存的主要挑战;然后,分别介绍扩散模型在3D 内容生成、编辑以及新视角合成中的应用与技术架构;最后,概述常用的3D 视觉数据集与质量评价指标,并总结全文。1 扩散模型的数学原理1.1 扩散模型的得分建模流程假设数据x 的概率密度函数为p(x),则其对应的Stein 得分函数被定义为:在这里插入图片描述
扩散模型sθ(x) 的目标就是最小化得分匹配损失以近似真实数据得分s(x):式(7)表明:得分匹配与预测噪声近似等价,扩散模型本质就是去噪自编码器。在此基础上,根据Langevin动力学方程和马尔可夫链蒙特卡洛方法(MCMC),可进一步实现对估计的数据分布的迭代采样(假设数据服从任意的先验分布x0 π(x),且t = 1, . . . , T):在这里插入图片描述
图1: 扩散模型的得分建模流程. (a) 表示得分匹配,其用于估计数据的Stein 得分,即梯度流. (b) 表示(退火)Langevin 动力学过程其通过MCMC 迭代地从估计的数据分布中采样.1.2 随机微分方程统一扩散模型在这里插入图片描述
图2: 利用随机微分方程统一描述扩散模型的前向与反向过程.2 3D 视觉的基础知识2.1 3D 视觉数据的表征形式3D 数据表征是完成3D 视觉任务的基石,本综述报告按照表征形式的几何特性将其分为三类:2D 视觉表征、显式3D 表征以及隐式3D 表征。2.1.1 2D 视觉表征顾名思义,2D 视觉表征就是用2D 图像来表征3D 场景,优点是获取方式便捷,缺点是对图像的质量和数量有较高要求。典型的2D 视觉表征有:深度图(depth map)和多视图(multi-view images)。深度图是一种以2D 图像形式表示场景3D 信息的数据结构(Silberman et al. [2012]),其中每个像素值对应从特定视点(通常是相机)到场景中最近表面的距离。深度图可通过立体视觉(stereo vision)、结构光(structured light)或飞行时间(ToF)相机等技术获取,这些技术基于光或运动的几何原理来估计深度信息。深度图为3D 信息提供了一种高效的编码方式,可以便捷地与传统2D 图像处理技术集成。它在3D 重建、场景理解和机器人导航等需要理解场景空间布局的应用中发挥重要作用。此外,深度图可与RGB 图像结合形成RGB-D 数据集,同时包含色彩和深度信息,支持更全面的场景分析。然而,深度图存在固有局限性:它通常只能表示单一视点下物体的可见表面,而无法捕获被遮挡区域(即从相机视角被其他物体遮挡的部分),这对某些3D 重建任务带来挑战。多视图是指从不同视角捕获的同一场景或物体的多个2D 图像集合(Jensen et al. [2014])。它通过立体匹配(stereo matching)或基于运动的结构恢复(SfM)等技术来推断3D 信息,其核心原理是利用不同视角下的视差(parallax)来重建场景几何结构。多视图在3D 重建和VR 等领域有广泛应用,为创建沉浸式的真实场景体验提供基础。例如,在摄影测量中,通过分析多个重叠图像来生成详细的3D 模型;在自动驾驶领域,车载多相机系统采集的多视图用于感知周围环境的3D 结构。与其他3D 视觉表征相比,多视图能够保持高保真的表观特征,因为它们直接从真实图像中捕获纹理信息。但是,这种方法需要复杂的算法来实现精确的深度估计和3D 重建,且处理大量图像时会带来较高的计算复杂度。2.1.2 显式3D 表征显式3D 表征通过直接定义3D 模型的几何形状来表示3D 结构,能够提供清晰和详细的结构信息。这类表征方式直观且易于操作,但在表示复杂形状时往往需要较大的存储空间。典型的显式3D 表征有:点云(point cloud)、体素(voxel grid)、网格(mesh)和3D 高斯(3D Gaussian Splatting, 3DGS)。点云是一种通过在3D 空间中采样点来表示3D 物体或场景的表征方式(Dai et al. [2017])。点云中的每个点都由其空间坐标(x, y, z) 表征,并可以包含额外的属性信息,如颜色、法向量或强度值等。这种表征形式是激光雷达(LiDAR)、结构光扫描仪或立体视觉系统等3D 扫描设备的直接输出。点云提供了物体表面的离散采样表示,而非连续表面。它在存储原始几何数据方面简单高效,但通常缺乏定义物体表面或点之间拓扑关系所需的信息,这使得在未经进一步处理的情况下难以执行渲染或仿真等任务(点云不可微)。为了提升实用性,点云常常被转换为更具结构化的形式,如体素或网格。点云这种显式3D 表征在多个领域均有广泛应用,包括自动驾驶(用于环境感知)、机器人(用于导航和地图构建)以及3D 重建(用于物体或场景扫描)等。这种表征方式的主要优势是其简单性和直观性,但在处理复杂几何形状和表面细节时可能需要额外的处理步骤,从而增加任务实现的难度。体素是一种将3D 空间离散化为大小相等的立方体单元的表征方式(Zhou and Tuzel [2018]),类似于2D 图像中的像素。每个体素代表空间中的一小部分,可以存储诸如占用状态(体素是否包含物体的一部分)、颜色或密度等属性信息。体素在需要体积分析或明确建模物体内部和外部结构的应用中具有特殊优势,如医学成像(CT 或MRI)和体积渲染等。其一个关键优势是规则的结构特性,这使它特别适合直接用于3D 卷积神经网络(3D CNNs)进行目标分类、分割和场景理解等任务。然而,体素的计算成本较高,因为数据大小随分辨率呈立方增长,这导致在表示详细物体或大场景时需要大量内存。为了缓解这一问题,通常采用八叉树等技术,通过在不同分辨率下层次化表示体素来降低计算负担,同时保持几何细节,这种方法能够在保证表征精度的同时提高计算效率。网格是一种使用相互连接的顶点、边和面(通常是多边形,最常见的是三角形或四边形)来表示3D 表面的表征方式(Mo et al. [2019])。由于其能够以相对较少的数据点高效表示复杂表面,网格在计算机图形学和3D 游戏建模领域得到广泛应用。网格中的每个顶点对应3D 空间中的一个点(x, y, z),边定义了顶点之间的连接关系,形成物体的结构。面构成了定义物体形状的表面。网格在渲染方面特别高效,因为它们能够在最小化数据量的同时实现平滑和详细的表面表示。网格简化技术可以在保留重要几何特征的同时降低网格复杂度,使其能够同时适用于高精度和实时应用场景。这种表征方式结合了表面的连续性和计算的高效性,是最常用的3D 表征方式之一。3DGS 使用高斯函数以概率化的方式表示3D 几何结构(Kerbl et al. [2023])。在这种方法中,空间中的每个点都与一个高斯椭球体(Gaussian blob)相关联,这些高斯表征可以组合形成更复杂的形状,每个高斯都有明确的3D 空间位置(x, y, z)、旋转参数、缩放参数、不透明度和颜色特征。3DGS 渲染时直接将3D 高斯投影到2D 图像平面,该过程须保证连续可微。3DGS 在体积渲染、场景重建和神经渲染等领域有广泛应用,它结合了显式表征的直观性和概率模型的灵活性,但高斯椭球的表征形式相对稀疏,存在难以准确表示薄结构和精细几何的问题,在遮挡区域的重建质量尤其不佳。2.1.3 隐式3D 表征隐式3D 表征通过数学函数而非直接的几何形状来定义3D 结构。这类表征方式紧凑且能够高效地捕获复杂形状,但将其解码为显式几何形状可能较为困难。典型的隐式3D 表征有:神经隐式表征(neural implicit representation)、占用场(occupancy field)和符号距离场(SDF)。神经隐式表征是一种使用神经网络编码3D 几何的有效方法,通常特指神经辐射场(NeRF, Mildenhall et al. [2021])。它不是通过显式的顶点和面来表示形状,而是通过可以在3D 空间中任意点进行查询的连续函数来表示。这种方法能够实现高细节和平滑的表面表征,特别适合表示复杂形状。神经隐式表征的一个关键优势是其能够从多种输入数据中学习,如2D 图像、点云或体素,从而有效地捕获几何的精细细节和变化。这种表征方式将3D 形状编码为神经网络的参数,通过学习连续的映射函数来表达空间几何信息。需要补充的是,这类方法通常用MLP 来实现隐式函数,可以表示为从空间坐标到某种属性(如辐射场)的映射。其连续性和可微性使其在3D 重建和渲染任务中展现出独特优势。占用场是一种特定的神经隐式表征,用于判断3D 空间中的点是否被物体表面占据(Xu et al. [2021])。它通常被建模为一个二值函数,对每个查询点返回表示占用(1)或非占用(0)的值。通过对3D 数据(如点云或体素)进行训练,占用场可以学习近似复杂表面,并提供物体的紧凑表征。这种方法将3D 形状编码为判断空间点内外的连续函数,使得几何信息能够通过神经网络参数来表达。这种表征方式在场景理解和3D 重建等应用中特别有效,因为它支持高效的表面查询和渲染。占用场的连续性使其能够自然地表达物体的拓扑结构,同时其基于学习的特性使其能够从不完整或噪声数据中重建完整的几何形状。符号距离场是一种广泛使用的隐式表征形式,它基于空间中给定点到最近表面的距离来编码3D 形状的几何信息(Oleynikova et al. [2017])。SDF 函数对物体内部的点返回负值,表面上的点返回零值,物体外部的点返回正值。这种特性使得SDF 能够提供平滑且连续的表面表征,特别适用于形状混合、变形和碰撞检测等任务。在这种表征中,空间中每个点的距离值提供了丰富的几何信息,不仅指示了点的内外位置,还包含了到表面的精确距离。近年来SDF 常与神经网络结合,形成神经SDF 表征,进一步提升了其表达能力和应用范围。2.2 3D 视觉任务的主要挑战目前将深度学习方法应用于3D 视觉任务是主流的研究路线,如卷积神经网络(CNN)、图神经网络(GNN)和Transformer 等。然而&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值