35、StylizedNeRF Consistent 3D Scene Stylization as Stylized NeRF via 2D-3D Mutual Learning

简介

主页:http://geometrylearning.com/StylizedNeRF/
在这里插入图片描述
给定一组真实的照片(a)和一个风格图像(b),模型能够生成风格化的新视图©,通过学习风格化的NeRF在3D空间中是一致的。

复杂的三维真实场景的风格化问题,这对虚拟现实和增强现实等应用很有用

利用NeRF作为复杂3D场景的表示存在两个问题

  1. NeRF需要沿着光线查询数百个采样点来渲染单个像素,内存限制使得很难渲染整个图像,甚至一次渲染一个足够大的补丁,这对于计算内容和样式损失是很重要的,因此直接在小块训练补丁(单个RTX 2080Ti GPU为32×32)上训练一个具有感知风格和内容损失的程式化NeRF,会导致较差的程式化结果
  2. 直接采用最先进的图像风格化方法对NeRF渲染的图像进行风格化,会在不同的视角下产生不一致的结果,因为这些风格化方法缺乏3D信息。

在这里插入图片描述
只在小的训练补丁上训练一个风格和内容损失的风格化NeRF,将导致糟糕的内容维护和不令人满意的风格转移(NeRF w/ style)。在NeRF的结果上直接应用2D图像风式化方法(本例中使用了AdaIN)会导致从不同视图渲染时不一致(2D方法)。通过相互学习的方法,风格化的NeRF和2D风格化的方法产生了更好的风格和一致性质量的结果。

贡献点

  1. 提出了一种新颖的风格化NeRF方法,用给定的风格图像来风格化3D场景,在视觉质量和3D一致性方面优于现有的方法。
  2. 针对风格化的NeRF和2D风格化方法提出了一种相互学习的策略,利用了2D方法的风格化能力和NeRF的几何一致性
  3. 提出了一种可学习潜在码的条件概率建模方法,在实现条件风格化的同时处理二维风格化结果的二义性

实现流程

在这里插入图片描述
使用一个预先训练和固定的NeRF来渲染一些视图 {Ji} 作为相互学习的增强数据。通过预先训练的 VAE 编码器,将 VGG 从风格图像 {Sj} 提取的风格特征 {F^s j} 嵌入到潜在分布中。将提取的内容特征 {F^c j} 和风格特征 {F^s j} 送入 AdaIN 层和解码器,得到风格化颜色 Ca。另一方面,风格模块将可学习潜在码 {li,j} 和坐标 x 作为输入,预测风格化亮度颜色 Cs,形成风格化NeRF。通过将光线上的采样点与原始不透明度 σ 组合,可以得到渲染的程式化颜色 Cn。目标函数 Ld、Lmimic、Ls、Lc 和 Lco 用于相互学习优化

为了增强训练数据集,普通NeRF渲染了一系列视图 {Ii} 作为训练数据,样式图像表示为 {Sj} ,一个训练视图和一个给定的样式一起构成一个训练实例(li,j)

给定一个场景的图像集合与相应的相机参数,目标是生成风格化的图像遵循给定的风格从指定的新观点,同时保持几何一致性,为此,使用相互学习的方案,通过一致性和模拟损失来优化新引入的风格化NeRF和2D风格化网络

即使相互学习的风格化NeRF具有内在的一致性,但2D风格化网络不能保证结果的严格一致性,这仍然会导致风格化NeRF的结果模糊,因此将不一致的2D风格化结果视为服从样式条件分布的不同样本,并引入服从这些条件分布的潜在代码来处理不一致性,通过负对数似然损失用条件概率来建模可学习的潜在码

2D Stylization Network

在这里插入图片描述

2D Stylization Network由VGG编码器、自适应实例归一化层(AdaIN,二维风格化方法)和基于cnn的解码器组成

注意:AdaIN是一种具有代表性的方法,但也可能被其他先进的图像风式化方法所替代

编码器首先从给定的输入样式 {Sj} 和内容图像 {Li} 中提取特征映射(F^s j)(F^c j),然后AdaIN将内容特征映射的均值和方差对齐到样式特征映射,解码器对对齐的特征映射进行解码,并生成目标样式的输出结果,在这个过程中只有AdaIN的解码器是可以学习的,其他都为预训练

除了风格损失(Ls)和 感知内容损失(Lc)外,还通过一致性损失(Lco)从NeRF中提取3D一致性知识对解码器进行预训练

在这里插入图片描述
Oi,s 表示视图 i 和 样式 s 的风格化结果,Wi,j 表示根据NeRF估计的深度从视图 j 到视图 i 进行的弯曲操作,Mi,j 表示弯曲和遮挡的掩模。

Stylized NeRF

在这里插入图片描述

训练一个普通的NeRF来建模不透明度场σ(x)和原始亮度颜色场co(x, d),在接下来的相互学习过程中固定,为了实现NeRF的风格化能力,在NeRF中添加了一个MLP网络作为Style Module,而不是原始的颜色模块,对场景的风格化辐射颜色进行建模

Style Module在训练阶段查询场景的风格化亮度颜色时,除了位置坐标外,还接受可学习潜在码的输入。

NeRF- w中潜在代码用于模拟随机出现和场景瞬变,在Style Module,潜在代码学习了2D风格化结果的风格和模糊性,避免了风格化NeRF结果的模糊,并使其能够有条件地风格化场景。二维方法在指定样式的不同视图上的风格化结果可以看作是一个条件分布的样本

通过预先训练的VAE参数化2D程式化结果的条件分布,VAE将VGG提取的样式特征{F^s j}编码为高斯分布{N (μj, σj)},将二维风格化结果的条件分布参数化为嵌入高斯分布,该分布以样式特征为条件,对于第 i 个视图和第 j 个样式的二维风格化结果,赋给它一个在N (μj, σj)上采样初始化的潜在代码 li,j ,潜码在相互学习的过程中得到优化。为了约束潜在码 li,j 服从{N (μj, σj)} 的分布,使用负对数似然损失 Ld

在这里插入图片描述
i 和 j 分别为训练视图和风格图像的索引,μj 和 σj 分别表示第 j 类图像嵌入分布的均值和方差,约束可学习潜码服从风格条件分布来参数化二维风格化结果的条件分布,训练时,以嵌入分布的μ均值作为输入对场景进行风格化,损失Ld约束潜在代码以获得更好的聚类和泛化,从而导致更好的结果
在这里插入图片描述
Ld聚集了相同风格的潜在代码,并避免了测试结果中的构件。

Mutual Learning

在这里插入图片描述

Cn(r, l) 为像素 r 的预测风格化颜色,δk 为第k个采样点与 (k + 1) 个采样点之间的欧拉距离,模拟损失定义为NeRF的程式化结果 Cn(ri, li,j) 与2D风格化方法的 Ca(Ii, Sj)ri 之间的L2距离
在这里插入图片描述
引入拟态(Lmimic)损失,以最好地交流NeRF和2D风格化方法之间不同强度的知识

感知内容损失Lc(Ca(Ii, Sj), Ii) 和风格损失 Ls(Ca(Ii, Sj),Sj) 是由解码器 Ca(Ii, Sj) 的结果决定的,这允许在有限的GPU内存中使用更大的补丁。

NeRF风格模块与潜在代码相互学习过程的目标函数是
在这里插入图片描述
用于微调二维风格化解码器的目标函数可以写成
在这里插入图片描述
λd、λs和λm是控制项影响的超参数,分别设为1e-5、1和10

效果

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Triangulation Learning Network (TLN) 是一个用于从单目图像到立体图像的三维物体检测的算法,其存在一些主要问题,包括: 1. 训练数据缺乏:TLN 算法需要大量的训练数据才能准确地预测三维物体的位置和姿态。但是,由于三维物体检测数据集的获取成本很高,因此当前可用的数据集相对较少,这可能会影响算法的性能。 2. 姿态估计不准确:TLN 算法依赖于对相机姿态的准确估计,但是在实际应用中,姿态估计可能会出现误差。这些误差可能会导致算法无法准确地确定物体的三维位置和姿态。 3. 光照和背景干扰:TLN 算法对光照和背景的变化敏感,这可能会对其检测性能产生负面影响。在不同光照条件和背景下进行测试时,算法可能会出现误报或漏报。 4. 计算复杂度高:TLN 算法需要进行复杂的三角测量和卷积计算,因此需要较高的计算资源。这可能会限制算法在实时应用中的使用。 总之,尽管TLN 算法在三维物体检测方面取得了一些进展,但是它仍然面临着一些挑战和限制,需要进一步研究和改进。 ### 回答2: Triangulation Learning Network (TLN) is a type of deep learning model used for monocular to stereo 3D object detection. However, there are several main problems that currently exist with this approach. 首先,monocular-based 3D object detection methods, including TLN, heavily rely on depth estimation from a single image. This poses a challenge because estimating accurate depth information from a monocular image is inherently difficult. Monocular depth estimation is an ill-posed problem, as there are multiple possible depth solutions for a single input image. Therefore, the quality of depth estimation directly affects the accuracy of 3D object detection, and the current performance of monocular-based methods is still limited due to inaccurate depth estimation. 其次,TLN relies on stereo vision to improve the accuracy of 3D object detection. However, stereo vision has its limitations as well. It requires the presence of two or more cameras with known spatial calibration, which can be expensive and cumbersome to implement in real-world scenarios. Moreover, in challenging environments with poor lighting conditions or occlusions, the accuracy of stereo vision-based methods can be significantly affected. 此外,TLN suffers from the problem of ambiguous depth inference. Even with accurate depth estimation, it is still challenging to determine the exact 3D position of an object. This is because an object can have multiple possible 3D positions that are consistent with the observed 2D image. It becomes even more complex when multiple objects overlap or occlude each other, leading to further ambiguities in 3D object detection results. 最后,TLN requires a large amount of training data to achieve satisfactory performance. Collecting and annotating such data, especially for stereo 3D object detection, can be time-consuming, costly, and error-prone. This limits the scalability and practicality of TLN, as acquiring a diverse and representative dataset for training can be challenging. In summary, the main problems currently existing with Triangulation Learning Network (TLN) for monocular to stereo 3D object detection are inaccurate depth estimation, limitations of stereo vision, ambiguous depth inference, and the requirement for a large amount of training data. Addressing these challenges is essential for improving the accuracy, robustness, and practicality of TLN-based 3D object detection methods. ### 回答3: 目前Triangulation Learning Network: from Monocular to Stereo 3D Object Detection存在以下主要问题: 1. 数据需求高:从单目到立体的3D物体检测需要更多的数据支持。单目图像中的物体深度信息是模糊的,缺乏对立体视觉中物体准确深度的直接观测。因此,为了训练Triangulation Learning Network,需要大量的立体图像数据集,这样的数据集很难获得且成本较高。 2. 精度限制:尽管Triangulation Learning Network提供了改善单目到立体3D物体检测的方法,但其精度仍然受到一些限制。由于立体视觉中的散射和遮挡问题,物体表面的纹理信息可能会受到影响并导致深度估计的误差。此外,图像中物体的姿态和形状也会对准确的深度估计产生影响。 3. 依赖立体匹配:Triangulation Learning Network的核心思想是通过使用立体图像中的匹配点将单目图像的深度信息转换为立体深度。然而,立体匹配本身是一个复杂和计算密集的任务,尤其在具有高度纹理变化或遮挡的场景中,可能存在匹配错误的情况。 4. 硬件要求高:Triangulation Learning Network需要用于获取立体图像的专门的硬件设备,如立体相机或深度相机。这些硬件设备的成本较高,因此部署这种方法可能会面临一定的技术和经济挑战。 综上所述,尽管Triangulation Learning Network提供了一种从单目到立体的3D物体检测方法,但仍然存在着数据需求高、精度限制、依赖立体匹配和硬件要求高等问题。随着技术的进步,相信这些问题将逐渐得到解决,从而更好地推动Triangulation Learning Network的发展和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值