GAN读书笔记：Unsupervised 3D Shape Completion through GAN Inversion

最新推荐文章于 2023-12-20 21:23:28 发布

痞老头

最新推荐文章于 2023-12-20 21:23:28 发布

阅读量993

点赞数

文章标签：生成对抗网络计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_54075936/article/details/125605741

版权

1. 论文目的：①以无监督学习的方式提高点云补全的效果。②对于输入的残缺点云，经过补全输出多个可能对应的完整形状。③充分利用预训练的 GAN 中的先验知识，并且不受残缺点云的域影响。

2. 领域现状：大多数点云补全方法在很大程度上依赖于成对的残缺 - 完整点云，并以全监督方式进行学习。尽管它们在域内数据上的表现效果良好，但泛化到其他形式的残缺点云或现实世界的残缺扫描时，由于域的差距，往往无法获得令人满意的结果。

3. 本文工作：提出了一个新颖的框架 ShapeInversion, 首次在点云补全任务中引入 GAN 逆映射。

4. 具体做法：该方法充分利用预训练的 GAN 中的先验知识，并且不受残缺点云的域影响。一个潜码通过预训练的 GAN 生成一个完整点云，再通过一个三维降采样模块 M 转化为一个残缺点云，进而与输入的残缺点云计算损失函数。该框架利用梯度下降的方法反传损失函数来更新潜码并且微调预训练的 GAN ，从而更好地重建与输入的残缺点云对应的完整形状。

5. 做法特点：①引入 GAN 对抗生成网络。②提高点云均匀度 - PatchVariance 。③ k-Mask –三维的降采样模块。

6. 这种特点的好处：通过这种方式， ShapeInversion 不再需要成对的训练数据，并且能够在训练好的生成模型中整合丰富的先验数据，并展示出更好的泛化能力。

7. 评估效果：

①在 ShapeNet 基准上， ShapeInversion 优于 SOTA 无监督方法，并可与用配对数据学习的有监督方法相媲美。

②ShapeInversion在三种数据集中，表现很好的泛化能力和鲁棒性。

③当输入物体太过残缺因而产生不确定性，ShapeInversion可以提供多解，并且保证每个解都合理的反应残缺物体的可见部分。

④由于 GAN 的引入， ShapeInversion 能够很好的实现对已知点云形状的编辑（抖动和变形）。

段内逻辑：论文目的 ----> 领域现状 ----> 本文工作 ----> 具体做法 ----> 做法特点 ----> 这种做法的好

处 ----> 评估效果

1 Introduction

段 1 ：

1. 对 3D 点云补全概念和应用场景（机器人导航、场景理解）进行介绍。

2. 阐述领域现状——目前大多数点云补全的研究都是以完全监督的方式进行训练。

3. 面临的问题——由于域的差距，往往无法获得令人满意的结果。

段内逻辑：概念和应用场景介绍 ----> 阐述领域现状 ----> 面临的问题

段 2 ：

1. 从 GAN 逆映射在 2D 中的应用中得到启发。

2. 提出解决方法——引入 GAN 逆映射用于 3D 点云补全。

3. 阐述方法过程——充分利用预训练的 GAN 中的先验知识，起到无监督学习的作用，通过将一个潜码（应该是个残缺点云）送入 GAN ，然后生成完整点云。

4. 引入 GAN 所带来的好处——①为输入的残缺点云提供多个合理的完整形状。②形状抖动和变形。

段内逻辑：启发 ----> 提出解决方法 ----> 阐述过程 ----> 引入 GAN 所带来的好处

段 3 ：

1. 将 GAN 逆映射用于 3D 数据所面临的挑战——点云分布不均匀和点云的无序性（点在三维空间的对应关系）。

2. 具体阐述面临的问题。

①与遵循网格状结构的二维图像不同，像素的位置是明确的，不同三维形状的点云是高度非结构化的。通常情况下，在三维形状上训练的 GANs 会产生具有明显不均匀性的点云，即点在形状表面的分布不均匀。这种不均匀性可能会导致形状有不想要的部分，破坏了我们预测的完整性。

②点云的无序性使得完成任务与二维图像修复有很大的不同。在二维图像修复中，鉴于网格式对齐的像素对应关系，人们可以很容易地测量部分输入的可见区域和预测输出之间的重建一致性。这种比较在三维形状完成中是具有挑战性的，因为两个三维形状的相应区域可能位于三维空间中的不同位置。如果没有准确的点对应关系， GAN 逆映射将受到不良重建的影响，并反过来危害到形状补全任务。

段内逻辑：面临的问题 ----> 具体阐述问题

段 4 ：

1. 为提高点云均匀度，提出解决方案— PatchVariance 。

2. 阐述解决方案—— PatchVariance 在物体表面上对 patches 进行采样，并对 patch 中心与其各自最近的邻域之间的平均距离方差进行惩罚训练，以确保平面假设。

3. PatchVariance 与现有正则化方法的区别—— PatchVariance 是一个 soft 正则器，在训练 GAN时，可以在物体层面上即时增强点云均匀性。

段内逻辑：提出解决方案 ----> 阐述解决方案 ----> 比较现有方法

段 5 ：

1. 为解决残缺输入和预测形状之间的点云对应关系，提出 k-Mask 。

2. 阐述解决方案——让残缺输入中的每个点从预测的形状中寻找它的 k- 邻近点。所有这些k- 邻近的指数定义了可见区域的 Mask ，我们可以从中计算出重建损失。

3. 与现有方法对比—— k-Mask 表现出更高的鲁棒性。

段内逻辑：提出解决方案 ----> 阐述解决方案 ----> 比较现有方法

段 6 ：

1. 评估效果（见上文 Abstract ）

Introduction 段间逻辑：概念和应用场景介绍 ----> 阐述领域现状 ----> 面临的问题 ----> 启发 ---->提出解决方法 ----> 阐述过程 ----> 引入 GAN 所带来的好处 ----> 具体阐述问题 ----> 提出解决方案

----> 阐述解决方案 ----> 比较现有方法 ----> 评估效果

2 Related Work

段 1 ：

1. 介绍三维形状补全的应用领域（机器人和感知方面）。

2. 三维形状补全的起源（PCN ）。

3. 引出大多数现有的三维形状补全方法——以全监督的方式对特定形式的残缺形状进行训练，并对完整形状进行配对。

4. 上述方法的局限性——由于域的差距，无法从域内推广至现实或其他形式的局部形状。

5. 为解决上述局限性，引出目前的 SOTA 无监督方法—— pcl2pcl 。

6. pcl2pcl 是这样解决的（简单介绍了一下流程）

7. 本文方法也属于无监督学习方法，并优于 pcl2pcl 。

段内逻辑：介绍三维形状补全的应用领域 ----> 三维形状补全的起源 ----> 引出大多数现有的三维形状补全方法 ----> 局限性 ----> 解决上述局限性（pcl2pcl ） ---->pcl2pcl 是怎么解决的 ----> 本文方法相较于 pcl2pcl 的优势

段 2 ：

1. 介绍目前最先进的 GANs （ BigGAN 和 StyleGAN ）——通常是在 2D 图像上进行训练。

2. GAN 逆映射的优势——可以使用训练好的 GAN 作为有效的先验，以高保真的方式重建图像。

3. 简单概括 GAN 逆映射的流程——该方法的目的是找到一个潜在向量，用预先训练好的GAN 对给定的图像进行最佳重建。通常，潜在向量可以基于梯度下降进行优化，或者通过一个额外的编码器从图像空间进行投影。 4. 对上述方法进行优化——在梯度下降之前引入一个编码器，可以作为更好的初始化。

5. 引出本文方法是第一个将 GAN 逆映射应用于 3D 点云补全任务。

段内逻辑：介绍目前最先进的 GANs---->GAN 逆映射的优势 ----> 简单概括 GAN 逆映射的流程----> 对 GAN 逆映射进行优化 ----> 将 GAN 逆映射应用于 3D 点云补全任务（本文所提出的想法）

3 Method

段 1 ：

1. 研究效果的预期——希望将训练有素的 GAN 作为形状补全的有效先验，特别是处理广泛种类的残缺形状，并将其推广到未见过的形状。

2. 提出创新点——将 GAN 用于 3D 点云补全。

段内逻辑：研究预期 ----> 提出创新点

段 2 、段 3 、段 4 ：

1. 介绍 GAN 逆映射在研究中的应用—— GAN 逆映射公式。

在 2D 图像应用中的公式理解：在参数为 $\theta$ 的 GAN 生成器部分 G 能够学习到从隐向量空间 (Latent Space) z 到图像 $x_{in}$ 的映射。 GAN 逆映射则是将图像 $x_{in}$ 映射回 z * ，进而得到由预训练的生成器 G 合成的图像 $x_{c}^{*}$ ，其中 $x_{c}^{*}$ 与真实的 $x_{in}$ 要足够接近（减小两张图像之间的差异）。

在本文 3D 点云应用中的公式理解：在参数为 $\theta$ 的 GAN 生成器部分 G 对点云形式的三维形状进行训练后，它可以从潜码向量 z 生成点云形状 $x_{c}$ 。 GAN 逆映射则是从初始化阶段开始，对数百个潜码向量进行随机采样，并选择 L 值最小的 z 作为微调的初始值，目的是为了找到最好的潜码向量 z * ，然后用生成器 G 重建一个给定的点云形状 $x_{in}$ （训练中会不断调整 z 直到得到 z * ，从 z * 生成的点云形状的 $x_{c}^{*}$ 与点云形状 $x_{in}$ 之间的差异最小）。

2. 改善 GAN 逆映射——在实时更新潜码向量的同时微调生成器，因此，公式变为：

公式 (1) 和 (2) 的区别：公式 (2) 在公式 (1) 的基础上，通过梯度下降更新 z 的同时也更新 $\theta$ ，达到微调生成器的目的。

3. 将 GAN 逆映射应用于点云补全——目的是为了从一个给定的残缺点云形状 $x_{in}$ 推断出一个完整的点云形状 $x_{c}$ ，其中需要计算空间距离，因此需要加入退化函数 M 将一个完整的点云形状转换成一个残缺形状，因此，公式变为：

段内逻辑： GAN 逆映射在 3D 点云研究中的应用 ----> 改善 GAN 逆映射 ----> 将 GAN 逆映射应用于 3D 点云补全

段间逻辑：研究预期 ----> 提出本文研究的创新点 ---->GAN 逆映射在 3D 点云研究中的应用 ---->改善 GAN 逆映射 ----> 将 GAN 逆映射应用于 3D 点云补全

3.1 Enhancing Point Cloud Uniformity

段 1 ：

1. 阐述 2D 图像和 3D 点云的不同点—— 2D 图像生成的像素是以规则的格子排列的，而三维形状是由连续的三维空间中的点表示的。

2. 3D GANs 的局限性——点云分布不均匀。

3. 举案例（tree-GAN ，但仍未解决点云不均匀的问题）

4. 造成点云分布不均匀的原因——有远距离关系的点可能会在三维空间中杂乱无章。如果没有适当的正则化，不同分支的点会倾向于形成类似高斯的分布，如更多的点聚集在物体的几何中心或不同语义部分的连接处，导致形状的高度不均匀。

段内逻辑：阐述 2D 图像和 3D 点云的不同点 ----> 局限性 ----> 举案例 ----> 产生局限性的原因

段 2 ：

1. 介绍了目前领域内，解决上述点云分布问题的一些解决措施（排斥性损失、扩展惩罚等）。

2. 上述解决措施的不足之处——这些方法分别只对形状的每一部分进行规范化处理，没有实现点云整体的均匀性。

3. 为改善上述的不足，本文提出 PatchVariance 解决方案（创新）。

段内逻辑：介绍目前领域内的一些解决措施 ----> 这些措施存在的不足 ----> 提出新的解决方案

（创新）

段 3 、段 4 ：

1. 对上述提出的新方案（PatchVariance ）进行说明。公式如下：

公式理解：通过最远点取样（FPS ）对物体表面的 n 个种子位置进行随机采样，计算每个种子与其 k 个邻近之间种子点之间的平均距离 $\rho _{j}$ （每个种子与其 k 个邻近种子点形成一个 patch ，所以也可以说是计算所有 patches 的平均距离），然后计算所有 patches 的平均距离的方差。

2. 评估效果—— PatchVariance 明显改善了生成形状的均匀性。

段内逻辑：文中提出的方法公式（PatchVariance ）进行说明 ----> 评估效果

段间逻辑：阐述 2D 图像和 3D 点云的不同点 ---->3D GANs 局限性 ----> 举例说明 ----> 产生局限性的原因 ----> 针对此类问题，目前领域内的一些解决措施 ----> 这些措施存在的不足 ----> 提出新的解决方案（创新） ----> 方法说明 ----> 评估效果

3.2 Degradation in the 3D Space

段 1 、段 2 、段 3 、段 4 ：

1. 定义退化函数 M

2. 由于点云独特的非结构化性质，定义这样一个退化函数是不合适的。

3. 基于上述问题，引入一个新的退化函数—— k-Mask 。

4. 利用欧式距离公式，动态获得两个点云之间的点对应关系。

5. $x_{c}$ 完整点云通过退化函数转换成残缺点云 $x_{p}$ ，公式如下：

公式理解：对于 $x_{in}$ 中的每个点 $p_{i}$ ，我们从 $x_{c}$ 中寻找其 k 个邻近点，表示为 $N_{k}^{x_{c}}(p_{i})$ ，因此， $x_{p}$ 可以看作是这些邻域的结合。

6. 与其他掩码方法进行比较（voxel-Mask 和τ -Mask ）

7. 比较结果—— k-Mask 提供了一个准确和稳健的退化，而其他掩码未能同时实现这两个目标。这是因为 voxel-Mask 和τ-Mask 都利用了基本固定的距离阈值，因此无法适应某些区域内点密度的变化。

段间逻辑：定义退化函数 ----> 局限性 ----> 引入新的退化函数 ----> 通过欧式距离公式，解决点对应关系 ----> 公式 ----> 掩码方法比较 ----> 比较结果

3.3 Loss Function for Inversion

段 1 ：

1. 介绍了两种距离度量方式（Chamfer Distance （CD ）和 Earth Mover’s Distance （ EMD ））。

2. 两种方式的应用分析——在 GAN 逆映射的应用中， EMD 存在局限性，故采用 CD 。

3. Chamfer Distance （CD ）公式如下：

公式理解： $x_{p}$ 和 $x_{in}$ 分别表示两组 3D 点云，第一个式子表示 $x_{p}$ 中任意一点 q 到 $x_{in}$ 的最小距离之和，第二个式子则表示 $x_{in}$ 中任意一点 p 到 $x_{p}$ 的最小距离之和。如果该距离较大，则说明两组点云区别较大；如果距离较小，则说明重建效果较好。

4. 计算 L1 距离作为特征距离损失，公式如下：

5. 由(7)和(8)两个公式可以得到整体损失函数——用于形状完成和完整形状的重建。

段内逻辑：介绍两种距离度量方式 ----> 两种方式的应用分析（选其中一种） ---->Chamfer

Distance （CD ）公式 ----> 特征距离损失公式 ----> 整体损失函数

4 Experiments

....

痞老头

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
GAN读书笔记：Unsupervised 3D Shape Completion through GAN Inversion

本文为阅读Unsupervised 3D Shape Completion through GAN Inversion文献过程中，个人所做的总结和笔记，欢迎大家相互学习交流
复制链接

扫一扫