【论文阅读】SVDFormer

最新推荐文章于 2025-04-30 20:09:44 发布

Solarsss

最新推荐文章于 2025-04-30 20:09:44 发布

阅读量813

点赞数 1

分类专栏：点云补全文章标签：论文阅读

点云补全专栏收录该内容

2 篇文章

订阅专栏

SVDFormer: Complementing Point Cloud via Self-view Augmentation and Self-structure Dual-generator

SVDFormer：通过自视图增强和自结构双生成器补充点云

文章目录

SVDFormer: Complementing Point Cloud via Self-view Augmentation and Self-structure Dual-generator
摘要
1 介绍
2 相关工作
- 2.1 基于学习的形状补全
- 2.2 用于形状学习的多视图融合
3 方法
实验
结论

在这里插入图片描述
图1。我们的方法的特点和点云补全结果的视觉比较。
(a) SVDFormer 从自投影的多个视图中理解不完整的形状。
(b) SVDFormer 协作几何相似性（红框）和形状先验（黄色框）以进行形状细化。
©我们的SVDFormer与PoinTr[43]、PMP-Net++[33]和SeedFormer[50]的定性比较。

摘要

在本文中，我们提出了一种新的网络 SVDFormer，以解决点云补全中的两个具体挑战：从不完整的点云理解忠实的全局形状并生成高精度局部结构。目前的方法要么仅使用 3D 坐标感知形状模式，要么导入具有校准良好的内在参数的额外图像来指导缺失部分的几何估计。然而，这些方法并不总是充分利用可用于准确和高质量的点云补全的跨模态自结构。为此，我们首先设计了一个自视图融合网络，该网络利用多视图深度图像信息观察不完整的自形并生成紧凑的全局形状。
为了揭示高度详细的结构，我们引入了一个细化模块，称为自结构双生成器，其中我们结合了学习的形状先验和几何自相似性来生成新点。通过感知每个点的不完整性，双路径设计解开以每个点的结构类型为条件的细化策略。SVDFormer吸收了自我结构的智慧，避免了任何额外的配对信息，如彩色图像，具有精确校准的相机内在参数。综合实验表明，我们的方法在广泛使用的基准测试中实现了最先进的性能。代码可在 https://github.com/czvvd/SVDFormer 获得。

1 介绍

点云补全在三维视觉应用中起着至关重要的作用，近年来仍然是一个活跃的研究课题。为了解决这个问题，人们提出了各种基于学习的技术，其中许多技术展示了令人鼓舞的结果[44,14,47,43,35,38,45,23,50,46]。然而，捕获点云的稀疏性和大结构不完备性仍然限制了这些方法产生令人满意的结果的能力。
我们观察到这项任务有两个主要挑战。第一个挑战是可能不存在关键的语义部分，导致基于点的网络 [44, 35, 43, 50] 的巨大解空间来识别合理的全局形状并定位缺失区域。一些替代方法试图通过合并额外的彩色图像 [48, 1, 51] 来解决这个问题，但成对的图像很难获得，以及校准良好的内在参数。第二个是如何推断详细的结构。最近的一些方法[35,38]利用多个细化步骤之间的跳跃式连接，使它们能够更好地利用学习到的形状模式先验来迭代恢复更精细的细节。其他一些方法通过无池编码[50]或结构关系增强[18]优先保留原始细节信息。然而，上述所有方法通常对所有表面积采用统一的细化策略，这阻碍了各种缺失区域生成几何细节。通过观察和分析部分输入，我们发现缺失的表面区域可以分为两种类型。第一种类型在输入形状中缺乏相似的结构，它们的重建在很大程度上依赖于学习的形状先验。第二种类型与部分输入中存在的局部结构一致，并且可以通过适当的几何规律性来促进它们的恢复[49]。例如，KITTI[8]中的激光雷达扫描是高度稀疏的，包含有限的信息来生成精细细节。现有的细化策略往往会产生并保留不可信的线状形状（见图 7）。
基于上述观察，我们提出了一种新的点云补全神经网络SVDFormer。我们的方法通过在从粗到细的范式中充分利用自我结构信息来改进。
首先，类似于人类如何从不同的视点观察物理对象的缺失区域来感知和定位其缺失区域，我们的目标是通过增加数据表示来驱动神经网络吸收这些知识。为了实现这一点，我们设计了一个自视图融合网络(SVFNet)，它学习一个有效的描述符，很好地描述了从多个视点捕获的点云数据和深度图的全局形状(见图1 (a))。为了更好地利用这种跨模态信息，我们专门引入了一个特征融合模块来增强视图间的关系，提高多视图特征的辨别能力。
关于第二个挑战，我们的见解是解开以每个点的结构类型为条件的细化策略，以揭示详细的几何结构。因此，我们设计了一个具有一对并行细化单元的自结构双生成器 (SDG)，分别称为结构分析和相似性对齐。前者通过显式编码局部不完整性来分析生成的粗点云，使其能够匹配训练数据的学习几何模式来推断底层形状。相似性对齐单元找到每个点的相似结构的特征，从而更容易通过模拟输入局部结构的几何形状来细化其局部区域。借助这种双路径设计，我们的方法可以为不同类型的输入形状生成合理的结果，包括具有不同程度的不完整和高度稀疏的真实世界扫描的对称合成模型。
大量实验表明，SVDFormer 在广泛使用的基准测试中实现了最先进的性能。我们的主要贡献如下：
• 我们设计了一个称为 SVDFormer 的新型网络，它在全局形状理解和细节恢复方面显着提高了点云完成。
• 我们提出了一种新颖的自视图融合网络（SVFNet），该网络配备了特征融合模块来增强多视图和跨模态特征，可以输出合理的全局形状。
• 我们引入了一个自结构双生成器 (SDG) 来细化粗略完成。它使我们的方法能够通过联合学习 3D 形状的局部模式先验和自相似性来处理各种不完整的形状。

2 相关工作

2.1 基于学习的形状补全

早期基于学习的方法[4,9,21,25]通常依赖于基于体素的3D卷积神经网络表示。然而，这些方法受到计算成本高、分辨率有限的限制。或者，GRNet [37] 和 VE-PCN [27] 使用 3D 网格作为基于点的完成的中间表示。近年来，提出了几种通过端到端网络直接处理点的方法。一项开创性的基于点的工作是PCN[44]，它使用共享的多层感知器(MLP)来提取特征，并使用从粗到细的折叠操作[39]生成额外的点。受此启发，已经提出了许多基于点的方法[28,16,32,35,50,43]。
后来，为了解决仅使用点数据在部分形状中可用的信息有限的问题，一些工作[48,1,51,13]探索了使用辅助输入来提高性能。我们称它们为基于跨模态的方法。这些方法涉及渲染彩色图像和部分点云的组合，以及相应的相机参数。尽管这些方法已经显示出有希望的结果，但它们通常需要额外的输入，这在实际设置中很难获得。与这些 3D 数据驱动方法不同，MVCN [12] 使用条件 GAN 仅在 2D 域中运行完成。然而，它缺乏使用具有丰富空间信息的基本事实来监督结果的能力。此外，其他一些方法[36,1]寻求监督二维域中的点云补全。完成点的 2D 投影用于通过将它们与地面实况深度进行比较来计算损失。与这些方法相比，我们建议通过观察自我结构来理解整体形状来利用 2D 输入。因此，我们的方法对整体形状进行了更全面的感知，而不需要在训练期间进行额外的信息或可微分渲染。
考虑到高质量的细节生成，通过学习形状上下文和局部空间关系引入了多种策略。为了实现这一目标，最先进的方法设计了各种细化模块，从训练数据中学习更好的形状先验。SnowflakeNet [35] 引入了 Snowflake Point Deconvolution (SPD)，它利用 skip-transformer 对父点和子点之间的关系进行建模。FBNet [38] 在细化过程中采用反馈机制，并以循环方式生成点。LAKe-Net[23]将其表面骨架表示集成到细化阶段，更容易学习缺失的拓扑部分。另一种方法倾向于保留和利用部分输入中的局部信息。一种直接的方法是通过将结果与部分输入数据相结合来预测缺失的点[14,43]。由于点集可以看作是一个标记序列，PoinTr [43] 采用 Transformer 架构 [26] 来预测缺失的点代理。SeedFormer[50]引入了一种称为补丁种子的形状表示，以防止池化操作期间局部信息的损失。其他一些方法[17,18,46]提出利用细化阶段的结构关系来增强生成的形状。然而，这些策略对所有点都采用统一的细化策略，这限制了它们对不同点生成令人满意的几何细节的能力。我们的方法与他们的不同，通过将形状细化任务分解为两个子目标，并自适应地为不同的部分区域提取可靠的特征。

2.2 用于形状学习的多视图融合

近年来，基于视图的三维形状识别技术受到了广泛关注。[22] 中引入了经典的多视图卷积神经网络 (MVCNN) 模型，其中彩色图像被送入 CNN，随后通过池化操作组合。然而，这种方法具有忽略视图关系的基本缺点。继工作 [7, 30, 10, 40] 之后提出了各种策略来解决这个问题。例如，Yang等人[40]通过对区域到区域的关系进行建模，获得了有区别的3D对象表示。LSTM用于构建视图间关系[5]。由于跨模态数据最近可用，因此提出了融合视图和点云特征的方法[41,42]。受多视图融合成功的启发，我们的方法利用点云特征来增强自视图增强获得的多个视图之间的关系。

3 方法

在这里插入图片描述
图2。SVDFormer的体系结构。SVFNet首先从跨模态输入生成全局形状。然后使用两个 SDG 对粗略完成进行上采样和细化。

我们的 SVDFormer 的输入由三部分组成：部分和低分辨率点云 Pin ⊆ RN ×3、NV 相机位置 V P ⊆ RNV ×3（我们实验中的三个正交视图），NV 深度图 D ⊆ RNV ×1×H×W。给定这些输入，我们的目标是以从粗到细的方式估计一个完整的点云 P2 ⊆ RN2×3。整体架构如图 2 所示，由两部分组成：SVFNet 和配备两个 SDG 模块的细化器。SVFNet首先利用多个自投影深度图生成全局完成的形状P0⊆RN0×3。随后，两个SDGs逐步细化和上采样P0，得到最终的点云P2，其几何结构具有高水平的细节。请注意，与最近的一些跨模态方法 [48, 51, 1, 45] 不同，我们的方法充分利用了自我结构，不需要任何额外的配对信息，例如具有精确校准的相机内在参数的彩色图像 [48, 51]。深度图是通过在数据预处理阶段从可控视点自行投影点云直接产生的。

3.1. SVFNet

SVFNet旨在从不同的视点观察部分输入，并学习一个有效的描述符来产生全局合理和完整的形状。我们首先使用基于点的 3D 骨干网络和来自 NV 深度图的一组视图特征 FV 从 Pin 中提取特征 Fp。我们直接采用完善的骨干网络。具体来说，具有三个集合抽象层的 PointNet++ [20] 以分层方式对 Pin 进行编码，并使用 ResNet-18 模型 [11] 作为 2D 主干。
然而，如何有效地融合上述跨模态特征具有挑战性。在早期的实验中，我们直接连接这些特征，但生成的形状不太令人满意（参见第 4.5 节中的消融研究）。这可能是由于 2D 和 3D 表示之间的域差距造成的。为了解决这个问题，我们提出了一种新的特征融合模块来融合 Fp 和 FV 并输出全局形状描述符 Fg ，然后是一个解码器来生成全局形状 Pc。解码器使用一维 Conv-Transpose 层将 Fg 转换为一组逐点特征，并使用自注意力层 [26] 回归 3D 坐标。最后，我们采用了与以前的研究 [35, 50] 类似的方法，其中我们合并 Pc 和 Pin 并对合并的输出重新采样以生成粗略结果 P0。
特征融合。如图 3 所示，FV 首先通过线性投影和全局形状特征 FP 的指导转换为查询、键和值标记。然后，为了增强视图特征的可辨别性，根据以投影视点 VP 为条件的查询和键标记计算注意力权重。具体来说，我们通过线性变换将 VP 映射到潜在空间，然后将它们用作位置信号进行特征融合。在元素乘积之后，F 'V中的每个特征在FP的指导下结合了来自其他视图的关系信息。最后，通过最大池化从 F 'V 导出输出形状描述符 Fg。
在这里插入图片描述
图3。特征融合模块的说明。

3.2. SDG

SDG 旨在生成一组坐标偏移量，根据缺失表面积的结构类型对粗形状进行微调和上采样。为了实现这一点，SDG 被设计为双路径架构，如图 4 所示，它由两个并行单元组成，分别称为结构分析和相似性对齐。总体而言，输入Pin和最后一步输出的粗点云Pl−1，得到组合点特征Fl⊆RN ×2C。Fl 包含两种形状信息来源：一种源自学习的形状先验，另一种是从 Pin 中找到的类似几何模式中学习的。然后将 Fl 投影到高维空间并重塑以产生一组上采样偏移量 Ol ⊆ RrN ×3，其中 r 表示上采样速率。将预测的偏移量进一步添加到 Pl-1 以获得新的完成结果。请注意，我们两次迭代 SDG，如图 2 所示。
在这里插入图片描述
图 4. SDG 的架构。上层路径表示结构分析，下层路径表示相似度对齐。每个子网络生成一个偏移特征，然后将其彼此连接并用于回归到坐标偏移中。

3.2.1 结构分析

由于缺失区域的详细几何图形更难恢复，我们嵌入了不完整性感知的自我注意层，以明确地鼓励网络更多地关注缺失的区域。具体来说，Pl−1 首先与形状描述符 Fg 连接，然后通过线性层嵌入到一组逐点特征 Fl−1 = {fi}Nl−1i=1 中。接下来，Fl−1被馈送到不完整性感知自注意力层以获得一组特征 FQ = {qi}Nl−1i=1，它对逐点不完整信息进行编码。qi 由下式计算：
在这里插入图片描述
其中 WQ、WK 和 WV 是大小为 C × C 的可学习矩阵。hi是一个向量，表示Pl−1中每个点x的不完备性程度。直观地说，缺失区域中的点往往与部分输入的距离值更大。因此，我们通过以下公式计算不完整性：

其中 γ 是缩放系数。在我们的实验中，我们将其设置为 0.2。正弦函数[26]用于确保hi与查询、键和值的嵌入具有相同的维度。然后，我们将 FQ 解码为 F 'Q 以进一步分析粗形状。

3.2.2 相似对齐

相似对齐单元利用Pl−1中每个点的Pin中潜在的相似局部模式，解决了点云无序性质引起的特征失配问题。受[43]中的点代理的启发，我们首先使用三个EdgeConv层[29]来提取一组下采样的逐点特征Fin。Fin 中的每个向量都捕获本地上下文信息。由于可能存在远程相似结构，然后通过交叉注意进行特征交换，这是特征对齐的经典解决方案。计算过程类似于 vanilla self-attention。唯一的区别是查询矩阵是由 FQ 生成的，而 Fin 作为键和值向量。交叉注意层输出逐点特征FH⊆RNl−1×C，它在Pin中集成了粗形状Pl−1中的每个点的类似局部结构。通过这种方式，该单元可以对两个点云之间的几何相似性进行建模，并促进对输入中具有相似结构的点的细化。与结构分析单元类似，FH 还被解码为一个新的特征 F 'H。这两个解码器具有相同的架构，该架构由两层自注意力 [26] 实现。有关使用的自注意力、交叉注意力和解码器的更多详细信息，请参阅补充文件。

3.3 损失函数

为了衡量生成的点云与地面真实Pgt之间的差异，我们使用倒角距离(CD)作为我们的损失函数，这是最近的工作中常见的选择。为了便于从粗到细的生成过程，我们通过计算损失函数来规范训练：
在这里插入图片描述
值得注意的是，我们将 Pgt 下采样到与 Pc、P1、P2 相同的密度以计算损失。

实验

4.1 数据集与评估指标

我们首先使用PCN[44]和ShapeNet-55/34[43]数据集进行评估。为了确保公平比较，我们遵循与以前的方法相同的实验设置 [43, 50]。PCN包含ShapeNet[2]中8个类别的形状。地面实况完整点云有 16,384 个点，部分输入有 2,048 个点。ShapeNet-55 [43] 也是基于 ShapeNet [2] 创建的，包含 55 个类别的形状。真实点云有 8,192 个点，部分输入有 2,048 个点。ShapeNet-34 包含 34 个类别进行训练，留下 21 个看不见的类别进行测试，用于评估训练期间未见过的新类别的泛化能力。其次，为了评估现实场景的泛化能力，我们在KITTI[8]和ScanNet[3]上测试了我们的方法，它们分别包含从激光雷达扫描和RGB-D扫描中提取的部分点云。具体来说，我们测试了[44]提取的2,401个KITTI汽车和来自ScanNet的100个椅子点云。我们使用 CD、密度感知 CD (DCD) [34] 和 F1-Score 作为评估指标。根据最近的工作[50]，我们报告了PCN的ℓ1版本和Shapenet-55的CDℓ2版本，以便于比较。

4.2 PCN数据集的结果

我们在表1中将SVDFormer与最先进的方法[44,37,28,47,43,35,33,38,50,46]进行了比较。CD值由[50,43]提供，而F1-Score和DCD值是使用它们的预训练模型计算的。定量结果表明，SVDFormer 在所有指标上都取得了几乎最好的性能。特别是，我们的方法在 DCD 中优于 SeedFormer 8.06%。
在这里插入图片描述
表1。PCN数据集上的定量结果。（ℓ1 CD ×103 和 F1-Score@1%）

图 5 提供了不同方法的结果的可视化比较。在汽车和平面模型的情况下，所有方法都成功地生成了整体形状。然而，SVDFormer 通过为详细的结构（例如平面翅膀和汽车剧透）产生更清晰、更完整的边缘来优于其他方法。这是因为 SDG 的生成能力。在椅子和沙发模型的情况下，SVDFormer可以准确地定位缺失的区域，并在模型中的孔洞之间生成点，从而得到更忠实的结果。
在这里插入图片描述
图 5. 与 PCN 数据集上最近的方法 [43, 33, 35, 50] 的视觉比较。与其竞争对手相比，我们的方法产生了最完整和最详细的结构。

4.3 ShapeNet-55/34数据集的结果

ShapeNet-55的测试集可以分为三个难度级别：简单（S）、中等（M）和硬（H），它们对应于不同数量的缺失点（2,048、4,096 和 6,144）。定量结果如表 2 所示，由三个难度级别的 CD 值和两个附加指标的平均值组成。我们的方法在所有难度设置中都达到了 CD 的最佳结果。值得注意的是，SVDFormer 优于最先进的方法 SeedFormer，对于硬难度级别，CD 提高了 12.8%。不同难度水平下的结果如表6所示。与PoinTr和SeedFormer相比，我们的方法产生了更平滑的表面。视觉结果清楚地表明，SVDFormer 能够有效地从具有不同不完整程度的形状中恢复几何形状。
我们在ShapeNet-34数据集上进一步评估了SVDFormer。表 3 详细说明了可见和不可见类别的结果，这表明 SVDFormer 在所有三个指标方面都取得了最佳性能。
在这里插入图片描述
表2。ShapeNet-55的定量结果。CD-S、CD-M和CD-H分别代表简单、中等和困难难度水平下的CD值。(ℓ2 CD ×103 和 F1-Score@1%)

图6。ShapeNet-55上两种代表性方法[43,50]的视觉比较。H (Hard)、M (Moderate)和S (Simple)代表三个难度级别。

4.4 真实世界扫描的结果

对于真实世界的扫描，由于真实世界部分点云没有可用的基本事实，我们评估了在PCN上预训练的模型，无需微调或重新训练。我们将最小匹配距离 (MMD) [44]（见表 4）报告为定量评估指标，以评估输出与真实扫描的典型汽车/椅子的相似性。此外，我们在图7中展示了视觉比较。我们的方法可以产生更清晰的形状，具有详细的结构和尖锐的边缘。可以得出结论，即使输入非常稀疏并且与训练数据具有不同的分布，我们的方法也可以生成更详细的结果。
在这里插入图片描述
表4。真实世界扫描的定量结果。所有结果都是由在PCN (MMD ×103)上预训练的模型产生的。

图7。真实世界扫描的视觉比较。所有结果都是由在PCN上预训练的模型产生的。

4.5.消融研究和讨论

为了消融 SVDFormer，我们删除和修改主要组件。所有消融变体都在 PCN 数据集上进行训练和测试。消融变体可以分为 SVFNet 和 SDG 的消融。
SVFNet消融。为了研究形状描述符提取方法的影响，我们比较了SVFNet的两种变体，结果如表5所示。在变体A中，我们去掉了输入深度图，完成性能受到仅依靠3D坐标来理解形状的限制。在变体 B 中，我们通过将不同输入的融合替换为后期融合来评估我们的特征融合模块的重要性，该后期融合直接连接 Fp 和 Fv。我们观察到性能明显下降，表明所提出的SVFNet可以有效地融合跨模态特征。在这里插入图片描述
此外，为了对SVFNet的有效性进行更彻底的分析，我们生成了我们的方法、我们的变体A和SeedFormer产生的结果的可视化，它也采用了从粗到细的范式。在图 8 中，我们展示了 SVFNet（[50] 的补丁种子）直接生成的粗点云的结果。我们的分析表明，在初始粗略完成阶段，SeedFormer 和变体 A 都会产生次优结果，例如在缺失区域中生成太少的点。这对细化阶段提出了挑战，因此很难产生令人满意的最终结果。我们的SVFNet通过利用多个视点来观察部分形状来克服这一挑战。通过这样做，我们的方法能够定位缺失的区域并生成紧凑的全局形状，从而在最终结果中产生精细细节。有关视图数量的额外消融实验，请参阅补充材料。在这里插入图片描述
图8。代表性粗到细方法[50]和我们的变体A (w/o投影)在两个部分模型上的视觉比较。上面的结果是生成的粗点云。
SDG 消融。表 6 比较了 SVDFormer 在 SDG 模块上的不同变体。在变体 C 中，我们删除了 SDG 的不完备性嵌入，导致更高的 CD 值和更低的 F1-Score，这表明感知每个部分不完整性程度的能力对于模型的性能至关重要。在变体 D 和 E 中，我们分别从 SDG 中删除了相似度对齐和结构分析路径。结果表明，当删除其中任何一个路径时，模型的性能都会下降。
在这里插入图片描述
为了更好地理解和分析 SDG，我们在图 9 中展示了更多的视觉结果。具体来说，我们通过比较模型在真实世界扫描上不同变体的性能来研究结构分析路径和相似性对齐单元的有效性。在图 9 (a) 中，我们的方法可以生成合理的形状，而变体 E 和 SeedFormer 由于过度保留部分输入而产生不希望的结构。该结果证明了结构分析路径的重要性，特别是当输入包含有限的信息时。在图 9 (b) 中，我们将我们的方法与变体 D 进行了比较。我们展示了生成的粗形状，并在Pc中选择一个查询点(在输入中丢失)。然后，我们将交叉注意力层中的注意力图可视化，以证明相似性对齐单元的有效性。结果表明，对于区域高度相似的形状，相似对齐单元可以定位短或远距离相似的几何形状，从而产生更精细的细节。
在这里插入图片描述
图 9. (a)：[50] 和变体 E (w/o 结构分析) 在 LiDAR 扫描上的视觉比较。
(b)：变体 E (w/o Similarity Alignment) 和生成的粗点云 Pcon RGB-D 扫描的视觉比较。我们在 Pc 中选择一个查询点（用红色标记），并在交叉注意力层中可视化注意力图。颜色越红，相似度越高
将 SDG 扩展到其他方法。此外，我们通过将 SnowflakeNet [35] 中的 SPD 替换为 SDG 来评估 SDG 的生成能力。如表 6 所示，与我们的 SDG 模块配对时，SnowflakeNet 在所有指标方面都取得了更好的性能。这表明我们解开的细化器具有更好的生成能力。
复杂性分析。我们在表 7 中展示了。复杂性分析，其中显示了单个 NVIDIA 3090 GPU 上的推理时间、参数数量和 ShapeNet55 上的结果。比较表明我们的方法在成本和性能之间实现了权衡。
在这里插入图片描述
表7。复杂性分析。我们比较了我们的方法的推理时间(ms)和参数数量(Params)，以及ShapeNet-55上的三种经典方法。我们的方法在计算成本和性能之间取得了平衡。

结论

我们提出了用于点云完成的 SVDFormer。我们首先确定完成的主要挑战并为它们中的每一个开发新的解决方案。SVDFormer利用自投影多视图分析来理解整体形状并有效地感知缺失区域。此外，我们引入了一个称为自结构双生成器的解码器，它将形状细化过程分解为两个子目标，从而产生解开但改进的生成能力。在各种形状类型上的实验表明，SVDFormer在点云补全方面达到了最先进的性能。