【深度图像拼接论文】Pixel-wise Deep Image Stitching 阅读笔记

最新推荐文章于 2024-05-21 13:23:22 发布

不摆就是好孩子

最新推荐文章于 2024-05-21 13:23:22 发布

阅读量514

点赞数 8

文章标签：笔记

本文链接：https://blog.csdn.net/weixin_47100795/article/details/136965414

版权

1. 二位像素扭曲场（2D pixel warp field）

通过定义一个像素级别的变形场来描述图像中像素之间的空间关系和变换，通常会创建一个二维的变形场网格，其中每个网格点对应图像中的一个像素，通过在每个网格点处定义位移或变换参数来实现像素级别的扭曲，在图像拼接和图像配准领域有着广泛的应用。

2.三角形网格拼接（triangular mesh stitching）

旨在将输入图像分割为三角形形状的子区域，然后通过对这些三角形区域进行变形和融合，实现将多幅图像拼接为一个平面的过程。主要有以下几个步骤：

（1）关键点标定

（2）三角形划分

（3）变形与插值：对每个三角形区域进行变形和插值操作，通常采用仿射变换、透视变换或其他几何变换模型来调整和对齐各个三角形。在变形过程中，通常会保持三角形的形状不变，只对三角形内部的像素进行插值处理，以实现图像的变形和对齐。

（4）融合拼接：将经过变形处理的三角形区域融合到一个平面上，通过叠加和混合各个三角形的像素值，实现多幅图像的平滑拼接。在融合过程中，通常会考虑像素的权重分配、边界处理等问题，以确保拼接处的过渡自然平滑。

3.GT监督（Ground Truth）

GT（Ground Truth）监督是指在机器学习和深度学习任务中的一种监督学习方式，其中训练数据集中的每个样本都标记了真实的目标值或标签。Ground Truth（地面真相）代表了数据集中的真实信息，用于指导模型学习正确的关联规律或模式，以便模型能够准确地预测未见过的数据。

4.区域扭曲范式（Local Deformation Paradigm）

区域扭曲范式指的是在图像处理和计算机视觉领域中用于描述图像区域内像素位置发生扭曲或变形的模型。通过区域扭曲范式，可以捕捉图像中局部区域的形变情况，从而实现对图像的局部变形或扭曲操作。这种模型通常用于局部的几何变换和变形操作，以实现对图像的更加细致和精确的处理。

5.像素扭曲模块（PWM）

（1）在两幅图像的OV区域（重叠区域），所提出的方法的目的是：基于点对应估计从一副图像到另一幅图像的像素级二维扭曲。本文从估计领域的研究中借鉴了最新的网格结构。

（2）对于NOV（非重叠区域），由于缺乏对应关系，预测NOV区域上的扭曲场是一个定义不清的问题。就目前来看，为NOV区域提供GT监督来作为一个近似的引导，因为现有的模型具有一个广阔的感受野，可以了解OV和NOV之间的关系。但是，过度的强迫模型减少NOV区域上的预测扭曲和GT扭曲之间的损失可能会导致训练数据上的过度拟合，类似于单目深度估计。此外，从图像拼接的角度来看，导致合理拼接结果的翘曲场不是唯一的。

（3）因此，本文没有对图像上的所有像素应用相同的损失函数，而是通过加权调整NOV区域上像素的损失，提出PWM翘曲损耗 定义为公式（1）。
在这里插入图片描述

6. 感受野

感受野（Receptive Field）是指神经网络中某一层神经元对输入数据的区域大小，或者说是神经元接收信息的范围。每个神经元的感受野可以看作是对输入数据的局部区域进行感知和处理。在卷积神经网络中，没有单一的神经元的概念，而是卷积核，即过滤器（filter），所以感受野对于卷积神经网络来说，就是每个卷积核接收到的输入数据的区域大小。这与filter的参数设定有关。

7.softmax splatting技术

具体而言，Softmax splatting首先将深度图像中的每个像素值映射为一个softmax概率分布，表示该像素属于不同深度值的概率。然后，根据这些概率分布，结合场景几何信息和材质属性，使用渲染算法生成最终的合成图像。Softmax splatting的优点包括：

（1）处理遮挡：通过将深度值映射为概率分布，Softmax splatting可以更好地处理遮挡情况，避免深度图像中出现不真实的重叠效果。

（2）透射和透明效果：可处理此类效果。

（3）提高渲染小效率：由于结合了深度学习技术，可以在渲染过程中更高效的利用硬件加速和并行计算，提高渲染效率。

8.基于Sampson距离误差的极限损失（Epipolar Line Loss）

在深度学习中用于训练对几何模型（基础矩阵）的一种损失函数。这种损失函数旨在帮助神经网络学习对几何关系，以提高计算机视觉任务（如立体匹配、三维重建）的准确性和鲁棒性。

此损失函数在训练神经网络时被用来衡量预测的对几何关系和实际对几何关系之间的误差，帮助网络学习更准确的预测对几何参数。

9.什么是对几何关系（epipolar geometry）？

在双目视觉、立体视觉和三维重建等领域中，对几何关系提供了关于不同视图之间相互对应的信息，帮助我们理解两个视图的几何关系。包括以下几个重要概念：

（1）基础矩阵（Fundamental matrix）：描述了两个视图之间的点对应关系，通过基础矩阵可以计算两个视图之间的对极线。

（2）本质矩阵（Essential matrix）：描述了两个相机之间的运动关系，可以通过本质矩阵恢复出相机的运动姿态。

（3）对极线（Epiploar Lines）：在一幅图像中的点对应另一副图像中的一条直线称为对极线，其性质由几何关系决定。

10.缝合图像生成模块（Sigmo）