【深度图像拼接论文】Deep Rectangling for Image Stitching: A Learning Baseline阅读笔记

1.本文中的床创新点在于图像矩形化的pipeline与经典方法(何凯明方法)有所差别

(1)矩形化的最终目的:应求解初始网络和目标网络以形成网格变形,然后通过扭曲得到矩形的结果。

(2)在经典(何凯明)方法中,如图a,图形的矩形化需要两个阶段,分别是局部阶段和全局阶段

        局部阶段。首先,在拼接图像中插入丰富的接缝,使用seam cruving算法的到初步的矩形图像。然后,在初始矩形图像上防止一个规则网格并移除所有接缝以获得具有不规则边界的拼接图像的初始网格(Initial mesh)。

        全局阶段。这个阶段解决了最优化目标网格(optimized target mesh)的问题,通过优化能量函数来保存有限的知觉属性,如直线。它们通过变形产生矩形图像将图像从初始网格缝合到目标网格。

(3)本文提到的baseline:

        如图b所示,给定一个拼接图像,本文的方案只需要通过神经网络预测一个内容感知的初始网格,通过将拼接图像从预测的初始网格扭曲到预定义的目标网格,可以获得矩形图像。

2.什么是刚性网格?

是指一个由水平和垂直线条构成的网格结构,在这个网格结构中,线条之间的距离和角度保持不变。换句话说,刚性网格是一种保持形状和结构不变的网格,不受变形或拉伸影响。

3.什么是矩阵的逆向插值?

是一种数值计算方法,用于从已知的输出值推导出输入值的过程。在矩阵运算中,反向插值通常用于解决线性方程组的逆问题,即在已知输出矩阵(结果)的情况下,求解对应的输入矩阵(变量)。

3.测地距离(geodesic distance)

图中,d15为最短距离,即欧氏距离。d12 - d23 - d34 - d45的路径即为测地距离。这是二维图形的情况。

此图中Vs - Vt的红线即为三维图形的测地距离。

测地距离的首要任务是找到两点之间的最短路径,找最短路径的方法我们熟知的有 Djikstra‘s算法。

4.测地线保持能量项

(1)定义:将测地距离作为能量项的一部分,将其引入到图像处理任务的优化目标中。通常,测地保持能量项被设计为一种惩罚项,用于约束或引导算法在优化过程中保持图像的几何结构。

(2)优化:在图像处理的优化过程中,算法将尝试最小化整体的能量函数,其中包括测地保持能量项。通过优化能量函数,算法能找到最优的图像分割,匹配或变形,同时保持图像中不同区域之间的几何关系。

(3)此方法在全景图像中受限的原因:

一是全景图的曲率变化较大,这种情况下的测地距离计算变得复杂,需要考虑曲率对路径的影响。高曲率可能导致传统的测地距离计算方法失效或不准确;

二是测地距离计算是需要考虑图像尺度的影响,而在全景图中,通常有大范围的尺度变化,不同区域的尺度常常不一致,这也将导致传统的测地距离方法失效;

三是全景图像中通常具有较高的分辨率和复杂的几何结构,计算测地距离将会变得非常耗时和复杂;

四是全景图像中可能会有部分遮挡和重叠的情况,遮挡部分会导致路径的不连续或不可达,从而影响测地距离的准确性。

5.网格运动回归器(Mesh motion regressor)

网格运动回归器是指在计算机视觉领域中用于预测网格上顶点位置或运动的模型。通常情况下,这种模型会接收输入的网格数据,然后输出每个顶点的位置或运动信息。

在网格运动回归器中,通常会使用深度学习技术,如全卷积神经网络等,来学习输入网格的特征表示并预测顶点位置或运动。通过训练模型,它可以学习到网格中不同顶点之间的运动规律或关系,从而实现对新输入网格的位置或运动的准确预测。

6.网络结构

(1)初始输入:拼接后的图像I + Mask,两者级联成两通道图像

(2)Feture extraction: 卷积-池化网络结构。采用8个卷积层,3个池化层。输入为初始输入,输出为提取到的语义特征图。

(3)Adaptive pooling:输入为(2)输出,采用自适应池化层,目的是固定特征图的分辨率大小。

(4)Primary regressor:输入为(3)的输出,采用全卷积结构,回归网络输出水平方向垂直方向的顶点运动方式,改运动方式是相对于规则网格而言的。输出为2-channel图层,大小为(U+1) * (V+1)。U * V是分辨率。

(5)Reshape:输入为(4)的输出,目的是将上一结构输出的网格运动方式的矩阵进行reshape,得到Mesh motion。

(6)Residual progressive regression:残差监禁回归策略,通过渐进的方式估计精确的网格运动。不直接使用warp后的图像作为新网络的输入是因为这会使计算复杂度加倍。本文结构中对中间特征图进行扭曲作为新网络的输入,在得到了渐进式精确网格运动的同时,只增加了相对较小的计算成本。

7. 目标函数

(1)总目标函数可分为三个部分

(2)content term Lc

Lc可细分为两个部分:平面损失和感知性损失

平面损失:

给定预测的主网格mp和最终网格mf,我们强制矩形化结果在外观上接近矩形化标签R。

感知性损失:

为了使矩形化结果更加自然,我们最小化矩形化结果与高级语义感知中的标签之间的L2距离。

表示从VGG19的conv4_2中提取特征的操作。以这种方式,可以感知各种感知属性。

所以 content term的总损失如下:

8. 网格损失Mesh term

为了防止矩形图像内容失真,预测的网格不应过度变形,因此,本文设计了一个网格间约束和网格内约束来保持变形网格的形状。

网格内约束Intra - grid constraint:

网格间约束 Inter - grid constraint:

网格内损失如下:

这两个约束的目的是防止网格的水平边与单位水平边的夹角过大。以及防止网格的垂直边与单位垂直边的夹角过大。

网格间损失如下:

采用了网格间约束,以鼓励相邻的网格转换一致。如图4 b所示,鼓励两个连续的变形网格边缘{网格1,网格2}共线。

9. 边界项

至于边界项,我们约束的掩模Mask,而不是预测的网格。给定拼接图像的0-1掩码,我们扭曲掩码并将扭曲的掩码约束为接近全一矩阵E,如下所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值