一. 概念
1.基于消融的损失
(1)通常与掩码(mask)结合使用,掩码作为一种二值图像,可以用于指示每个像素是否属于感兴趣的目标和区域。
(2)基于消融的损失其核心思想是最小化预测掩码和真实掩码之间的差异。可以鼓励模型学习到更精确的像素级分割。
2. 大基线场景
训练数据集大,使用大规模数据集来建立的基线模型。
3. 传统方法
(1)在解决伪影和视差问题时,无论是基于网格的局部单应性优化,还是基于最优接缝线的互补区域融合方法,都过于依赖对特征的检测,也就是图像配准阶段。
4. 为什么要有重建阶段?重建战略从何而来?
(1)重建阶段的设置目的是为了消除拼接图象中的伪影现象。
(2)对比特征级和像素级的拼接图像发现:特征级的伪影模糊程度更高,这说明我们可以更容易在特征级上优化或者消除拼接图像的伪影现象。
5. 翘曲残差向量(Warp Residual Vectors )
为了区别各个深度层次的特征匹配。指的是变换后的图像像素与原始图像像素之间的差异向量。在多深度图像中,翘曲残差向量的各个分量是不同深度层次上的像素的残差值(个人理解)。
6. APAP方法的在对拼接后图像的影响有什么?
APAP论文中提出了对目标图像使用网格化,然后在各个网格上使用不同的单应性变换,这对网格内的平滑过度和扭曲变换固然带来了好处,但是在各个网格之间的边界线上,可能会造成最终拼接图像的伪影。
7. SVA(smoothly varying affine)
平滑变化放射,将目标图像分割成多个区域,在这些区域上使用平滑变化放射,可以认为是APAP网格优化的初级形式,同样也会带来各个区域之间接缝处的伪影问题。
8. DHW(Dual - homography warping)双单应性翘曲
提供两个单应性参数矩阵,分别用于目标图像的前景和后景(将图像分成两层),然后进行翘曲变换,是对单应性变换的改进,在双背景图像上表现优异,但是在多深度混合的图像中性能不佳。
9. Seam - Driven Methods
接缝驱动方法。是一种图像拼接技术,其核心思想是基于图像拼接结果中接缝(seam)的视觉质量来评估和优化几何方法。与传统的最佳几何拟合的图像拼接方法有所不同,它更关注最终拼接图象的视觉效果,尤其是在接缝区域的连续性和自然过渡。
10. 对Feature - based Image Stitching的看法?
基于特征的图像拼接方法在使拼接图像看起来更加自然上有不错的效果,但是这依赖于强悍的特征提取检测和特征提取技术,在特征点少和低分辨率的情况下效果不佳。
11. related work
(1)L. Nie, C. Lin, K. Liao, M. Liu, and Y. Zhao, “A view-free image stitching network based on global homography,” Journal of VisualCommunication and Image Representation, p. 102950, 2020.
第一个端到端完整的图形拼接框架,缺点:不能处理多种分辨率下的输入图片。
(2)L. Nie, C. Lin, K. Liao, and Y. Zhao, “Learning edge-preserved image stitching from large-baseline deep homography,” arXiv preprint arXiv:2012.06194, 2020.
优势:解决上个文章中存在的输入图片多分辨率问题,使框架更适用于实际场景。
设计了一个多尺度深度单应性模型,集成了特征金字塔和特征相关性,提高了在低重叠率场景下的鲁棒性和有效性。(这个体系结构也用在了本文的单应性估计中。)
(3)J. Zhang, C. Wang, S. Liu, L. Jia, N. Ye, J. Wang, J. Zhou, and J. Sun, “Content-aware unsupervised deep homography estimation,” in European Conference on Computer Vision, pp. 653–669, Springer, 2020.
小基线深度单应性的上的SOTA。
12. 什么是L1损失?什么是感知损失?
L1损失即 求各个元素预测值和真实值差值的绝对值之和,再求平均值。计算公式为
L1 Loss = (1/n) * Σ |预测值 - 真实值|。
Lp感知损失通常通过将预训练模型的特征提取层嵌入到损失函数中来实现,然后通过梯度下降等优化方法来最小化这种损失,从而训练模型。具体计算方式需看文献《“Perceptual losses for real-time style transfer and super-resolution》。
13. 为什么分辨率增加会减小感受野?
图像分辨率增大的同时,每个卷积核处理的像素视野大小不变,因此感受野之于图像的比例相较于原比例减小。
二. 模型
分为两个阶段:一是无监督粗图像对齐,二是无监督图像重建。网络结构如下所示:
1. 无监督粗图像对齐阶段
(1)无监督单应性矩阵 --- 采用基于消融的策略,来生成无监督单应性矩阵,该网络能够适用于大基线场景(原因是用到了【36】中的单应性矩阵估计方式)。
(2)拼接域转换层 --- 功能是扭曲拼接域空间中的输入图像,相比于其他无监督网络框架占用内存更少。
(3)此阶段干了什么?
根据消融的策略得到单应性矩阵,再根据单应性矩阵对输入图片进行扭曲操作,操作的具体方法是将目标图像逐渐地向参考图像靠近。根据扭曲后的目标图像的数据信息计算拼接转换域的size,所谓拼接转换域,即待拼接的参考图像和扭曲后的目标图像的最大外接矩形。定义的W(·)操作是对输入图像进行扭曲。X,I的左上标中的A,B分别代指参考图像和目标图像。此阶段的工作将待拼接的图像送入至拼接转换层中,至此本层的任务完成。
2. 无监督图像重建阶段
顾名思义,将一阶段生成的扭曲图像融合生 成完整的拼接图像,而且能消除从特征到像素级的伪影。重构网络可细化如下:
(1)低分辨率变形分支
学习图像拼接的变形规律。
(2)高分辨率细化分支
提高图像的分辨率。
(3)从特征级到像素级的重建
再encoder阶段专注于重叠区域的重建,在decoder区域专注于非重叠区域的重建。
三. 数据集
1. 本文的数据集来源分两部分:
一部分是本文作者自创,另一部分来自论文《“Content-aware unsupervised deep homography estimation》。
2. 将数据集按重叠率和视差度分类:
(1)按重叠率分三类:①>90%; ②60% - 90%; ③<60%;
(2)按视差度分两类:①<30 pixels error; ② >30 pixels error。
3. 什么是4pt-Homography RMSE?
(Root Mean Square Error)是一种评估图像单应性估计精度的度量方法。
4. 什么是warped MS-COCO?
Warped MS-COCO(Warped Microsoft Common Objects in Context)是一个用于评估图像拼接和单应性估计算法的合成数据集。它是通过对原始的MS-COCO数据集中的图像进行变换而创建的,目的是为了模拟在实际图像拼接任务中可能遇到的各种挑战,如视角变化、尺度变化、旋转和平移等。
5. Table a说明了什么?
(1)本实验的无监督单应性方法优于现有的其他无监督单应方法(UDHN, CA-UDHN)。CA-UDHN适用于小基线数据集,本次实验中标间仅次于I3*3,是由于它受限的感受野。
(2)Ours_v1相当于在LB-DHN上作了无监督消融的改动,但我们发现改动后的单应性精度不降反升,我们考虑这种基于消融的无监督单应性损失函数不适用人工合成的无视差数据集。
6. Table b,c说明了什么?
(1)我们的方法Ours_v2性能由于其他所有的方法,包括在真实数据集上的有监督方法。
(2)虽然我们的方法Ours_v1和LB-DHN都是在合成数据集上进行训练的,但Ours_v1在真实数据集上表现出了更好的性能,这表示我们的方法具有更好的泛化能力。
7. PSNR,SSIM是什么?
一种在重叠区域下进行计算的评价指标,其计算公式如下:
8. Table 2 说明了什么?
这个实验主要想证明本文方法与传统方法、有监督学习方法的鲁棒性对比。
(1)实验数据证明对于鲁棒性而言,本文的无监督方法最优,甚至由于有监督方法。传统方法在低光照或室内场景下表现不佳,而本文方法不受此影响。
(2)随着输入图像分辨率的增加,有监督学习方法的成功率下降,而本文方法也不受此影响。
(3)从与有监督学习方法的鲁棒性对比的实验数据来看,有两个因素:一是本文的无监督单应性模型优于其他模型,大大减少了由于不准去的单应性估计而带来的Failure结果;二是本文无监督深度重建模型可以有效的减少特征级到像素级的伪影,从而减少了由于高伪影带来的Failure结果。
(4)此外,论文中还展示了在黑暗环境下和室内环境下三种类型拼接方法的拼接结果,可以观察到的是,本文方法的拼接效果最佳,是因为CNN超强的特征点检测能力能适应实际环境变化。
9. 视觉质量对比(与传统方法)?
视觉质量如果与现有的有监督学习方法对比,一是对无监督方法来说不公平,二是需要大量的数据标签。本文中没做此类对比实验,只是说明了即使在不公平的环境下,无监督方法已经在鲁棒性、连续性、光照还有视觉质量上表现出优越于有监督方法的性能。
(1)采用用户调查报告的形式,让用户在本文方法、传统方法等的拼接结果中进行无偏好选择,最终统计结果。结果表明我们的方法得到的拼接结果更受用户认可。
(2)展示拼接结果图像。
10. 关于连续性的研究?
上图中左为不连续的结果,右为考虑连续性的结果。
本文对连续性的处理较好,这归功于我们在无监督图像重建阶段对接缝mask的处理,它强制使重叠区域的边缘靠近原扭曲图像。
11. 关于亮度差异的处理?
本文方法对于两幅不同亮度的输入图片,能够有较好的拼接结果。
原因在于,有监督学习方法是在人工合成的有标签的数据集中训练的,这些训练集没有亮度差异,因此在测试集中并不能处理带有亮度差异的情况。而亮度差异一般出现在实际的场景中,如果要在有监督网络中训练,则需要对很多实际照片进行标签处理,这需要下很大的工夫。
而本文提出的无监督方法网络自身可以识别出亮度差异,这一点对于有监督方法来说是一个天然优势。
12. 与有监督方法的视觉质量对比?
同样,采用用户调查的方式,与VFISNet++Bicubic和EPISNet对比。