从手工到深度特征的图像匹配:一个调研

最新推荐文章于 2024-01-16 01:50:56 发布

WarmthWind

最新推荐文章于 2024-01-16 01:50:56 发布

阅读量622

点赞数

分类专栏：论文笔记文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_45216950/article/details/129283284

版权

论文笔记专栏收录该内容

2 篇文章 1 订阅

订阅专栏

从手工到深度特征的图像匹配:一个调研

本文是发布于2020年的计算机视觉顶刊IJCV上的一篇由大师兄发我的关于点云配准领域的偏综述文章。简单了解了一下，作者是武大多谱视觉实验室的马佳义教授，也是计算机视觉领域的一位大佬。
图1 - 本文架构图
个人笔记：事实上本文看了一半就令我意识到了很重要的一点，虽然入门可以看综述，但是光看综述意义并不大，甚至有些许事倍功半。还是以为目的为导向性的看文章。首先要明白自己看综述的目的，是为了了解这个领域的发展，以及这个领域的里程碑式的大事记。实际上可以在各大论坛想找博文了解领域发展历程，这样其实会比单纯看综述来得更快；然后看一些有突破性的、代表性的领域内文章，这样又比单纯看论文理解得更深入。综上，所以本文姑且只看到一半，但重点看了图1的文章架构，了解点云发展路径（文章作者的角度）。

摘要

图像匹配是各种视觉应用中的基本和关键任务，它可以从两张或多张图像中识别出相同或相似的结构/内容并进行对应。在过去的几十年里，人们提出了越来越多和多样化的图像匹配方法，特别是随着近年来深度学习技术的发展。然而，针对不同的场景和任务要求，哪种方法适合于特定的应用，如何设计出更好的图像匹配方法，使其在准确性、鲁棒性和效率方面都具有更高的性能，这可能会留下几个悬而未决的问题。这鼓励我们对这些经典和最新的技术进行全面和系统的回顾和分析。在基于特征的图像匹配管道之后，我们首先介绍了特征检测、描述和匹配技术，从手工方法到可训练的方法，并在理论和实践中分析了这些方法的发展。其次，我们简要介绍了几种典型的基于图像匹配的应用，以全面理解图像匹配的意义。此外，我们还通过在代表性数据集上的大量实验，对这些经典和最新的技术进行了全面和客观的比较。

最后，我们总结了图像匹配技术的现状，并对未来的工作进行了深入的讨论和展望。本调查可作为(但不限于)图像匹配及相关领域的研究人员和工程师的参考。

引言

基于视觉的人工系统在全球自动化和人工智能时代发挥着重要作用，被广泛用于指导机器感知和理解周围环境，以便更好地做出决策。

然而，如何在特定的要求下处理感知到的信息，理解多个视觉目标之间的差异和/或关系，是计算机视觉、模式识别、图像分析、安全防范、遥感等各个领域的重要课题。图像匹配是这些复杂任务中的关键和基础问题，也称为图像配准或对应，旨在从两张或多张图像中识别出相同或相似的结构/内容，然后进行对应。该技术用于高维结构恢复和信息识别与集成，如三维重建、视觉同步定位与测绘(VSLAM)、图像拼接、图像融合、图像检索、目标识别与跟踪、变化检测等。

图像匹配在两个对象的配对中具有丰富的意义，从而衍生出许多具体的任务，如稀疏特征匹配、密集匹配(如图像配准和立体匹配)、补丁匹配(检索)、二维和三维点集配准、图匹配等。图像匹配一般包括两个部分，即被匹配特征的性质和匹配策略，分别表示用什么来匹配和如何匹配。最终目标是在几何上将感知图像扭曲成参考图像的公共空间坐标系，并将它们的公共区域像素到像素对齐(即图像配准)。为此，一种直接策略，也称为基于区域的方法，通过在预定义大小的滑动窗口甚至整个图像中，对原始图像像素强度或像素域转换后的信息进行相似度测量来配准两幅图像，而不试图检测任何显著的图像结构。

另一种经典且被广泛采用的管道称为基于特征的方法，即特征检测和描述、特征匹配、变换模型估计、图像重采样和变换，已在著名的调查论文(Zitova and Flusser 2003)中介绍，并应用于各个领域。基于特征的图像匹配由于其灵活性和鲁棒性以及广泛的应用而受到广泛的欢迎。其中，特征检测可以从图像中提取出独特的结构，特征描述可以被视为一种图像表示方法，广泛应用于图像编码和相似度度量，如图像分类和检索。此外，由于深度特征获取和非线性表达能力较强，将深度学习技术应用于图像信息表示和/或相似度测量，以及图像对变换的参数回归，是目前图像匹配界的热点，已被证明与传统方法相比，具有更好的匹配性能和更大的潜力。

在现实环境中，用于匹配的图像通常取自相同或相似的场景/物体，但在不同时间、不同视点或成像方式下捕获。特别是，需要一种鲁棒高效的匹配策略来建立正确的对应关系，从而激发各种方法来实现更好的效率、鲁棒性和准确性。尽管在过去的几十年里已经设计了许多技术，但从以下方面来看，开发一个统一的框架仍然是一项具有挑战性的任务：
1.直接匹配图像的基于区域的方法通常依赖于适当的补丁相似度测量来创建图像之间的像素级匹配。它们的计算成本高，而且对图像失真、噪声引起的外观变化、变化的光照和不同的成像传感器很敏感，这可能对相似度测量和匹配搜索产生负面影响。因此，通常这些方法只能在小旋转、缩放和局部变形的情况下才能很好地工作。
2.基于特征的匹配方法通常效率更高，可以更好地处理几何变形。但它们是基于显著特征检测和描述，特征匹配和几何模型估计，这也可能是具有挑战性的。一方面，在基于特征的图像匹配中，很难在现实世界中定义和提取比例高、数量多的属于三维空间相同位置的特征，以保证匹配性。另一方面，将N个特征点与另一幅图像中检测到的N个特征点进行匹配，将产生总计N!可能的匹配，通常从高分辨率图像中提取数千个特征，点集中通常包含支配异常值和噪声，这导致现有匹配方法的重大困难。虽然已经提出了各种局部描述符（descriptor），并与检测到的特征相结合，以简化匹配过程，但使用局部外观信息将不可避免地导致歧义和大量虚假匹配，特别是对于低质量、重复内容的图像，以及经历严重非刚性变形和极端视点变化的图像。
3.通常需要一个预定义的转换模型来指示两个图像或点集之间的几何关系。但它可能会因不同的数据而有所不同，而且是事先未知的，因此很难建模。对于地表起伏和视点变化引起的非刚性变换、具有不同运动特性的多目标以及局部畸变的图像对，简单的参数化模型往往是不够的。
4.深度学习的出现为解决图像匹配问题提供了一种新的途径，并显示出巨大的潜力。然而，它仍然面临着一些挑战。从图像中学习直接配准或变换模型估计的方法在应用于宽基线图像立体或复杂严重变形条件下的配准时受到了限制。卷积神经网络(cnn)在稀疏点数据上进行匹配、配准和转换模型估计的应用也很困难，因为要匹配的点由于其无序和分散的性质而被称为非结构化或非欧几里得数据，这使得很难操作和提取两个或多个点之间的空间关系(例如，相邻元素、相对位置、以及多点之间的长度和角度信息)使用深度卷积技术。

现有的调查集中在图像匹配任务的不同部分，未能覆盖近十年的文献。例如，早期的综述的研究主要集中在手工制作的方法上，但这并不足以为研究基于cnn的方法提供有价值的参考。最近的综述涉及可训练的技术，但它们只覆盖了图像匹配社区的一个部分，要么专注于检测器或描述符或特定的匹配任务，以及其他许多人更关注相关应用。在这项调查中，我们的目标是对现有的图像匹配方法，特别是最近引入的基于学习的方法，提供一个最新的和全面的总结和评估。更重要的是，我们对现有文献中缺失的主流方法进行了详细的评价和分析。

本调查主要集中在基于特征的匹配，尽管补丁匹配，点集注册，以及其他相关的匹配任务也进行了回顾。整体结构如图1所示;第2节和第3节分别描述了特征检测和描述技术，从手工方法到可训练方法。将补丁匹配划分为特征描述域，并对三维点集特征进行了评述。在第4节中，我们介绍了不同的匹配方法，包括基于区域的图像匹配、纯点集配准、图像描述符相似度匹配和不匹配去除、图匹配和基于学习的方法。第5节和第6节分别介绍了基于图像匹配的可视化应用和评估指标，包括性能比较。在第7节中，我们总结并讨论未来可能的发展。

2 特征检测

早期的图像特征是手工标注的，在一些低质量的图像匹配中仍然使用。随着计算机视觉技术的发展和对自动匹配方法的要求，人们引入了许多特征检测方法来从图像中提取稳定、清晰的特征。

2.1 特征检测器概述

检测到的特征代表了图像或现实世界中特定的语义结构，可以分为角点特征、斑点特征、线/边特征和形态区域特征。然而，用于匹配的最流行的特征是点。与线特征和区域特征相比，点易于提取和定义，形式简化，大致可分为角特征和斑点特征。

一个好的兴趣点必须容易找到，理想情况下可以快速计算，因为一个好的位置的兴趣点对于进一步的特征描述和匹配至关重要。为了促进(i)可匹配性，(ii)后续应用的能力，以及(iii)匹配效率和减少存储需求，许多必要的属性被提出用于可靠的特征提取，包括重复性、不变性、鲁棒性和效率。特征检测的一般思想是构造一个特征响应来彼此区分显著点、线和区域，以及平面和非显著图像区域。这种思想随后可以分为梯度-、强度-、二阶导数-、轮廓曲率-、区域分割-和基于学习的检测器。在接下来的文章中，我们将全面介绍使用这些方法的特征检测器，更多地关注基于学习的方法，以指导研究人员了解传统的和可训练的检测器是如何工作的，并深入了解它们的优缺点。

2.2 角点特征 Corner Features

例如，角特征可以定义为两条具有“L”、“T”、“X”形式的直线的交叉点，或者轮廓线的高曲率点。角检测的一般思想是计算角响应，并将其与边缘、平面或其他不太独特的图像区域区分开来。传统的角搜索可以采用不同的策略，即基于梯度的、基于强度的和基于轮廓曲率的角搜索。详见Zitova和Flusser (2003)， Li等人(2015)，Tuytelaars和Mikolajczyk(2008)和Rosten等人(2010)。

2.2.1 基于梯度的检测器

基于梯度的角响应更倾向于使用图像中的第一等信息来区分角特征。最早的自动角落检测方法可以追溯到Moravec检测器(Moravec 1977)，该检测器首次引入了“兴趣点”的概念来定义不同的特征点，这些特征点是根据局部强度的自相关来提取的。该方法计算并搜索移动窗口中每个像素在八个方向上的最小强度变化，如果最小值高于给定阈值，则检测兴趣点。

然而，由于比较方向和大小的不连续，Moravec检测器对方向和图像旋转不是不变的。为了解决各向异性和计算复杂度问题，引入了著名的Harris角检测器(Harris et al 1988)。Harris方法的目标是利用二阶矩矩阵或自相关矩阵找到灰色值变化最快和最小的方向;因此，它对方向和光照不变性，具有可靠的重复性和显著性。Shi和Tomasi(1993)进一步改进了Harris，使特征更“分散”，定位更准确，从而获得了更好的跟踪性能。

2.2.2 基于强度的检测器

提出了几种基于模板或强度比较的角点检测器，通过比较周围像素和中心像素的强度来简化图像梯度计算。由于它们的二进制性质，它们被广泛应用于许多现代应用程序，特别是一些具有存储和实时要求的应用程序。

基于强度的拐角检测器，即最小单值段同化核(SUSAN) (Smith and Brady 1997)，是基于局部半径区域像素与核之间的亮度相似性。由于SUSAN不需要梯度计算，因此可以快速实现。基于亮度比较的概念，已经提出了许多类似的方法，其中最著名的是FAST探测器(Trajkovi´c and Hedley 1998)。FAST使用与中心像素沿圆形模式的每个像素进行二进制比较，然后使用机器学习(即ID3树Quinlan 1986)策略确定更可靠的角特征，该策略在大量相似的场景图像上进行训练，并可以生成角选择的最佳标准。

FAST作为SUSAN的改进，具有极高的效率和高重复性，得到了更广泛的应用。为了在不损失效率的情况下提高FAST，引入了FAST- er (Rosten et al 2010)，在进一步以核为中心的像素强度比较的基础上，通过推广检测器来提高重复性。另一个改进是AGAST (Mair et al 2010)，其中定义了两个更多的像素亮度比较标准，之后在扩展的配置空间中训练一个最优和专门的决策树，从而使FAST探测器更具通用性和自适应。为了结合FAST的效率和Harris检测器的可靠性，Rublee等人(2011)提出了一种用于匹配的集成特征检测器和描述符，称为ORB。ORB使用Harris响应选择一定数量的FAST角作为最终检测到的特征。将局部斑块的灰度质心和中心像素本身构成一个向量，表示ORB特征的主方向，有助于计算ORB中二进制描述符的相似性。最近，有人提出了一种sad -like检测器(Aldana-Iuit et al 2016)来提取兴趣点。在该探测器中，通过对具有一定几何约束的两个同心环进行强度比较，有效地验证了鞍态条件。Sadder检测器可以实现更高的重复性和更大的分布，比传统方法，甚至是现代可训练的方法(Komorowski等人2018)。

2.2.3 基于曲率的检测器

角落特征提取的另一种策略是基于检测到的高级图像结构，如边缘、轮廓和显著区域。角点特征可以立即定义为中点/端点或边缘或轮廓的稀疏采样(Belongie et al 2002)。这些随后用于形状匹配或点配准，特别是对于纹理较少或二进制类型的图像对。基于曲率的策略旨在根据检测到的图像类曲线边缘提取曲率最大的角点。该策略从边缘提取和选择方法开始，接下来的两个步骤是曲线平滑和曲率估计。最后通过选取曲率极值点来确定拐角。通常，基于轮廓曲率的角点检测首先需要边缘检测器。

在曲线平滑过程中，由于曲线点的量子化位置，斜率和曲率难以计算。曲线中的噪声和局部变形也会严重影响特征的稳定性和显著性。因此，在曲率计算之前或计算过程中，应采用平滑方法，使曲率极值点与其他曲线点更明显。平滑一般采用直接平滑和间接平滑两种策略。直接平滑，如高斯平滑(Mokhtarian和Suomela 1998;Pinheiro and Ghanbari 2010)，去除噪声，并可能在一定程度上改变曲线位置。相比之下，在间接平滑策略中，如支持区域法或基于弦长的方法(Ramer 1972;Awrangjeb and Lu 2008)，可以保留曲线点位置。

对于曲率估计，对于平滑曲线的每一点，都需要一个显著性响应度量来进行角搜索，即曲率。曲率估计方法一般也分为直接估计和间接估计。前者是基于代数或几何估计，如余弦，局部曲率和切向偏转(Mokhtarian和Suomela 1998;罗森菲尔德和韦斯卡1975;Pinheiro and Ghanbari 2010)。后者以间接的方式估计曲率，经常被用作显著性度量，例如通过沿着曲线的几个移动矩形来计算曲线点的数量(Masood和Sarfraz 2007)，使用从连接曲线两个端点的弦到曲线点的垂直距离(Ramer 1972)，以及其他替代方法(Zhang et al 2010, 2015)。与间接估计方法相比，直接估计方法由于较少考虑邻近点，对噪声和局部变化更敏感。

最后，可以用阈值策略确定拐角，以去除虚假和模糊点(Mokhtarian和Suomela 1998;Awrangjeb and Lu 2008)。其他细节可以从基于轮廓曲率的拐角测量中获得(Awrangjeb等，2012)。此外，最近提出了一种基于多尺度分割的角落检测器，命名为MSFD (Mustafa et al 2018)，用于宽基线场景匹配和重建。MSFD中的特征点通过使用现成的分割方法在三个或多个区域边界的交集处检测。MSFD可以生成丰富而准确的角点特征，用于宽基线图像匹配和高重建性能。

上述角点特征检测器很容易定位于图像的轮廓或边缘结构(即不是这种分散或不均匀的分布)，并且受到两幅图像之间的尺度和仿射变换的限制。在这三种角点检测策略中，基于梯度的方法定位精度更高，而基于强度的方法效率更高。基于轮廓曲率的方法需要更多的计算量，但它是处理无纹理或二值图像(如红外和医学图像)的更好选择，因为基于图像线索的特征描述子不适用于这些类型的图像，而基于点的描述子通常耦合用于匹配任务(即点集配准或形状匹配)。详情请参阅第3及4节。

2.3 团状特征

斑点特征通常表示为一个局部封闭区域(例如，具有规则的圆形或椭圆形状)，其中像素被认为彼此相似，与周围的邻域不同。斑点特征可以写成(x, y， θ)的形式，(x, y)是特征位置的像素坐标，θ表示特征的斑点形状信息，包括比例和/或仿射。在过去的几十年里，大量的斑点特征探测器被引入，它们可以大致分为二阶偏导数和基于区域分割的探测器。基于二阶偏导数的方法是基于拉普拉斯尺度选择和/或Hessian矩阵计算的仿射不变量。而基于分割的方法更倾向于先分割形态区域来检测斑点特征，然后用椭圆拟合来估计仿射信息。与角点特征相比，blob特征更适用于对精度要求较高的视觉应用，因为它利用了更多的图像线索进行特征识别和表示，从而使blob特征对图像变换更加准确和鲁棒。

2.3.1 基于二阶偏导数的检测器

在基于二阶偏导数的方法中，应用了基于尺度空间理论的高斯拉普拉斯函数(LoG) (Lindeberg 1998)。本文首先根据图像二阶微分中的零点交叉使用拉普拉斯算子进行边缘检测，然后使用高斯卷积滤波进行预处理以降低噪声。

LoG可以检测局部极值点和高斯核圆对称性引起的归一化响应区域。高斯函数的不同标准差可以通过在多尺度空间中搜索极值作为最终稳定的斑点特征来检测不同尺度下的尺度不变斑点。高斯(DoG)的差异(Lowe et al 1999;Lo w e 2004)滤波器可以近似LoG滤波器，大大加快了计算速度。另一种经典的斑点特征检测策略是基于Hessian(DoH)的行列式(Mikolajczyk和Schmid 2001,2004)。这更具有仿射不变性，因为第二个矩阵的特征值和特征向量可以用于估计和修正仿射区域。

兴趣点检测在近年来的视觉应用中得到了广泛的应用。著名的SIFT (Lowe et al 1999;L o we 2004)提取关键点作为DoG金字塔中的局部极值，使用局部强度值的Hessian矩阵进行过滤(相应的描述部分将在下一节中回顾)。Mikolajczyk等人将Harris和Hessian检测器与Laplacian和Hessian矩阵相结合，用于尺度和仿射特征检测(Mikolajczyk和Schmid 2001,2004)，即Harris/Hessian-Laplacian/affine。SURF (Bay et al 2006)通过使用Haar小波计算来近似基于Hessian矩阵的检测器，并使用积分图像策略，从而简化了二阶微分模板的构造，从而加速了SIFT。

为了在后续应用中获得更好的性能，人们陆续提出了基于SIFT和surf的改进方案。这些改进包括一个完全仿射不变SIFT检测器(ASIFT) (Morel和Yu 2009)，一个中心环绕极值(Agrawal等2008)策略特征检测器，通过提出的双边滤波近似拉普拉斯计算来提高效率，以及在DARTs中使用分段三角形滤波器高效逼近DoH (Marimon等2010)。此外，在SIFT-ER检测器中使用余弦调制高斯滤波器(Mainali et al 2013)，以获得具有最小尺度空间定位误差的高特征可检测性，其中滤波器组系统具有高度精确的滤波器近似，无需任何图像次/上采样。基于边缘焦点的斑点检测器(Zitnick and Ramnath 2011)也被引入用于匹配任务。在该检测器中，边缘焦点被定义为图像中与最近的边缘大致等距离的点，其方向垂直于该点。

与类圆高斯响应函数不同，KAZA检测器采用非线性偏微分方程，利用非线性扩散滤波进行斑点特征搜索(Alcantarilla et al 2012)。一个名为AKAZA (Alcantarilla and Solutions 2011)的加速版本是通过在金字塔框架中嵌入快速显式扩散来实现的，以极大地加快非线性尺度空间中的特征检测。但是，它仍然存在计算复杂度较高的问题。另一种方法是W ADE (Salti et al 2013)，通过波传播函数实现非线性特征检测。

2.3.2 基于分割的检测器

基于分割的斑点探测器开始于基于恒定像素强度或零梯度的不规则区域分割。最著名的基于区域分割的斑点特征之一是最大稳定极值区域(MSER) (Matas et al 2004)。它提取出在大范围强度阈值下保持稳定的区域。该方法不需要额外的尺度估计处理，对较大的视点变化具有鲁棒性。“最大稳定”一词描述了阈值选择过程，假定每个极值区域都是通过阈值分割的分水岭图像的连接组件。Kimmel等人(2011)引入了MSER的扩展，以利用形状结构线索。其他改进是基于主曲率图像的分水岭区域(Deng et al 2007;Ferraz和Binefa 2012)或考虑颜色信息进行更高的区分(Forssén 2007)。与MSER相似，其他基于分割的特征，如基于强度和边缘的区域(Tuytelaars and V an Gool 2004)，也用于仿射协变区域检测。然而，这类特征检测在特征匹配方面的应用较少，逐渐向计算机视觉中的显著性检测和分割方向发展。Mikolajczyk et al(2005)和Li et al(2015)进行了具体的方法调查和综合综述。

2.4 可学习特征

近年来，基于数据驱动学习的方法在一般视觉模式识别任务中取得了显著进展，并已应用于图像特征检测。该流水线pipeline可以大致分为经典学习的使用和深度学习的使用。

2.4.1 基于经典学习的检测器

早在过去的十年中，经典的基于学习的方法，如决策树、支持向量机(SVM)和其他与深度学习相对立的分类器，已经被用于手工关键点检测(Trajkovi´c和Hedley 1998;Strecha等，2009;哈特曼等人2014;理查德森和奥尔森2013)。FAST (Trajkovi´c and Hedley 1998)检测器是第一次尝试使用传统学习进行可靠和可匹配的点识别，类似的策略已应用于许多后续改进(Mair et al 2010;Rublee et al, 2011)。Strecha等人(2009)训练Wald-Boost分类器在预先对齐的训练集上学习具有高重复性的关键点。

最近，Hartmann等人(2014)表明，可以从运动结构(SfM)管道中学习，以预测哪些候选点是可匹配的，从而在不丢失过多真实匹配的情况下显著减少兴趣点的数量。与此同时，Richardson和Olson(2013)报告说，手工设计的检测器可以通过在卷积滤波器空间中的随机采样来学习，并试图使用一种超越频域约束的学习策略来找到最优滤波器。然而，在深度学习出现之前，经典学习只是通过分类器学习进行可靠的特征选择，而不是直接从原始图像中提取感兴趣的特征。

2.4.2 基于深度学习的检测器

受手工特征检测器的启发，基于cnn的检测的一般解决方案是构造响应图来搜索被监督的兴趣点(Yi et al 2016;V erdie等2015;Zhang等人2017b)，自我监督(Zhang和Rusinkiewicz 2018;DeTone等人2018)，或无监督的方式(Lenc和V edaldi 2016;Savinov等人2017;小野等2018;Georgakis et al 2018;Barroso-Laguna等人，2019)。在变换和成像条件不变性的约束下，该任务通常转化为一个回归问题，可以以可微的方式进行训练。监督方法已经证明了使用锚(例如，从SIFT方法获得的)来指导其训练的好处，但性能可能在很大程度上受到锚构造方法的限制，因为锚本身本质上难以合理定义，并且在附近没有锚存在的情况下可能会阻止网络提出新的关键点(Barroso-Laguna et al 2019)。自监督和无监督方法训练探测器不需要任何人工注释，并且优化指导只需要两幅图像之间的几何约束;有时需要简单的人工辅助进行预训练(DeTone等人，2018年)。此外，许多方法通过联合训练特征描述和匹配，将特征检测集成到整个匹配管道中(Yi et al 2016;DeTone等2018;小野等2018;Shen等人2019;Dusmanu等，2019;C h o y e t a l。2016;罗科等人2018;Dusmanu等，2019;Revaud et al 2019)，可以增强最终匹配性能，并以端到端方式优化整个过程。

例如，TILDE (Verdie et al 2015)训练多个分段线性回归模型，在天气和光照条件的剧烈成像变化下检测可重复的关键点。该算法首先利用DoG算法对从相同视点拍摄的多张训练图像进行训练集收集，识别出良好的候选关键点，然后训练出一个一般回归函数来预测得分图，其经过非最大抑制(NMS)后的最大值可以被视为期望的兴趣点。

DetNet (Lenc and Vedaldi 2016)是学习局部协变特征的第一个完全通用的公式;它将检测任务转换为回归问题，然后导出协方差约束，在几何变换下自动学习稳定的局部特征检测锚点。同时，quado -net (Savinov et al 2017)通过单一实值响应函数实现了变换不变分位数排序下的重点检测，通过优化可重复排序，使其完全从头学习检测器。Zhang和Rusinkiewicz(2018)的一个类似检测器将这种“排名”损失与“峰值”损失结合起来，产生了一个更可重复的检测器。

Zhang等人(2017b)提出了TCDET检测器，基于“标准补丁”和“典型特征”的新概念定义了一种新的公式，将区别性和协变约束同等重视。该检测器可以在不同的图像变换条件下检测出具有辨识性和可重复性的特征。关键。Net (BarrosoLaguna et al 2019)在一个浅的多尺度架构中结合了手工制作和学习的CNN滤波器，并提出了一种轻/高效的可训练检测器。手工过滤器提供锚定结构，用于本地化、评分和对馈入学习过滤器的可重复特征进行排序。CNN通过检测不同层次上的关键点来表示尺度空间;定义损失函数，从不同尺度检测鲁棒特征点，最大化可重复性得分。在Mishkin等人(2017,2018)中，也使用cnn学习基于仿射区域的兴趣点。

将检测器集成到匹配管道中的方法类似于仅为上述检测而设计的方法。主要的区别可能在于培训的方式，而核心的挑战是使整个过程可微分。例如，Yi等人(2016)尝试在输入四个补丁的基础上联合训练一个检测器、一个方向估计器和一个描述符。他们提出的LIFT可以被视为SIFT的可训练版本，需要SfM系统的监督来确定特征锚点。训练过程从描述子到检测器单独进行，可以使用学习到的结果来指导检测器的训练，从而提高可检测性。与LIFT不同，SuperPoint (DeTone et al 2018)通过输入全尺寸图像，并在一次向前传递中联合计算像素级兴趣点位置和相关描述符，引入了一个全卷积模型;构建合成数据集进行伪地面真值生成和预训练，单应性自适应模块使其在提高检测重复性的同时实现自监督训练。

LF-Net (Ono等人2018)将端到端管道限制为一个分支，以可微分的方式优化整个过程;它还使用全卷积网络在全尺寸图像上操作，生成丰富的特征评分图，然后可以用于提取关键点位置和特征属性，如比例和方向;同时，该算法实现了一种可微的NMS形式，即sof targmax，用于亚像素定位，提高了关键点的准确性和显著性。与LF-Net类似，RF-Net (Shen et al 2019)选择高响应像素作为多尺度上的关键点，但响应图由接受特征图构建。Bhowmik等人(2020)表明，提高这些低水平匹配分数的准确性并不一定会转化为高级视觉任务中的更好表现，因此他们将特征检测器嵌入到完整的视觉管道中，其中可学习参数以端到端方式进行训练。作者利用强化学习的原理克服了关键点选择和描述符匹配的离散性。Luo等人(2020)提出ASFeat，通过联合学习局部特征检测器和描述子，探索特征点的局部形状信息，提高点检测的准确性。另一种与检测相关的基于学习的方法是估计方向(Moo Yi等人2016年)，而空间转换网络(STN) (Jaderberg等人2015年)也可以作为基于深度学习的旋转不变性检测器的重要参考(Yi等人2016;Ono et al 2018)。

与局部特征描述器不同，关于显著特征检测器的研究很少，特别是最近基于cnn的技术。据我们所知，最近的调查(Lenc和V edaldi 2014)专注于局部特征检测。它介绍了从手工检测器到加速检测器和学习检测器的几种著名方法的基本思想。

2.5 3D特征检测器

致力于三维关键点探测器，Tombari等人(2013)对最先进的方法进行了出色的调查，并对其性能进行了详细的评估。简单地说，现有的方法分为固定尺度检测器和自适应尺度检测器两类。在这两个类别中，关键点被选择为预定义显著性测量的局部极值。不同之处在于对尺度特征的参与，它定义了对后续描述阶段的支持。固定尺度检测器倾向于在特定尺度上搜索关键点，这是作为先验信息给出的。自适应尺度探测器通过采用表面定义的尺度空间来扩展二维图像的尺度概念，或者通过将三维数据嵌入二维平面来实现传统的尺度空间分析。

2.5.1 固定尺度检测器

Chen和Bhanu(2007)介绍了局部表面补丁(LSP)方法。LSP中一个点的显著性是通过它的形状指数来衡量的(Dorai和Jain 1997)，由该点的主曲率来定义。Zhong(2009)引入了本征形状特征(ISS)方法，该方法通过对支持区域的散射矩阵进行特征值分解来获得显著性。该方法利用特征值的比值对部分点进行剪枝，最终的显著性由特征向量决定。这样，在每个主要方向上有较大变化的点就被识别出来了。与ISS类似，Mian等人(2010)也利用散点矩阵修剪无特征点，但采用了不同的基于曲率的显著性测量。Sun等人(2009)提出了基于形状上热扩散过程特性的热核特征(HKS)方法。在该方法中，显著性测量由热核对时域的限制来定义。热核是由下面的流形唯一决定的，这使得HKS是一个紧凑的形状特征。

2.5.2 自适应尺度检测器

在检测中，自适应地拟合尺度是很有必要的。为此，Unnikrishnan和Hebert(2008)提出了一个Laplace-Beltrami尺度空间，方法是在每个点周围的支持度增加的基础上计算设计函数。该函数由一个新的算子定义，该算子反映了底层形状的局部平均曲率，并提供了显著性信息。Zaharescu等人(2009)提出了MeshDoG方法，它类似于二维情况下的DoG运算符(Lowe 2004);尽管如此，运算符是在流形上定义的标量函数上计算的。DoG运算符的输出表示关键点检测的显著性。Castellani等人(2008)也使用DoG操作符直接在3-D网格上构建尺度空间。Mian等人(2010)提出了一种提取尺度不变特征的自动尺度选择技术。通过增加支撑尺寸来构建尺度空间，利用NMS沿尺度自动选择每个关键点的尺度。Bronstein和Kokkinos(2010)解决了HKS对尺度敏感的缺点，他们使用傅里叶变换幅度从HKS中提取尺度不变量，而不需要进行尺度选择。Sipiran和Bustos(2011)利用自适应尺度确定技术将著名的Harris算子(1988)扩展到3-D数据。读者可以参考Tombari等人(2013)对其他自适应尺度探测器的进一步讨论。Salti等人(2015)设计了一种基于学习的3-D关键点检测器，其中关键点检测问题被转换为二进制分类问题，以确定预定义的3-D描述符可以正确匹配谁的支持。

2.6 总结

特征检测器的基本思想是通过响应值将感兴趣的特征与其他特征区分开来，从而解决了两个问题:(i)如何在图像中定义判别模式，(ii)如何在不同的图像条件和图像质量下重复检测显著特征(Zhang et al 2017b)。随着这些检测器的发展，主要的改进和常用策略涉及四个方面，即特征响应类型和效率、鲁棒性和准确性的提高，从而增加了被检测特征的匹配性，提高了后续应用的性能。