【论文精度：Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching】

（全文翻译）Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching，第一部分

摘要
1、介绍
2、相关工作
3、通过跨视图图像匹配进行位置和方向估计

原文链接：https://blog.csdn.net/Albert233333/article/details/127137837

摘要

跨视图地理定位是在给定地理标记航空（例如卫星）图像的大规模数据库的情况下估计地面相机的位置和方向（纬度、经度和方位角）的问题。现有方法通过学习判别性特征描述符将该任务视为纯粹的位置估计问题，但忽略了方向对齐。众所周知，了解地面图像和航空图像之间的方向可以显着减少这两个视图之间的匹配模糊性，特别是当地面图像具有有限视场 (FoV) 而不是完整视场全景时。因此，我们设计了一个动态相似性匹配网络来估计定位过程中的跨视图方向对齐。特别是，我们通过对航拍图像应用极坐标变换以将图像近似对齐到未知的方位角来解决跨视图域间隙。然后，使用双流卷积网络从地面图像和极坐标变换的航空图像中学习深层特征。最后，我们通过计算跨视图特征之间的相关性来获得方向，这也提供了更准确的特征相似度测量，提高了位置召回率。标准数据集上的实验表明，我们的方法显着提高了最先进的性能。值得注意的是，对于已知方向的全景图，我们将 CVUSA 数据集上的 top-1 位置召回率提高了 1.5 倍；对于未知方向的全景图，我们提高了 3.3 倍；对于 180° FoV，我们提高了 6 倍方向未知的图像。

1、介绍

考虑到相机在地面拍摄的图像，我们有理由问：相机在哪里以及它面向哪个方向？跨视图图像地理定位旨在通过将查询图像与覆盖该区域的大型地理标记卫星地图进行匹配来确定查询图像的地理位置和方位角。由于卫星图像的可访问性和广泛的覆盖范围，地对空图像对齐正成为解决基于图像的地理定位问题的一个有吸引力的主张。
然而，由于地面和航空图像之间的极端视点变化，交叉视图对齐仍然非常困难。挑战总结如下。
(1) 视图之间的显着视觉差异（包括场景中对象的外观和投影位置）会导致较大的域间隙。
(2)当图像之间的北方向都不知道时，图像之间未知的相对方向会导致定位模糊并增加搜索空间。
（3）标准相机的视场（FoV）有限，这降低了交叉视图定位的地景特征的辨别力，因为图像区域仅覆盖局部信息并且可能匹配多个航空数据库图像。
现有方法将此任务视为纯粹的位置估计问题，并使用深度度量学习技术来学习视点不变特征以匹配地面和航空图像。许多方法需要提供方向，以避免因方向未对准而导致的歧义[15,12,10]。然而，在实践中，地面图像的方向并不总是可用。为了解决这个问题，一些方法直接学习方向不变特征[18,5,2]，但是它们无法解决地面和航空图像之间的大域差距，限制了它们的定位性能。
为了减少跨视图域间隙，我们探索地面图像和航空图像之间的几何对应关系。我们观察到，在等距柱状投影下的真实地面图像中有两个具有统计显着性的几何线索：（i）图像中的水平线（平行于方位轴）具有近似恒定的深度，因此对应于航空图像中的同心圆 ; (ii) 图像中的垂直线的深度随着 y 坐标的增加而增加，因此对应于航拍图像中的径向线。更具体地说，如果场景是平坦的，则地面图像中的水平线会映射到航空图像中的圆圈。我们通过对天线应用极坐标变换来利用这些几何线索
图像，将同心圆映射到水平线。这减少了投影几何形状的差异，从而减少了域间隙，如图 2 所示。
然后，我们使用双流 CNN 来学习地面图像和航空图像之间的特征对应关系。我们提取保留特征之间空间关系的特征量，这是地理定位的关键线索。然而，当使用空间感知图像特征时，方向未对准会导致较差的结果。此外，当对有限视场进行成像时，很难匹配特征，因为地面图像仅包含航空图像的一小部分。因此，我们的直觉是找到方向对齐，从而促进准确的相似性匹配。
当极坐标变换将航空图像投影到地面视图相机坐标系中时，它允许通过特征相关性来估计每个地面图像相对于其空中对应图像的方向。在本文中，我们提出了动态相似性匹配（DSM）模块来实现该目标。具体来说，我们计算地面和空中特征之间的相关性，以生成每个角度的相似度得分，如图 1 中的红色曲线所示。相似度得分最大值的位置对应于地面图像的潜在方向相对于航拍图像。如果地面图像的视场有限，我们从航空特征表示中提取适当的局部区域进行定位。通过使用我们的 DSM 模块，可以更准确地测量地面图像和航空图像之间的特征相似度。因此，我们的方法大大优于最先进的方法。
我们工作的贡献是：
• 第一种基于图像的地理定位方法，可联合估计查询地面图像的位置和方向1，而不管其视场如何；
• 动态相似性匹配（DSM）模块，用于测量图像对的特征相似性，同时考虑地面图像的方向，从而促进准确定位；和
• 广泛的实验结果表明，我们的方法在各种地理定位场景中比最先进的方法实现了显着的性能改进。

2、相关工作

现有的基于跨视图图像的地理定位旨在通过将地面图像与大型航空图像数据库进行匹配来估计地面图像的位置（纬度和经度）。由于地面图像和航空图像之间存在显着的视点变化，手工特征匹配[3,9,11]成为跨视图地理定位性能的瓶颈。深度卷积神经网络（CNN）已经证明了其在图像表示方面的强大能力[13]。这促使最近的地理定位工作使用 CNN 从地面和航空图像中提取特征。
Workman 和 Jacobs [19] 首先将深度特征引入跨视图匹配任务。他们使用在 Imagenet [13] 和 Places [22] 上微调的 AlexNet [7] 网络来提取跨视图图像匹配的深层特征。他们证明了通过最小化匹配地面和空中之间的距离来进一步调整空中分支配对带来了更好的定位性能[20]。 Vo 和 Hays [18] 研究了一组用于匹配跨视图图像的 CNN 架构（分类、混合、连体和三元组 CNN）。考虑到地面图像和航拍图像之间的方向偏差，他们提出了一个辅助方向回归模块，让网络学习方向感知特征表示，并在测试阶段使用多个不同方向的航拍图像。为了学习方向不变特征，Hu 等人。 [5] 在双分支 CNN 之上嵌入了 NetVlad 层 [1]，用于跨视图图像匹配。蔡等人。 [2]引入了轻量级注意力模块来重新加权空间和通道特征以获得更具代表性的描述符，然后提出了硬样本重新加权三元组损失以提高网络训练的质量。他们还采用了方向回归模块来迫使网络学习方向感知特征。孙等人。 [17]采用胶囊网络对特征表示的空间特征层次进行编码。尽管这些方法学习了用于定位的方向感知描述符，但它们忽略了地面图像和航空图像之间的域差异
为了弥合地面图像和航空图像之间的巨大域差距，Zhai 等人。 [21]学习了航空和地面特征之间的变换矩阵，用于从航空图像预测地面语义信息。 Regmi 和 Shah [12] 使用生成模型从地面图像合成了航拍图像，然后融合地面图像和合成航拍图像的特征作为检索的描述符。施等人。 [15]提出了一种特征传输模块，将地面特征映射到空中域，然后进行相似性匹配。施等人。 [14]还使用极坐标变换首先桥接几何域差异，然后使用空间感知特征聚合模块来选择全局特征描述符表示的显着特征。然而，所有这些方法都需要地面图像是全景或方向对齐的。最后，Liu 和 Li [10] 发现方向为确定地面图像的位置提供了重要线索，因此将地面真实方向明确编码为额外的网络输入。
与现有的工作相比，我们的目标是联合估计地面图像的位置和方向，因为探索方向信息可以促进全景图和有限视场图像的跨视图匹配。

3、通过跨视图图像匹配进行位置和方向估计

在基于交叉视图图像的地理定位任务中，地面图像由像平面垂直于地平面且y轴平行于重力方向的相机捕获，航拍图像由像平面的相机捕获与地平面平行。由于这两个图像域之间存在较大的外观变化，因此我们的策略是首先减少视点之间的投影差异，然后从两个域中提取区分特征。此外，受人类如何定位自己的启发，我们使用物体之间的空间关系作为推断位置和方向的关键线索。因此，我们使描述符能够对特征之间的空间关系进行编码，如图 3 中的 Fg 和 Fa 所示。
尽管空间感知特征具有区分性，但它们对方向变化非常敏感。例如，当地面相机的方位角发生变化时，场景内容在地面全景图中会发生偏移，图像内容可能完全不同如果相机的视场有限，如图 2 所示。因此，找到地面图像的方向对于使空间感知功能可用至关重要。为此，我们提出了动态相似性匹配（DSM）模块，如图3所示。通过该模块，我们不仅可以估计地面图像的方向，而且可以获得更准确的特征相似度分数，而不管方向未对准和有限的情况。 FoV，从而提高地理定位性能。
3.1. 弥合域差距的极坐标变换
由于地面全景图使用等距矩形投影将 360 度光线投射到图像平面上，并且与卫星视图图像正交，因此地面图像中的垂直线对应于航拍图像中的径向线，水平线近似对应于航拍图像中的圆。航拍图像，假设沿线的像素具有相似的深度，这在实践中经常发生。这种布局对应促使我们对航拍图像应用极坐标变换。这样，这两个域的空间布局就可以大致对齐，如图2（b）和图2（c）所示。

图 2. 由于查询地面图像的未知方向和有限 FoV 引起的跨视图图像匹配的挑战。在同一位置但具有不同方位角（顶部和中间）捕获的全景图中的场景内容是偏移的，并且有限视场图像中的图像内容可能与从同一位置捕获的另一图像完全不同。
具体来说，将极坐标原点设置为每个航拍图像的中心，对应于地理标记位置，并选择0°角作为北方向，对应于对齐的航拍图像的向上方向。此外，我们将极坐标变换后的航拍图像的高度限制为与地面图像相同，并确保极坐标变换后的航拍图像每列所对的角度与地面图像中的相同。我们沿着航拍图像中的径向线应用均匀采样策略，使得航拍图像的最内圈和最外圈分别映射到变换图像的底线和顶线
形式上，令Sa×Sa代表航空图像的尺寸，Hg×Wg代表极坐标变换的目标尺寸。原始航空图像点之间的极坐标变换(xai, yai) 和目标极坐标变换 (xti, yti)
在这里插入图片描述
通过应用极坐标变换，我们粗略地弥合了地面图像和航空图像之间的投影几何域差距。这使得 CNN 能够专注于学习地面图像和极坐标变换航空图像之间的特征对应关系，而无需消耗网络容量来学习这两个域之间的几何关系。
3.2. 空间感知的特征表示
沿极坐标变换图像的 x 轴应用平移偏移相当于旋转航拍图像。因此，学习航拍图像的旋转等变特征的任务变成了学习平移等变特征，这显着降低了我们网络的学习难度，因为 CNN 本质上具有平移等变特性 [8]。然而，由于水平方向代表旋转，因此我们必须确保 CNN 将变换后的图像的最左边和最右边的列视为相邻的。因此，我们建议使用沿水平方向带有环绕填充的循环卷积。
我们采用 VGG16 [16] 作为我们的骨干网络。特别是，VGG16的前十层用于从地面和极坐标变换的航空图像中提取特征。由于极坐标变换可能会沿垂直方向引入失真，由于水平线具有相似的有限深度的假设，我们修改随后的三层减少了特征图的高度，但保持了它们的宽度。通过这种方式，我们提取的特征更能容忍垂直方向的扭曲，同时保留水平方向的信息。我们还通过使用这三个卷积层将特征通道数减少到16，并获得大小为4×64×16的特征量。我们的特征体积表示是一个全局描述符，旨在保留场景的空间布局信息，从而增加图像匹配描述符的辨别力。
3.3. 动态相似性匹配（DSM）
当地面特征和极坐标变换的空中特征的方向对齐时，可以直接比较它们的特征。然而，地面图像的方向并不总是可用，并且方向错位显着增加了地理定位的难度，特别是当地面图像的视场角有限时。当人类使用地图重新定位自己时，他们会通过比较他们在地图上看到的内容和期望看到的内容来共同确定自己的位置和方向。为了让网络模拟这个过程，我们计算沿方位角轴的地面和空中特征之间的相关性。具体来说，我们使用地面特征作为滑动窗口，并计算所有可能方向的地面特征和空中特征之间的内积。令Fa ε RH×Wa×C和Fg ε RH×Wg×C分别表示空中和地面要素，其中H和C表示要素的高度和通道数，Wa和Wg表示空中和地面要素的宽度分别为，Wa≥Wg。 Fa与Fg之间的相关性表示为：
在这里插入图片描述其中 F(h, w, c) 是索引 (h, w,c) 处的特征响应，% 表示模运算。经过相关计算后，相似度分数中最大值的位置就是地面图像相对于极坐标变换的航空图像的估计方向。
当地面图像为全景图时，无论方向是否已知，通过计算2(1−max(Fa ∗Fg)，将相关结果中的最大值直接转换为L2距离，其中Fa 和Fg是L2归一化的，当地面图像的FoV有限时，我们在相似度得分最大的位置裁剪与地面图像的FoV相对应的航拍特征，然后对裁剪后的航拍特征进行重新归一化并计算地面和航空特征之间的L2距离作为匹配的相似度分数。请注意，如果有多个最大相似度分数，我们随机选择一个，因为这意味着航空图像具有无法消除歧义的对称性。
3.4. 培训DSM
在训练过程中，我们的 DSM 模块适用于所有地面和空中对，无论它们是否匹配。对于匹配对，DSM 迫使网络学习地面图像和极坐标变换航空图像的相似特征嵌入，并沿水平方向（即方位角）具有判别性特征表示。通过这种方式，DSM 能够识别方向未对准并找到最佳的特征相似度进行匹配。对于不匹配的对，因为它们对齐时是最具挑战性的情况（即它们的相似度较大），我们的 DSM 还用于找到地面图像与不匹配的航空图像对齐的最可行的方向，我们最小化非匹配对的最大相似度，以使特征更具辨别力。遵循传统的跨视图定位方法 [5,10,15]，我们采用加权软边缘三元组损失 [5] 来训练我们的网络。
未完待续。。。。。