Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss
-
Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss
-
时间:2019 ICCV
-
作者:Sudong Cai
-
motivation
-
跨视角视觉定位的挑战来源于巨大的域差异,以及未知的orientation 方向
-
需要确定难度等级,对难例的挖掘还不到位
-
-
idea
-
提出了一个 a novel in-batch reweighting triplet loss 一种新颖的三重态损失批量权重方法
- 可以强调难例的 positive effect 积极影响
-
将注意力机制 attention mechanism 嵌入到了模型
-
我们首先使用距离校正因子 distance retifying factor对三胞胎进行改进的logistic回归。
-
然后,设置相应锚 anchor 的参考负距离 reference negative distances,并通过比较三个锚的难度与相应参考来计算三个锚的相对权重。
-
为了减少绝对难例的影响,以及相对没用的简单的例子,最终权重是使用upper and lower bound constraints 修剪过的
- 这个好像就是那个剪枝?
-
state of art本领域顶级
-
基于图像的地理定位最近在自动驾驶、增强现实以及移动机器人领域获得了很多的关注和应用
-
地对地的匹配很简单,但是只是依靠汽车或者人群的视角很难覆盖整个空间
-
地对空的问题存在于: 巨大的域差异 viewpoint differences, 光照的变化lighting variations 以及 朝向问题orientation (方位角,又称地平经度(Azimuth angle,缩写为Az),是在平面上量度物体之间的角度差的方法之一。是从某点的指北方向线起,依顺时针方向到目标方向线之间的水平夹角。)
-
-
现在的模型开始通过CNN 模型训练计算空域和地域图片之间的特点相似度 similarities between features
-
此前已经证实过,参数共享的孪生神经网络在这方面的表现很差
-
Vo 和 Hays 提出了一个基于软余量距离的损耗和辅助网络支路估计方向。soft-margin distance-based loss and an auxiliary network branch to estimate the orientation. 他们的模型非常鲁棒,在面对随机朝向问题的时候
-
本论文提出了一个可以根据难度等级,自动给triplets分配权重的方式,以此可以仅仅聚焦于informative hard exemplars
-
-
contributions
-
提出了一个新的triplet loss来提升训练网络的质量,可以实现在线的适应性的难例挖掘,实验结果表明outperform普通的soft-margin triplet loss
-
提出了一个lightweight attention module FCAM 轻量级的注意力机制, 并且将他集成到一个基本的residual network 残差神经网络,来搭建了一个Siamese network 孪生神经网络;效果更好点
-
训练我们的孪生神经网络,得到了差异化的CNN 特征,试验结果表明很牛
-
-
Conclusion
- 同上面的contribution
-
提到的其他的论文里面的精华
-
Hand Crafted Feature Based Approach 手工制作特征
-
Bansal 等人从倾斜的航空图像中提取建筑立面 building facades ,并通过匹配建筑立面面片进行地理定位。并且他通过编码图案的自相似度进行自相似编码
- 结果证明S4特征比Scale Invariance Feature Transform SIFT表现更好
-
Viswanathan 把地域的图片转化为 top - down 的视角(读一下),极大的提升了匹配的准确率;
-
事实证明,因为域差异巨大,手工制作特征的方法并不好用
-
-
Deep Learning Based Approaches 基于深度学习的方法
-
Lin 第一个把深度学习方法引入到跨视角视觉定位领域,他们使用了两个孪生神经网络 Where CNN 和 Where CNN DS,证明了确实比手工制作的效果高
-
Workman 引入了一个机器学习的方法,可以将空域图片aerial images 进行语义上的表达,还提出了一种融合fuse不同空间尺度语义特征semantic features的CNN模型,他们的实验再次证明了从空地域对训练的结果,比自己提前制作好的现有的CNN的特征更好
-
一些网络开始使用注意力机制,Altwaijry 把Spatial Transformer 集成到了一个孪生神经网络AlexNet上,就是可以只关注重要的信息点进行计算,而不是整个图片,效果证明为好
-
Tian 用 Faster RCNN构建了一个两阶段的框架,可以来检测建筑;图像由从建筑物斑块推断出的特征构建的主导集表示。优势集的成对相似性是从孪生神经网络中学习到的
-
就是通过只关注特定的部分,就可以加强CNN的鲁棒性;但是他们的效率是低的
- 本文通过制定light weight feature轻量级的特征,来重制定注意力机制的权重。
-
-
后面的方法开始将对于metric和discriminative global image representations 度量学习和高分辨率全球图片表示的(?)
-
Vo 添加辅助方向 auxiliary orientation regression branch回归分支以实现旋转不变性 rotation invariance (?)
-
CVM net 只使用top - 1 难例的挖掘确实遗漏了一些有信息的例子
-
-
开始讲方法
-
提到了的两个重要的主要的贡献
-
Feature Context-based Attention Module (FCAM) 基于特征内容的注意力机制
-
Hard Exemplar Reweighting triplet loss 难例挖掘
-
-
里面的点
-
因为卷积操作,结合了channel 和 spatial information,来生成informative features;作者提出了一个 lightweight dual attention module 轻量级双注意模块
- 可以通过在频道channel 和 spatial dimensions 空域的维度应用注意力机制,提升feature discriminativeness 特征的区分度
-
建立了两个相同结构的CNN 特征提取器,分别对应地域和空域
-
把注意力机制嵌入到基础的ResNet 中
-
参数不共享
-
又加了一个auxiliary Orientation Regression 辅助定向回归(或)学习分支。
-
对于 channel attention,采取了Convolutional Block Attention Module 卷积块注意模块
-
Channel attention submodule
-
采用了这个频道的注意力的子机制来挖掘频道内部的CNN特征的依赖性
-
第一维和第二维都是使用最大池化和平均池化生成的
-
通过Multi Layer Perception MLP 来激发
-
-
是一个空间注意力 + 通道注意力
-
-
流程图
-
Spatial attention submodule
-
用来标记有意义的
-
integrate feature context-aware learning into the basic spatial attention submodule of CBAM
-
并没有用单一的7 x 7 的卷积,而是使用具有不同的感受野的卷积,来生成 intermediate feature masks 中间特征掩码
-
简单来讲就是通过,频道注意力机制channel和空域注意力机制spatial共同构建成的序列化结合
-
-
-
对于难例挖掘的
-
对有用的但是难的东西,引入了新的HER机制,给他们分配更大的权重,对于没用的但是简单的,就分配了小的权重
-
一种上下文感知的特征权重调整策略 context aware feature reweighting strategy 加了进去
-
原始的triplet loss
-
劣势:
- 因为这个依赖 max - margin 来 truncate the penalization 截断处罚阳性样本和阴性样本之间的距离是有限的
-
idea
-
address the limitation of generating penalization with max-margin
-
Vo的尝试, 效果更好
-
我们的根据权重分配的
-
大概是这样,就是加一个权重,在Vo的基础上
-
Distance rectified logistic regression.
-
权重分配方法
-
对于极端难例,gap(i, k) = dn(i , k) − dp(i ),
-
那么也就是说
-
-
-
-
-
-
-
-