论文精读2: Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss

Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss


  • Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss

    • 时间:2019 ICCV

    • 作者:Sudong Cai

    • motivation

      • 跨视角视觉定位的挑战来源于巨大的域差异,以及未知的orientation 方向

      • 需要确定难度等级,对难例的挖掘还不到位

    • idea

      • 提出了一个 a novel in-batch reweighting triplet loss 一种新颖的三重态损失批量权重方法

        • 可以强调难例的 positive effect 积极影响
      • 将注意力机制 attention mechanism 嵌入到了模型

      • 我们首先使用距离校正因子 distance retifying factor对三胞胎进行改进的logistic回归。

      • 然后,设置相应锚 anchor 的参考负距离 reference negative distances,并通过比较三个锚的难度与相应参考来计算三个锚的相对权重。

      • 为了减少绝对难例的影响,以及相对没用的简单的例子,最终权重是使用upper and lower bound constraints 修剪过的

        • 这个好像就是那个剪枝?
      • state of art本领域顶级

      • 基于图像的地理定位最近在自动驾驶、增强现实以及移动机器人领域获得了很多的关注和应用

        • 地对地的匹配很简单,但是只是依靠汽车或者人群的视角很难覆盖整个空间

        • 地对空的问题存在于: 巨大的域差异 viewpoint differences, 光照的变化lighting variations 以及 朝向问题orientation (方位角,又称地平经度(Azimuth angle,缩写为Az),是在平面上量度物体之间的角度差的方法之一。是从某点的指北方向线起,依顺时针方向到目标方向线之间的水平夹角。)

      • 现在的模型开始通过CNN 模型训练计算空域和地域图片之间的特点相似度 similarities between features

      • 此前已经证实过,参数共享的孪生神经网络在这方面的表现很差

      • Vo 和 Hays 提出了一个基于软余量距离的损耗和辅助网络支路估计方向。soft-margin distance-based loss and an auxiliary network branch to estimate the orientation. 他们的模型非常鲁棒,在面对随机朝向问题的时候

      • 本论文提出了一个可以根据难度等级,自动给triplets分配权重的方式,以此可以仅仅聚焦于informative hard exemplars

    • contributions

      • 提出了一个新的triplet loss来提升训练网络的质量,可以实现在线的适应性的难例挖掘,实验结果表明outperform普通的soft-margin triplet loss

      • 提出了一个lightweight attention module FCAM 轻量级的注意力机制, 并且将他集成到一个基本的residual network 残差神经网络,来搭建了一个Siamese network 孪生神经网络;效果更好点

      • 训练我们的孪生神经网络,得到了差异化的CNN 特征,试验结果表明很牛

    • Conclusion

      • 同上面的contribution
    • 提到的其他的论文里面的精华

      • Hand Crafted Feature Based Approach 手工制作特征

        • Bansal 等人从倾斜的航空图像中提取建筑立面 building facades ,并通过匹配建筑立面面片进行地理定位。并且他通过编码图案的自相似度进行自相似编码

          • 结果证明S4特征比Scale Invariance Feature Transform SIFT表现更好
        • Viswanathan 把地域的图片转化为 top - down 的视角(读一下),极大的提升了匹配的准确率;

        • 事实证明,因为域差异巨大,手工制作特征的方法并不好用

      • Deep Learning Based Approaches 基于深度学习的方法

        • Lin 第一个把深度学习方法引入到跨视角视觉定位领域,他们使用了两个孪生神经网络 Where CNN 和 Where CNN DS,证明了确实比手工制作的效果高

        • Workman 引入了一个机器学习的方法,可以将空域图片aerial images 进行语义上的表达,还提出了一种融合fuse不同空间尺度语义特征semantic features的CNN模型,他们的实验再次证明了从空地域对训练的结果,比自己提前制作好的现有的CNN的特征更好

        • 一些网络开始使用注意力机制,Altwaijry 把Spatial Transformer 集成到了一个孪生神经网络AlexNet上,就是可以只关注重要的信息点进行计算,而不是整个图片,效果证明为好

        • Tian 用 Faster RCNN构建了一个两阶段的框架,可以来检测建筑;图像由从建筑物斑块推断出的特征构建的主导集表示。优势集的成对相似性是从孪生神经网络中学习到的

        • 就是通过只关注特定的部分,就可以加强CNN的鲁棒性;但是他们的效率是低的

          • 本文通过制定light weight feature轻量级的特征,来重制定注意力机制的权重。
      • 后面的方法开始将对于metric和discriminative global image representations 度量学习和高分辨率全球图片表示的(?)

        • Vo 添加辅助方向 auxiliary orientation regression branch回归分支以实现旋转不变性 rotation invariance (?)

      • CVM net 只使用top - 1 难例的挖掘确实遗漏了一些有信息的例子

    • 开始讲方法

      • 提到了的两个重要的主要的贡献

        • Feature Context-based Attention Module (FCAM) 基于特征内容的注意力机制

        • Hard Exemplar Reweighting triplet loss 难例挖掘

      • 里面的点

        • 因为卷积操作,结合了channel 和 spatial information,来生成informative features;作者提出了一个 lightweight dual attention module 轻量级双注意模块

          • 可以通过在频道channel 和 spatial dimensions 空域的维度应用注意力机制,提升feature discriminativeness 特征的区分度
        • 建立了两个相同结构的CNN 特征提取器,分别对应地域和空域

          • 把注意力机制嵌入到基础的ResNet 中

          • 参数不共享

          • 又加了一个auxiliary Orientation Regression 辅助定向回归(或)学习分支。

          • 对于 channel attention,采取了Convolutional Block Attention Module 卷积块注意模块

          • Channel attention submodule

            • 采用了这个频道的注意力的子机制来挖掘频道内部的CNN特征的依赖性

              • 第一维和第二维都是使用最大池化和平均池化生成的

              • 通过Multi Layer Perception MLP 来激发

            • 是一个空间注意力 + 通道注意力

          • 流程图

          • Spatial attention submodule

            • 用来标记有意义的

            • integrate feature context-aware learning into the basic spatial attention submodule of CBAM

            • 并没有用单一的7 x 7 的卷积,而是使用具有不同的感受野的卷积,来生成 intermediate feature masks 中间特征掩码

            • 简单来讲就是通过,频道注意力机制channel和空域注意力机制spatial共同构建成的序列化结合

        • 对于难例挖掘的

          • 对有用的但是难的东西,引入了新的HER机制,给他们分配更大的权重,对于没用的但是简单的,就分配了小的权重

          • 一种上下文感知的特征权重调整策略 context aware feature reweighting strategy 加了进去

          • 原始的triplet loss

            • 劣势:

              • 因为这个依赖 max - margin 来 truncate the penalization 截断处罚阳性样本和阴性样本之间的距离是有限的
          • idea

            • address the limitation of generating penalization with max-margin

            • Vo的尝试, 效果更好

            • 我们的根据权重分配的

              • 大概是这样,就是加一个权重,在Vo的基础上

              • Distance rectified logistic regression.

                • 权重分配方法

                  • 对于极端难例,gap(i, k) = dn(i , k) − dp(i ),

                  • 那么也就是说

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

枫楠Kuiy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值