论文精读2： Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss

枫楠Kuiy

已于 2022-09-11 17:21:19 修改

阅读量381

点赞数

分类专栏： Geo-Localization 论文精读笔记文章标签：人工智能深度学习 python 算法

于 2022-09-11 17:20:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43968093/article/details/126807191

版权

Geo-Localization 论文精读笔记专栏收录该内容

10 篇文章 6 订阅

订阅专栏

Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss

Ground-to-Aerial Image Geo-LocalizationWith a Hard Exemplar Reweighting Triplet Loss
- 时间：2019 ICCV
- 作者：Sudong Cai
- motivation
  - 跨视角视觉定位的挑战来源于巨大的域差异，以及未知的orientation 方向
  - 需要确定难度等级，对难例的挖掘还不到位
- idea
  - 提出了一个 a novel in-batch reweighting triplet loss 一种新颖的三重态损失批量权重方法
    - 可以强调难例的 positive effect 积极影响
  - 将注意力机制 attention mechanism 嵌入到了模型
  - 我们首先使用距离校正因子 distance retifying factor对三胞胎进行改进的logistic回归。
  - 然后，设置相应锚 anchor 的参考负距离 reference negative distances，并通过比较三个锚的难度与相应参考来计算三个锚的相对权重。
  - 为了减少绝对难例的影响，以及相对没用的简单的例子，最终权重是使用upper and lower bound constraints 修剪过的
    - 这个好像就是那个剪枝？
  - state of art本领域顶级
  - 基于图像的地理定位最近在自动驾驶、增强现实以及移动机器人领域获得了很多的关注和应用
    - 地对地的匹配很简单，但是只是依靠汽车或者人群的视角很难覆盖整个空间
    - 地对空的问题存在于：巨大的域差异 viewpoint differences，光照的变化lighting variations 以及朝向问题orientation （方位角，又称地平经度(Azimuth angle，缩写为Az)，是在平面上量度物体之间的角度差的方法之一。是从某点的指北方向线起，依顺时针方向到目标方向线之间的水平夹角。）
  - 现在的模型开始通过CNN 模型训练计算空域和地域图片之间的特点相似度 similarities between features
  - 此前已经证实过，参数共享的孪生神经网络在这方面的表现很差
  - Vo 和 Hays 提出了一个基于软余量距离的损耗和辅助网络支路估计方向。soft-margin distance-based loss and an auxiliary network branch to estimate the orientation. 他们的模型非常鲁棒，在面对随机朝向问题的时候
  - 本论文提出了一个可以根据难度等级，自动给triplets分配权重的方式，以此可以仅仅聚焦于informative hard exemplars
- contributions
  - 提出了一个新的triplet loss来提升训练网络的质量，可以实现在线的适应性的难例挖掘，实验结果表明outperform普通的soft-margin triplet loss
  - 提出了一个lightweight attention module FCAM 轻量级的注意力机制, 并且将他集成到一个基本的residual network 残差神经网络，来搭建了一个Siamese network 孪生神经网络；效果更好点
  - 训练我们的孪生神经网络，得到了差异化的CNN 特征，试验结果表明很牛
- Conclusion
  - 同上面的contribution
- 提到的其他的论文里面的精华
  - Hand Crafted Feature Based Approach 手工制作特征
    - Bansal 等人从倾斜的航空图像中提取建筑立面 building facades ，并通过匹配建筑立面面片进行地理定位。并且他通过编码图案的自相似度进行自相似编码
      - 结果证明S4特征比Scale Invariance Feature Transform SIFT表现更好
    - Viswanathan 把地域的图片转化为 top - down 的视角（读一下），极大的提升了匹配的准确率；
    - 事实证明，因为域差异巨大，手工制作特征的方法并不好用
  - Deep Learning Based Approaches 基于深度学习的方法
    - Lin 第一个把深度学习方法引入到跨视角视觉定位领域，他们使用了两个孪生神经网络 Where CNN 和 Where CNN DS，证明了确实比手工制作的效果高
    - Workman 引入了一个机器学习的方法，可以将空域图片aerial images 进行语义上的表达，还提出了一种融合fuse不同空间尺度语义特征semantic features的CNN模型，他们的实验再次证明了从空地域对训练的结果，比自己提前制作好的现有的CNN的特征更好
    - 一些网络开始使用注意力机制，Altwaijry 把Spatial Transformer 集成到了一个孪生神经网络AlexNet上，就是可以只关注重要的信息点进行计算，而不是整个图片，效果证明为好
    - Tian 用 Faster RCNN构建了一个两阶段的框架，可以来检测建筑;图像由从建筑物斑块推断出的特征构建的主导集表示。优势集的成对相似性是从孪生神经网络中学习到的
    - 就是通过只关注特定的部分，就可以加强CNN的鲁棒性；但是他们的效率是低的
      - 本文通过制定light weight feature轻量级的特征，来重制定注意力机制的权重。
  - 后面的方法开始将对于metric和discriminative global image representations 度量学习和高分辨率全球图片表示的（？）
    - Vo 添加辅助方向 auxiliary orientation regression branch回归分支以实现旋转不变性 rotation invariance (?)
  - CVM net 只使用top - 1 难例的挖掘确实遗漏了一些有信息的例子
- 开始讲方法
  - 提到了的两个重要的主要的贡献
    - Feature Context-based Attention Module （FCAM）基于特征内容的注意力机制
    - Hard Exemplar Reweighting triplet loss 难例挖掘
  - 里面的点
    - 因为卷积操作，结合了channel 和 spatial information，来生成informative features；作者提出了一个 lightweight dual attention module 轻量级双注意模块
      - 可以通过在频道channel 和 spatial dimensions 空域的维度应用注意力机制，提升feature discriminativeness 特征的区分度
    - 建立了两个相同结构的CNN 特征提取器，分别对应地域和空域
      - 把注意力机制嵌入到基础的ResNet 中
      - 参数不共享
      - 又加了一个auxiliary Orientation Regression 辅助定向回归（或）学习分支。
      - 对于 channel attention，采取了Convolutional Block Attention Module 卷积块注意模块
      - Channel attention submodule
        
        采用了这个频道的注意力的子机制来挖掘频道内部的CNN特征的依赖性
        
        第一维和第二维都是使用最大池化和平均池化生成的
        
        通过Multi Layer Perception MLP 来激发
        
        是一个空间注意力 + 通道注意力
      - 流程图
      - Spatial attention submodule
        
        用来标记有意义的
        
        integrate feature context-aware learning into the basic spatial attention submodule of CBAM
        
        并没有用单一的7 x 7 的卷积，而是使用具有不同的感受野的卷积，来生成 intermediate feature masks 中间特征掩码
        
        简单来讲就是通过，频道注意力机制channel和空域注意力机制spatial共同构建成的序列化结合
    - 对于难例挖掘的
      - 对有用的但是难的东西，引入了新的HER机制，给他们分配更大的权重，对于没用的但是简单的，就分配了小的权重
      - 一种上下文感知的特征权重调整策略 context aware feature reweighting strategy 加了进去
      - 原始的triplet loss
        
        劣势：
        
        因为这个依赖 max - margin 来 truncate the penalization 截断处罚阳性样本和阴性样本之间的距离是有限的
      - idea
        
        address the limitation of generating penalization with max-margin
        
        Vo的尝试, 效果更好
        
        我们的根据权重分配的
        
        大概是这样，就是加一个权重，在Vo的基础上
        
        Distance rectified logistic regression.
        
        权重分配方法
        
        对于极端难例，gap(i, k) = dn(i , k) − dp(i ),
        
        那么也就是说

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

枫楠Kuiy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。