论文精读4：Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching

最新推荐文章于 2024-07-12 11:37:47 发布

枫楠Kuiy

最新推荐文章于 2024-07-12 11:37:47 发布

阅读量513

点赞数

文章标签：计算机视觉深度学习 cnn

本文链接：https://blog.csdn.net/weixin_43968093/article/details/126807286

版权

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching
时间
- 2020 CVPR
作者
- Shi Yujiao
idea
- 这里面提到的，这个领域的最大的问题
  - 就是巨大的视角差异，不同的视角之间的，包括外观和物体的位置的区别
  - 方向如果不确定，那么就会引起地理位置上的模糊并且加大了搜寻的范围
  - 标准的相机是有限的视角，那么就是减少了地域图片的辨别能力
- 两个值得注意的点
  - （i）图像中的水平线（平行于方位轴）具有近似恒定的深度，因此对应于航空图像中的同心圆；
  - （ii）图像中的垂直线深度随y坐标增加，因此对应于航空图像中的径向线。
  - 简单来说，就是水平线，横着的线，在空域里是一个圆，然后竖着的线，就是 radial line 经向线，类似下面这个，就是经线纬线
  - 然后他用了一个及坐标转换
- 部署了一个two - stream CNN 来学习一些联系，提出了一个DSM 模块，可以来实现这个目标，具体来说，就是计算了空地特征之间的关系
Contribution
- 无论Field of View 如何，第一种可以估计位置和朝向的，第一个同时考虑location和orientation的方法
- 提出了Dynamic Similarity Matching module去计算feature的相似度，从而得到ground images的orientation
- achieves significant performance improvements
一些相关的
- Liu & Li
  - 朝向提供了一些重要的线索，可以用来决定地面图像的位置
理论细节
- 流程图
  - 如上图所示，整个方法的流程主要分为3个部分。首先第①部分，本论文利用Polar Transform将aerial images全部转为ground images。然后，本论文使用vgg16作为backbone提取feature maps，这里不像以前的方法把图像变成一个向量的representation，而是最后输出一对feature volume。这样做的目的就是为后续进行圆周卷积提取orientation做准备。
  - 第②部分就是计算这对feature volume的correlation。这里采用的计算方式就是圆周卷积。最后correlation最大的地方就是ground images的朝向。
  - 第③部分就是根据前一步得到的orientation将Aerial Features进行裁剪，然后与Ground Features进行距离计算。
- 细节
  - 地面的摄像头是垂直于地面的，然后空域的摄像头是平行于地面
  - 因为是水平方向旋转的，那么就要确保CNN 将变换图像的最左侧和最右侧视为水平并列
  - 用VGG16作为底层框架，主要用前十层
  - 因为极坐标转化是水平方向的转化，那么就会带来垂直方向的volume失真，所以修改了后面三层的参数，降低了特征图的高度，保留了宽度
    - 对垂直方向的失真更加宽容
  - 降低乐feature channel number 到16
  - Dynamic Similarity Matching
    - 拥有了朝向，就可以比较特征
    - 但是，朝向并不是永远可以得到，并且朝向的错误会提升定位的困难程度，尤其是视域是有限的时候，
    - 人类在地图上给自己定位的时候，是通过自己已经看到的东西定位的
    - 通过azimuth angle axis方位角来计算，简单来说就是用inner product
      - 得分最大的那个位置，就是这个地面图片和空域图片的相对角度
    - 当地面的图片是一个全景图的时候，不论朝向知不知道，相似度结果就是L2Distance 2(1-max([Fa*Fg](i))
    - 如果有多个相同的最高分，那么随机选择一个，因为这说明，这个空域的图像有不可避免的对称性
- 表现
  - 提升相当显著

枫楠Kuiy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文精读4：Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching
复制链接

扫一扫