【论文笔记】Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free

本文为《Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free》学习笔记,欢迎交流

关键词: 室内定位;图像地理定位;图像检索;CNN 特征点;位姿估计

一、摘要

问题:室内视觉定位的准确性和成本之间难以权衡

方法: 提出了一种基于图像检索的定位方法。

  • 基于 CNN 的图像检索阶段,预训练的深度卷积神经网络(DCNN)提取 CNN 特征,用来比较相似性,输出匹配的图像
  • 位姿估计阶段。鲁棒的 CNN 特征提取器,方案适用于复杂的室内且能移植到户外。单目视觉里程计,只需要 RGB 图像及位姿。使用 lightweight datum 呈现场景。
  • 通过数据集进行验证。

结果: 该方法定位精确度高,易用性好,应用前景好,数据采集算法和位姿估计与数据扩展兼容。

二、结论

课题构思(如何一步步得到结论):

  1. 利用基于 CNN 的图像检索策略,将查询图像与数据库图像进行特征匹配;
  2. 从 ORB 特征点的对应关系中估计查询图像的姿态。
  3. 首次同时使用基于 CNN 的图像检索与仅使用 RGB 图像。基于图像的定位将成为主流。数据获取和位姿估计算法符合现有的 data expansion。从粗到精的思想将广泛使用

未解问题:

  • 使用图像集定义空间
  • 可以提高效率和鲁棒性,表示更复杂和大规模的场景。

三、粗看图表

数据来源: ICL-NUIM 数据集,TUM RGB-D 数据集

重要指标: 累计分布函数(CDF);位姿估计误差;

四、引言

研究原因:

  • 移动端常用 GNSS 方法定位,易被障碍物遮挡,仅适用于户外。

  • 基于指纹的定位算法 infrastructure-free,将接收到的 RSS 和 MFS 与数据库比较。

    • 优点:容易构建,短期定位性能好;
    • 缺点:因信号模式随时间变化,长期性能差;构建数据库耗时耗力。
    • 替代方案有:Optical,RFID,蓝牙信标,ZigBee,伪卫星。精度不够,需要人工设置、额外 infrastructure-free 代价过多。
  • 基于识别的图像定位方法类似于图像分类,进行特征点匹配。根据检索的相关图像估计目标图像定位。精度低

  • 基于几何匹配的方法用几何参考 3D 模型表示场景,用 2D-3D 或 3D-3D 的特征点匹配估计位姿。通常需要估计 6 个 DoF 的相机参数。但其中的位置对齐问题很难解决

  • 文中的方案结合了基于识别和基于几何匹配策略。精度高并且 determining orientations

课题阶段:

视觉定位系统可以大致分为三类:

  • 基于结构-最常用

    原理:利用局部特征估计 2D-3D 或 3D-3D 匹配,根据对应关系估算姿态。

    成果:纯基于 2D 的方法定位水平低,基于 3D 的方法模型的构建和维护复杂。基于 2D 的方法与局部 SfM 重建结合,数据库构造简单且姿态估计准确,但定位时运行时间较长。

  • 基于图像-受益于地理标记的图像资料库的发展

    原理:将地理标记的图像作为参考,利用基于图像检索策略。

    传统:基于局部描述子匹配和空间验证重排。基于内容的图像检索依靠边缘、颜色、纹理和形状等视觉内容。

    当今:利用 DCNN 进行图像检索。将预训练的网络作为局部特征描述子。一些工作甚至解决了 CNN 特征的几何不变性。

  • 基于学习-最近几年得益于计算机视觉任务的进步

    原理:利用带姿势信息的图像训练模型,来表示场景。可以预测位姿估计的匹配或直接回归相机位姿。

    成果:PoseNet 使用 DCNN 解决度量定位问题,用贝叶斯 CNN 解决位姿不确定性;利用 LSTM 和对称编码器-解码器等架构提高 DCNN 的性能。

从粗到精的思想

  • 利用场景识别定位场景级别的区域,采用多传感器融合方法来给出确切定位;
  • 纯基于视觉的方法:将定位问题转换为在包含线段的 3D 模型中,查询图像的边缘对齐问题
  • 利用基于识别的阶段粗略定位,然后在小区域内采用匹配。但基于 SIFT 的图像检索在室内环境不稳定,无法广泛使用;
  • 文中提出的方法采用基于 CNN 的图像检索方案。对于室内场景有效,且无需 3D 模型。

主要贡献: 将图像检索与基于特征的位姿估计结合,图像检索阶段使用 ImageNet 上预训练的网络作为特征提取器。基于地理标记的图像估计位姿,使用相邻帧的图像并且估计第一帧的位姿。用两张连续图像表示局部场景,从其中一个图像中计算查询图像的位姿。但是位姿估计依赖图像间的相似程度。

  1. 基于图像的视觉定位方案,匹配最相似的图像
  2. 无需 3D 模型,从 2D-2D 匹配中恢复位姿
  3. DCNN 模型很稳健,无需为特定场景训练特殊模型。具有通用性
  4. 使用轻量模型,使用更少的图像进行位姿定位

五、实验过程

模型步骤,每个步骤的结论

系统概述及方法

  1. 系统架构:使用 RGB 图像,实现亚米级精度且能估计 orientation。

    在这里插入图片描述

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值