【论文笔记】Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free

最新推荐文章于 2020-12-30 17:33:04 发布

Louis1874

最新推荐文章于 2020-12-30 17:33:04 发布

阅读量455

点赞数 3

分类专栏： # 视觉SLAM 文章标签：定位数据库算法计算机视觉 slam

本文链接：https://blog.csdn.net/weixin_44413191/article/details/107806940

版权

本文为《Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free》学习笔记，欢迎交流

摘要由CSDN通过智能技术生成

本文为《Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free》学习笔记，欢迎交流

关键词： 室内定位；图像地理定位；图像检索；CNN 特征点；位姿估计

一、摘要

问题：室内视觉定位的准确性和成本之间难以权衡

方法： 提出了一种基于图像检索的定位方法。

基于 CNN 的图像检索阶段，预训练的深度卷积神经网络（DCNN）提取 CNN 特征，用来比较相似性，输出匹配的图像
位姿估计阶段。鲁棒的 CNN 特征提取器，方案适用于复杂的室内且能移植到户外。单目视觉里程计，只需要 RGB 图像及位姿。使用 lightweight datum 呈现场景。
通过数据集进行验证。

结果： 该方法定位精确度高，易用性好，应用前景好，数据采集算法和位姿估计与数据扩展兼容。

课题构思（如何一步步得到结论）：

利用基于 CNN 的图像检索策略，将查询图像与数据库图像进行特征匹配；
从 ORB 特征点的对应关系中估计查询图像的姿态。
首次同时使用基于 CNN 的图像检索与仅使用 RGB 图像。基于图像的定位将成为主流。数据获取和位姿估计算法符合现有的 data expansion。从粗到精的思想将广泛使用

未解问题：

数据来源： ICL-NUIM 数据集，TUM RGB-D 数据集

重要指标： 累计分布函数（CDF）；位姿估计误差；

研究原因：

移动端常用 GNSS 方法定位，易被障碍物遮挡，仅适用于户外。
基于指纹的定位算法 infrastructure-free，将接收到的 RSS 和 MFS 与数据库比较。
- 优点：容易构建，短期定位性能好；
- 缺点：因信号模式随时间变化，长期性能差；构建数据库耗时耗力。
- 替代方案有：Optical，RFID，蓝牙信标，ZigBee，伪卫星。精度不够，需要人工设置、额外 infrastructure-free 代价过多。
基于识别的图像定位方法类似于图像分类，进行特征点匹配。根据检索的相关图像估计目标图像定位。精度低
基于几何匹配的方法用几何参考 3D 模型表示场景，用 2D-3D 或 3D-3D 的特征点匹配估计位姿。通常需要估计 6 个 DoF 的相机参数。但其中的位置对齐问题很难解决
文中的方案结合了基于识别和基于几何匹配策略。精度高并且 determining orientations

课题阶段：

视觉定位系统可以大致分为三类：

基于结构-最常用

原理：利用局部特征估计 2D-3D 或 3D-3D 匹配，根据对应关系估算姿态。

成果：纯基于 2D 的方法定位水平低，基于 3D 的方法模型的构建和维护复杂。基于 2D 的方法与局部 SfM 重建结合，数据库构造简单且姿态估计准确，但定位时运行时间较长。
基于图像-受益于地理标记的图像资料库的发展

原理：将地理标记的图像作为参考，利用基于图像检索策略。

传统：基于局部描述子匹配和空间验证重排。基于内容的图像检索依靠边缘、颜色、纹理和形状等视觉内容。

当今：利用 DCNN 进行图像检索。将预训练的网络作为局部特征描述子。一些工作甚至解决了 CNN 特征的几何不变性。
基于学习-最近几年得益于计算机视觉任务的进步

原理：利用带姿势信息的图像训练模型，来表示场景。可以预测位姿估计的匹配或直接回归相机位姿。

成果：PoseNet 使用 DCNN 解决度量定位问题，用贝叶斯 CNN 解决位姿不确定性；利用 LSTM 和对称编码器-解码器等架构提高 DCNN 的性能。

从粗到精的思想

主要贡献： 将图像检索与基于特征的位姿估计结合，图像检索阶段使用 ImageNet 上预训练的网络作为特征提取器。基于地理标记的图像估计位姿，使用相邻帧的图像并且估计第一帧的位姿。用两张连续图像表示局部场景，从其中一个图像中计算查询图像的位姿。但是位姿估计依赖图像间的相似程度。

模型步骤，每个步骤的结论：

系统架构：使用 RGB 图像，实现亚米级精度且能估计 orientation。
- 数据准备：通过预先训练的 CNN 模型从 RGB 图像中提取 CNN 特征，离线完成。
- 图像

关注

专栏目录