本文为《Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free》学习笔记,欢迎交流
关键词: 室内定位;图像地理定位;图像检索;CNN 特征点;位姿估计
一、摘要
问题:室内视觉定位的准确性和成本之间难以权衡
方法: 提出了一种基于图像检索的定位方法。
- 基于 CNN 的图像检索阶段,预训练的深度卷积神经网络(DCNN)提取 CNN 特征,用来比较相似性,输出匹配的图像
- 位姿估计阶段。鲁棒的 CNN 特征提取器,方案适用于复杂的室内且能移植到户外。单目视觉里程计,只需要 RGB 图像及位姿。使用 lightweight datum 呈现场景。
- 通过数据集进行验证。
结果: 该方法定位精确度高,易用性好,应用前景好,数据采集算法和位姿估计与数据扩展兼容。
二、结论
课题构思(如何一步步得到结论):
- 利用基于 CNN 的图像检索策略,将查询图像与数据库图像进行特征匹配;
- 从 ORB 特征点的对应关系中估计查询图像的姿态。
- 首次同时使用基于 CNN 的图像检索与仅使用 RGB 图像。基于图像的定位将成为主流。数据获取和位姿估计算法符合现有的 data expansion。从粗到精的思想将广泛使用
未解问题:
- 使用图像集定义空间
- 可以提高效率和鲁棒性,表示更复杂和大规模的场景。
三、粗看图表
数据来源: ICL-NUIM 数据集,TUM RGB-D 数据集
重要指标: 累计分布函数(CDF);位姿估计误差;
四、引言
研究原因:
-
移动端常用 GNSS 方法定位,易被障碍物遮挡,仅适用于户外。
-
基于指纹的定位算法 infrastructure-free,将接收到的 RSS 和 MFS 与数据库比较。
- 优点:容易构建,短期定位性能好;
- 缺点:因信号模式随时间变化,长期性能差;构建数据库耗时耗力。
- 替代方案有:Optical,RFID,蓝牙信标,ZigBee,伪卫星。精度不够,需要人工设置、额外 infrastructure-free 代价过多。
-
基于识别的图像定位方法类似于图像分类,进行特征点匹配。根据检索的相关图像估计目标图像定位。精度低
-
基于几何匹配的方法用几何参考 3D 模型表示场景,用 2D-3D 或 3D-3D 的特征点匹配估计位姿。通常需要估计 6 个 DoF 的相机参数。但其中的位置对齐问题很难解决
-
文中的方案结合了基于识别和基于几何匹配策略。精度高并且 determining orientations
课题阶段:
视觉定位系统可以大致分为三类:
-
基于结构-最常用
原理:利用局部特征估计 2D-3D 或 3D-3D 匹配,根据对应关系估算姿态。
成果:纯基于 2D 的方法定位水平低,基于 3D 的方法模型的构建和维护复杂。基于 2D 的方法与局部 SfM 重建结合,数据库构造简单且姿态估计准确,但定位时运行时间较长。
-
基于图像-受益于地理标记的图像资料库的发展
原理:将地理标记的图像作为参考,利用基于图像检索策略。
传统:基于局部描述子匹配和空间验证重排。基于内容的图像检索依靠边缘、颜色、纹理和形状等视觉内容。
当今:利用 DCNN 进行图像检索。将预训练的网络作为局部特征描述子。一些工作甚至解决了 CNN 特征的几何不变性。
-
基于学习-最近几年得益于计算机视觉任务的进步
原理:利用带姿势信息的图像训练模型,来表示场景。可以预测位姿估计的匹配或直接回归相机位姿。
成果:PoseNet 使用 DCNN 解决度量定位问题,用贝叶斯 CNN 解决位姿不确定性;利用 LSTM 和对称编码器-解码器等架构提高 DCNN 的性能。
从粗到精的思想
- 利用场景识别定位场景级别的区域,采用多传感器融合方法来给出确切定位;
- 纯基于视觉的方法:将定位问题转换为在包含线段的 3D 模型中,查询图像的边缘对齐问题
- 利用基于识别的阶段粗略定位,然后在小区域内采用匹配。但基于 SIFT 的图像检索在室内环境不稳定,无法广泛使用;
- 文中提出的方法采用基于 CNN 的图像检索方案。对于室内场景有效,且无需 3D 模型。
主要贡献: 将图像检索与基于特征的位姿估计结合,图像检索阶段使用 ImageNet 上预训练的网络作为特征提取器。基于地理标记的图像估计位姿,使用相邻帧的图像并且估计第一帧的位姿。用两张连续图像表示局部场景,从其中一个图像中计算查询图像的位姿。但是位姿估计依赖图像间的相似程度。
- 基于图像的视觉定位方案,匹配最相似的图像
- 无需 3D 模型,从 2D-2D 匹配中恢复位姿
- DCNN 模型很稳健,无需为特定场景训练特殊模型。具有通用性
- 使用轻量模型,使用更少的图像进行位姿定位
五、实验过程
模型步骤,每个步骤的结论:
系统概述及方法
-
系统架构:使用 RGB 图像,实现亚米级精度且能估计 orientation。