Convolutional Neural Network-based Place Recognition 随读笔记

------基于卷积神经网络的位置识别

摘要

本文提出的基于神经网络模型的位置识别技术,将神经网络学习到的强大特征与空间滤波器结合。在100%的准确率下达到了75%的召回率。并对所有21层的特征在位置识别方面的效用进行了全面的比较,包括对于基准数据集和有更显著视点变化的第二个数据集。

1. 介绍

20世纪90年代初以来,卷积神经网络在手写和人脸识别任务中表现出色。最近,有监督的深度卷积神经网络在分类任务上提供了高水平的性能。卷积神经网络的关键支持技术是他们使用大量标记数据学习参数。最令人印象深刻的是,这些方法可以在模型没有明确训练的任务上产生最先进的性能。在新任务和新数据集上的良好泛化性能表明,神经网络可以提供一个适用于所有任务的通用视觉特征学习框架。本文开发的是以来自预先训练的中枢神经网络的特征为中心的位置识别框架。
在这里插入图片描述
图中所示为基于深度学习位置识别系统的示意图。从测试图像中提取深度学习特征,然后与所有训练图像进行匹配。在空间和顺序连续性检测后,确定最终匹配。

地点识别可以被认为是图像检索任务,包括确定当前场景和先前访问的位置之间的匹配。最先进的视觉SLAM算法,FAB-MAP通过将图像转换成SIFT等局部特征的单词包表示,将当前场景的外观与过去的地方相匹配。最近的证据表明,从非常大的数据集上训练的CNNs中提取的特征在分类任务中明显优于SIFT特征。
在本文中研究的深度学习在其他识别任务中的优势是否会延续到位置识别中。本文提出了一种基于深度学习的位置识别算法,该算法比较了在ImageNet上训练的CNN特征层的响应和过滤后续位置识别假设的方法。进行了两个实验,一个是在基准地点识别数据集上,另一个是在视点变化的数据集上,对两种最先进的地点识别算法进行定量比较,并分析了网络中不同层对视点不变性的效果。
第2节概述了基于特征的位置识别技术和卷积神经网络。第3节描述了基于特征的位置识别系统的组成部分。第4节为实验。第5节为结果。最后在第6节中对本文进行了总结,并讨论了现在和未来的工作。

2.相关工作

本节主要回顾基于特征的位置识别和卷积神经网络在各种视觉分类任务中的应用。

2.1 位置识别的特征表示

视觉传感器具有成本低、功耗低、占地面积小等优点,日益成为位置识别的主要传感器。如何最好的表示和匹配地点图像已经有了广泛的研究。
几位作者已经描述了应用全局特征技术来处理输入传感器信息的方法。Murillo和Kosecka提出了一个基于地理信息系统特征的城市全景图像识别系统,图像灰度值和纹理的直方图由于其紧凑的表示旋转不变性,也是广泛应用在位置识别中的特征。然而,全局特征是从整张图像中计算得到的,使得他们不适用于部分遮挡、光照变化或透视变化等效果中。
局部特征对这些外部因素不太敏感,并已广泛应用于基于外观的闭环检测。先进的SLAM系统中,进一步使用多组局部特征来表示外观数据,将图像转换成单词包,从而实现高效检索。然而,在其他任务中,人为设定的特征的表现明显优于学习的特征,这引发了我们是否可以自动学习更好的特征的问题。

2.2 卷积神经网络

卷积网络是多层监督网络,可以从数据集自动学习特征。在过去的几年中,CNNs在几乎所有重要的分类任务中都取得到了最先进的表现。它们主要的缺点是需要大量的训练数据,然而,最近的研究表明,利用通用数据集训练的网络,可以实现先进的性能,提高了基于有分类焦点的数据集学习特征进行位置识别的系统的可能性。类似的方法已经在各种视觉任务上取得了优异的性能,例如对象识别、子类识别、场景识别和检测。
一个独立但与位置识别问题相关的研究领域是图像检索任务,其中查询图像被呈现给数据库以搜索包含相同对象或场景的那些图像。在Babenko等人的研究中,CNNs的中级特征被评估用于图像检索应用,并获得与使用最先进特征的其他特征相当的性能。有趣的是,最好的性能是使用中间网络特征获得的,而不是最后一层。
位置识别本质上是一项图像相似性匹配的任务,在Fischer等人的研究中,CNNs各层的特征被评估,并在描述符匹配基准上与SIFT描述符进行比较。基准测试结果表明,不同层次的深层特征在描述符匹配上始终优于SIFT,这表明SIFT可能不再是匹配任务的首选描述符。因此,我们的论文收到了神经网络在图像分类任务方面的优异性能及其特征匹配方面的可能性的启发。

3.方式方法

在本节描述了该方法的两个关键部分,特征提取和通过比较特征响应输出的地点匹配假设的时空过滤器。在这里插入图片描述
上图为方法过程示意图。从特征构造一个混淆矩阵,产生位置匹配假设,然后过滤产生最终假设。

3.1特征提取器

利用的是叫做Overfeat(Sermanet在2013年提出)的预训练网络。Overfeat网络是在ImageNet2012数据集上训练的,该数据集包含120万张图像和1000个类。网络由5个卷积阶段,3个全链接阶段组成。如图所示:
在这里插入图片描述
最底下两个卷积阶段由卷积层、最大池化层和整流(ReLU)非线性层组成,第三和第四卷积阶段由卷积层、零填充层和ReLU非

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值