[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析(转)...

本文介绍了NetVLAD,一种用于弱监督地点识别的卷积神经网络架构。NetVLAD是一种可微分的VLAD层,能够端到端地学习图像特征表示,提高了地点识别的准确性。借助Google Street View Time Machine数据集进行训练,通过弱监督排序损失进行优化。实验表明,NetVLAD特征优于传统图像表示和现有CNN描述子。
摘要由CSDN通过智能技术生成

[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析(转)

https://blog.csdn.net/qq_32417287/article/details/80102466

abstract

本文关注的是大规模的地点识别问题,任务是从一张图像中快速准确地识别位置。
1. 提出一种卷积神经网络结构,可以实现端到端的识别。主要组件是 NetVLAD,这是一个新生成的VLAD层。NetVLAD 可以很容易地运用到任何的CNN结构中,并且可以使用BP优化。
2. 基于一种新的弱监督排序损失(a new weakly supervised ranking loss),提出了一个训练过程,来学习得到所需要的参数。使用的数据集是Google Street View Time Machine。
3. 结果显示我们提出的结构得到的特征比其他非学习的图像表示(non-learnt image representations)以及现有的CNN描述子得到的特征要好,

introduction

地点识别现在主要应用在自主驾驶,增强学习等
地点识别一个挑战是,我们如何在一个城市或国家中识别相同的街角,即使有光照等其他因素的影响。关键问题是如何找到这样的一个具有代表性并且具有区分性的地方。

传统做法是将地点识别问题看作实例检索任务,使用具有局部不变性的特征(SIFT)来表示每一个图像,然后将特征聚合成一个向量表示,方法有 BOW, VLAD, FV等。近些年,CNNs的出现为多种类级的识别任务提供了更强性能的图像表示。

虽然CNN能够用在较大的数据集上,但是如果直接迁移使用CNN,那么它作为一个黑盒进行特征提取,对于实例识别任务会在性能上有限制。所以本文的任务是探究这种性能上的差距能够使用CNN特征减小。主要的问题是:

  • 如何定义一个好的CNN结构,
  • 怎样得到足够多的标注数据
  • 怎么训练来提升结构性能

第一,基于现有的神经网络架构,本文提出一种一个带有VLAD层的卷积神经网络结构,NetVLAD,可以被加到任何的CNN结构中,并且可以使用BP算法优化,然后使用PCA降维得到compact descriptor of the image。

第二,为了训练网络,使用 the Google Street View Time Machine 收集了大量的不同时间不同角度相同地点的全景图。通过这些数据进行训练是弱监督学习:两幅相似的全景图是通过他们的GPS特征近似得到的,但是并不知道图像中的哪个部分决定了这两幅全景图是同一个地方。

第三,使用了端到端的模式来学习得到参数。得到的特征对于视角和光照情况具有鲁棒性。

method overview

将地点识别问题看作是图像检索问题,有未知地点的图像作为查询图像,检索一个地理标注的数据集合,然后返回排序较高的图像。

图像特征提取: offline
待查询图像特征: online
goal:找到与待查询图像最近的图像,欧氏距离 Euclidean distance , 也有其他的距离计算方法,但是本文采用的是欧氏距离。

本文提出以端到端的方式学习图像的特征表示 ,特征表示通过

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《基于深度学习的面部表情识别:一项调查》是一篇发表在IEEE Access期刊上的论文。本论文综述了基于深度学习的面部表情识别的最新研究进展。 面部表情识别是计算机视觉领域的重要研究方向之一,广泛应用于情感分析、人机交互、虚拟角色等领域。传统的面部表情识别方法常常需要手工提取特征,且受到光照、姿态等因素的限制。而基于深度学习的面部表情识别则无需手工设计特征,可以从原始像素中直接学习特征表示,因此能够更好地解决这些问题。 本文首先介绍了深度学习在面部表情识别中的应用,包括卷积神经网络(CNN)和循环神经网络(RNN)等。CNN在面部表情识别中起到了关键作用,它可以提取图像的空间特征。RNN则主要用于处理序列化的面部表情数据,可以捕捉到表情的动态变化。 接着,本文概述了深度学习在面部表情识别中的不同应用场景,包括静态图像识别、视频序列识别和实时识别等。在静态图像识别中,通过对单张图像进行分析得出表情类别。在视频序列识别中,可以利用RNN结合CNN对连续视频帧进行处理,从而对表情做出连续预测。在实时识别中,需要实时地对实时视频流中的表情进行识别,对算法的实时性提出了挑战。 最后,本文总结了当前基于深度学习的面部表情识别的挑战和未来的研究方向。尽管深度学习在面部表情识别中取得了显著进展,但仍然存在一些挑战,如样本不平衡、多标签问题和泛化能力等。未来的研究可以探索更加有效的网络架构和训练方法,以提高面部表情识别的性能和适应性。 总之,本论文通过深入调查和总结,对基于深度学习的面部表情识别进行了详细介绍,并提出了未来的研究方向,对相关领域的学者和研究人员具有一定的参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值