Deep Learning for Person Re-identification: A Survey and Outlook 翻译2/3

A Survey And Outlook
1 摘要
行人重识别旨在跨多个不重叠摄像头间检索同一个行人。随着深度神经网络的发展以及智能视频监控需求的增加,行人重识别在计算机视觉领域获得了越来越多的关注。根据搭建行人重识别系统时组成部分分类,可以分为封闭式和开放式两种。封闭式经常被作为研究假设,在大量数据集上采用深度学习方法取得了令人满意的成绩。我们首先从三个不同方面入手,对于封闭式行人重识别做深入而全面的分析与理解,其中包括深度特征表征学习,深度度量学习以及排序优化。随着封闭式数据集在实践中应用饱和,研究者将注意力转向了开放式行人重识别,而此也面临许多方面的挑战。经过对目前提出方法的分析,我们设计了一个强有力的AGW基础模型,在十二个数据集上包含四个不同重识别任务中,达到了最优异的表现。此外,我们为行人重识别提出了一种新的度量指标mINP,它可以表示查找所有匹配项所耗费成本,以此来为重识别的现实应用增加评估标准。最后,本文还讨论了一些尚待解决的重要性开放问题。
关键字
行人重识别,行人检索,文献综述,评价指标,深度学习
介绍
作为跨非重叠摄像头的人员检索问题,行人重识别被广泛研究。给定一个目标行人,行人重识别的目的就是确认目标行人是否出现在其他地方而被不同摄像头捕获,亦或是相同摄像头的不同时间。目标行人可以用一张图片,一段视频序列甚至一段文字描述。由于公众安全的迫切需求以及日益增长的监控摄像头,行人重识别在智能监控系统中具有重要研究影响以及实际意义。
行人重识别由于存在多种问题干扰检索现在仍然是具有挑战的任务,例如不同视角、图像多变的低分辨率、光线明暗变化、行人姿态各异、遮挡、异构模式、复杂摄像环境、背景杂乱以及行人标注框结果不可靠等。此外,对于实际模型部署来说,摄像机网络的动态更新、大规模数据的高效检索、群体不确定性、明显的地区差异、未可知的测试场景、增长模型更新以及服饰变更也增加了行人重识别难度。这些挑战使得重识别仍然是未解决的难题。早期研究主要致力于手工设计人体结构的特征表示,或者距离度量学习。随着深度学习的迅速发展,行人重识别在广泛使用的基本模型上表现不凡。然而,理论研究的场景与现实应用之间仍然有巨大鸿沟。这促使我们进行全面调查,为不同的重识别任务提出有力的基础模型,并对未来走向发展作出讨论。
尽管一些研究对于深度学习方法做了总结,但我们研究主要有三点不同:首先,我们通过研究讨论他们的优缺点以及最优算法的结构以及实验,对于现存深度学习方法进行了深入又全面的分析。这为以后算法设计以及新的走向提供了新视角。其次,我们为未来发展提出了一种新的强基本模型(AGW:Attention Generalized mean pooling with Weight triplet loss)和一个新的评估指标(mINP:mean Inverse Negative Penalty)。AGW在四个不同重识别任务十二个数据集上表现出SOTA性能。mINP对于现有的CMC/mAP做出了补充,表示找出所有正确匹配项所消耗成本。最后,我们尝试讨论几个重要但还未被充分研究的开放性问题,以此来缩小封闭式与开放式应用之间的差距,为真实世界重识别系统的设计迈出一步。
除特别声明,本文中行人重识别指多个监控摄像头之间行人检索问题,隶属于计算机视觉领域。整体上来说,为特定场景建立行人重识别系统主要需要一下五步:
1)第一步:原始数据收集:从监控摄像头中获取原始视频数据是实际调查中的首要任务。这些摄像机通常位于不同环境及不同位置。一般来说,原始数据都会包含大量复杂的背景噪声干扰。
2)第二步:标注框生成:从原始数据中提取包含行人图片的标注框。在大规模应用中,手动裁剪行人图片是不太可能的。标注框一般由人员检测和追踪算法生成。
3)第三步:训练数据注释:标注跨摄像头的标签。因为摄像机之间变化很大,所以数据标注对于重识别模型的训练来说是不可或缺的。当环境发生巨大变化时,我们需要对每个新场景的训练数据进行标注。
4)第四步:训练模型:利用先前标注好的行人图片或视频训练一个辨别能力强且鲁棒的重识别模型。这一步是构建重识别系统的核心,也是文献中研究最广泛的。已经有许多模型来处理各种挑战,主要集中在特征表征学习、距离度量学习或者两者的结合。
5)第五步:行人检索:测试阶段进行行人的检索。对于给定行人的索引以及待检索库,使用上一阶段训练所得模型提取行人特征。将索引与库中图片或视频相似度排序作为待检索列表。一些方法通过优化排序方法提高检索性能。
根据上述五步,我们将现有重识别方法分为两类:封闭式和开放式,正如表1所总结。下面分五个方面进行逐步比较:
1)单模态vs多模态:对于第一步中原始数据的筛选来说,在封闭式中所有人都由单模视觉摄像机所摄取的图片或者视频所代表。然而,在实际开放式应用,我们可能需要处理多模态信息,比如红外图、草图、深度图片甚至文字描述。多模态重识别详见3.1节。
2)标注框生成vs原始图片或视频:对于第二步中标注框的生成,封闭式行人重识别往往都会在已经生成标注框的数据上进行训练和测试,这里的标注框主要包含行人外表信息。相反,一些开放式的实际应用需要采用端到端的方式从原始图片或者视频中对人员进行搜索。而这也引出来开放式主题,3.2节中的端到端人员搜索。
3)高效的标注数据vs不可靠/受限标签:对于第三步的训练数据标注,封闭式行人重识别常常假设我们有足够多的已标注数据用来训练监督重识别模型。然而,标签的标注,对于新环境下的每一对摄像头,都是耗时耗力的。在开放式场景下,我们可能没有足够已标注数据(例如limited labels)或者甚至没有任何标签信息。这引发了我们在3.3节中无监督重识别和半监督行人重识别。
4)正确标注vs虚假标注:对于第四步,现在的封闭式行人重识别经常假设所有的标注都正确,有着清晰的标签。然而,由于标注错误(例如标签噪声)或者不准确的探测结果(例如抽样噪声部分重识别)等,虚假标注经常是不可避免的。这促使我们3.4节对在不同类型噪声下的鲁棒行人重识别进行分析。
5)Query Exists in Gallery vs Open-set:在行人检索阶段,大部分封闭式的行人重识别方法都假设query一定出现在gallery中,并通过计算CMC和mAP检索。然而,在许多场景下,query中行人不出现在gallery数据集中,或者我们需要对证而不是检索。详细见3.5节。
本文在第二节介绍广为人知的封闭式行人重识别。数据集具体细节回顾和SOTA介绍在2.4节。然后我们在第三节介绍开放式行人重识别。在第四节书写了对重识别为了的展望,包括4.1节中一个新的评估指标,4.2节中新的强baseline AGW。我们在4.3节讨论了许多待解决的开放性问题。结论在第五节。结构总揽在支撑材料中。
2 封闭式行人重识别
这一节对封闭式行人重识别做了总揽。正如第一节中所述,封闭式数据集经常有以下假设:
1)行人外貌被单模态摄像机以图片或者视频的形式捕捉;2)行人被标注框所表示,其中大多数标注框属于同一个身份;3)有足够的已标注数据用来有监督行人重识别训练;4)标注大都正确;5)query中行人必须出现在gallery中。通常,一个标准的封闭式行人重识别系统包含三部分:表征学习,集中与特征构造方法;度量学习,旨在采用不同损失函数和采样策略来训练模型;排序优化,主要优化检索排序。数据集和SOTA在2.4.2节做了深度分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值