一个拼凑的综述在识别


参考文献:

  1. 罗浩 深度学习行人重识别进展
  2. 郑哲东 行人重识别综述
  3. 行人重识别的评价指标
  4. 行人重识别的应用场景
  5. attention机制解读
  6. attention机制详解(一)
  7. attention机制详解(二)
  8. attention机制详解(三)
  9. 历年三大会议的reid会议集合

一、行人重识别简介

1.行人重识别定义

1.1 简单定义

行人重识别(Person re-identification)也称行人再识别,被广泛认为是一个图像检索的子问题,是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术,即给定一个监控行人图像检索跨设备下的该行人图像.行人重识别技术可以弥补目前固定摄像头的视觉局限,并可与行人检测、行人跟踪技术相结合,应用于视频监控、智能安防等领域.

1.2 思考问题

  1. 能不能用人脸识别做重识别?

理论上是可以的。但是有两个原因导致人脸识别较难应用:首先,广泛存在后脑勺和侧脸的情况,做正脸的人脸识别难。其次,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。所以人脸识别在实际的重识别应用中很可能有限。

  1. 有些人靠衣服的颜色就可以判断出来了,还需要行人重识别么?

衣服颜色确实是行人重识别 做出判断一个重要因素,但光靠颜色是不足的。首先,摄像头之间是有色差,并且会有光照的影响。其次,有撞衫(颜色相似)的人怎么办,要找细节,但比如颜色直方图这种统计的特征就把细节给忽略了。在多个数据集上的测试表明,光用颜色特征是难以达到50%的top1正确率的。

  1. 使用图像检索的指标来衡量行人重识别的结果是否合适?

在早期,行人重识别数据集是由两个摄像头采集的比如viper,每个query只有一个正确的retrieval目标。所以往往使用top1比较。但在近期,随着大数据集的提出,数据集中往往包含多个摄像头的多个正确目标。光使用top1的话,不能反应模型的真实能力。所以类似图像检索,重识别加入了mAP作为衡量标准,将top2,top3…topn都考虑进去。

  1. 测试方式

主要有两种方案:a.测试的输入是一对行人,输出为这对行人的相似度,然后再按相似度排序;b.输入单个人,提取特征,再计算与其他人的欧式距离,然后再按距离排序。

第一种方案的优点是,判断两个人是不是一个人,简单的二分类(是/否)。但缺点是如果我们搜索库中有m张图片,那么与目标图片组成m对图片对。每一对都要进一次模型,估算相似度,这极大的增加了测试的时间。如果我们有n个query,那么我们要计算nm次相似度(而m往往很大)。另一种方案是,预先提取行人的特征,我们只要预先提好n+m次特征。之后只要比较就好了,比较特征可以简单的用矩阵乘法实现。

目前两种方案都有在用,但是后一种更接近实际中图像搜索的要求,用特征来快速检索。

2.行人重识别发展与应用

2.1 行人重识别发展历史

行人重识别可以应用到刑事侦查、视频监控、行为理解等多个方面,但据我们所知,其在学术界的研究最先追溯到跨摄像头多目标跟踪(Multi-targetmulti-camera tracking, MTMC tracking)问题上.早在2005年,文献[2]探讨了在跨摄像头系统中,当目标行人在某个相机视野中丢失之后如何将其轨迹在其他相机视野下再次关联起来的问题.该文献利用一个贝叶斯网络根据行人特征(颜色、时空线索)的相似度将行人轨迹关联起来.而如何提取行人特征以及如何进行特征相似度度量就是行人重识别需要解决的核心问题,也可以合称为行人跨摄像头检索.因此行人重识别被研究者从MTMC跟踪问题里抽取出来,作为一个独立的研究课题.行人重识别领域知名学者郑良博士在论文[3]中将行人重识别系统总结为行人检测加上行人重识别,如图1所示.随着深度学习的发展,行人检测技术已逐渐成熟,本文不再做具体阐述.目前大部分数据集直接将检测出来的行人图片作为训练集和测试集,并且剔除了一些遮挡较严重的低质量图片.行人重识别技术将行人检测结果作为先验知识,直接对行人图片进行跨摄像头检索.

在深度学习技术出现之前,早期的行人重识别研究主要集中于如何手工设计更好的视觉特征和如何学习更好的相似度度量.近几年随着深度学习的发展,深度学习技术在行人重识别任务上得到了广泛的应用.和传统方法不同,深度学习方法可以自动提取较好的行人图像特征,同时学习得到较好的相似度度量.当然深度学习相关的行人重识别方法也经历了一个从简单到复杂的发展过程.起初研究者主要关注用网络学习单帧图片的全局特征,根据损失类型的不同可以分为表征学习(Representationlearning)和度量学习(Metric learning)方法.而单帧图片的全局特征遇到性能瓶颈之后,研究者引入局部特征和序列特征进一步发展行人重识别研究.最近因为生成对抗网络(Generative adversarialnets, GAN)[1]的逐渐成熟,一些基于GAN的行人重识别研究工作表明: GAN在扩充数据集、解决图片间的偏差等问题上也有不错的效果.虽然目前大量工作仍然是属于监督学习(Supervised learning)的范畴,但是迁移学习、半监督学习和无监督学习也同样是一个值得研究的方向.

行人重识别任务主要包含特征提取和相似度度量两个步骤.传统的方法思路为手工图像特征,例如颜色、HOG (Histogram of orientedgradient)[4]、SIFT (Scale invariant feature trans-form)[5]、LOMO (Local Maximal Occurrence)等.之后,利用XQDA (Cross-view Quadratic Discrim-inant Analysis)[6]或者KISSME (Keep It Simpleand Straightforward Metric Learning)[7]来学习最佳的相似度度量.然而,传统的手工特征描述能力有限,很难适应复杂场景下的大数据量任务.并且,在数据量较大的情形下,传统的度量学习方法求解也会变得非常困难.近年来,以卷积神经网络为代表的深度学习在计算机视觉领域取得了极大的成功,在多项任务上都击败传统的方法,甚至一定程度上超越了人类的水平[8−9].在行人重识别问题上,基于深度学习的方法可以自动学习出复杂的特征描述,并且用简单的欧式距离进行相似度度量便可以取得很好的性能.换句话说,深度学习可以端对端地实现行人重识别任务,这使得任务变得更加简单.目前,基于深度学习的行人重识别方法已经在性能上大大超越了传统的方法.这些优势使得深度学习在行人重识别领域变得流行,大量相关研究工作发表在高水平的会议或者期刊上,行人重识别的研究也进入了一个新的阶段.
在这里插入图片描述

2.2 行人重识别的应用

第一个,与人脸识别结合。

之前人脸识别技术比较成熟,但是人脸识别技术有一个明显的要求,就是必须看到相对清晰的人脸照,如果是一个背面照,完全没有人脸的情况下,人脸识别技术是失效的。

但 ReID 技术和人脸的技术可以做一个补充,当能看到人脸的时候用人脸的技术去识别,当看不到人脸的时候用 ReID 技术去识别,可以延长行人在摄像头连续跟踪的时空延续性。右边位置2、位置3、位置4 的地方可以用 ReID 技术去持续跟踪。跟人脸识别结合是大的 ReID 的应用方向,不是具象的应用场景。

在这里插入图片描述
第二个,智能安防。

它的应用场景是这样子的,比如我已经知道某个嫌疑犯的照片,警察想知道嫌疑犯在监控视频里的照片,但监控视频是 24 小时不间断在监控,所以数据量非常大,监控摄像头非常多,比如有几百个、几十个摄像头,但人来对摄像头每秒每秒去看的话非常费时,这时可以用 ReID 技术。

ReID 根据嫌疑犯照片,去监控视频库里去收集嫌疑犯出现的视频段。这样可以把嫌疑犯在各个摄像头的轨迹串连起来,这个轨迹一旦串连起来之后,相信对警察的破案刑侦有非常大的帮助。这是在智能安防的具象应用场景。
在这里插入图片描述
第三个,智能寻人系统。

比如大型公共场所,像迪斯尼乐园,爸爸妈妈带着小朋友去玩,小朋友在玩的过程中不小心与爸爸妈妈走散了,现在走散时是在广播里播一下“某某小朋友,你爸爸妈妈在找你”,但小朋友也不是非常懂,父母非常着急。

这时可以用 ReID 技术,爸爸妈妈提供一张小朋友拍的照片,因为游乐园里肯定拍了小朋友拍的照片,比如今天穿得什么衣服、背得什么包,把这个照片输入到 ReID 系统里,实时的在所有监控摄像头寻找这个小朋友的照片,ReID 有这个技术能力,它可以很快的找到跟爸爸妈妈提供的照片最相似的人,相信对立马找到这个小朋友有非常大的帮助。

这种大型公共场所还有更多,比如超市、火车站、展览馆,人流密度比较大的公共场所。智能寻人系统也是比较具象的 ReID 应用场景。

在这里插入图片描述
第四个,智能商业-大型商场。

想通过了解用户在商场里的行为轨迹,通过行为轨迹了解用户的兴趣,以便优化用户体验。ReID 可以根据行人外观的照片,实时动态跟踪用户轨迹,把轨迹转化成管理员能够理解的信息,以帮助大家去优化商业体验。

这个过程中会涉及到用户隐私之类的,但从 ReID 的角度来讲,我们比较提倡数据源来自于哪个商场,那就应用到哪个商场。因为 ReID 的数据很复杂,数据的迁移能力是比较弱的,这个上场的数据不见得在另外一个商场里能用,所以我们提倡 ReID 的数据应用在本商场。

在这里插入图片描述
第五个,智能商业-无人超市。

无人超市也有类似的需求,无人超市不只是体验优化,它还要了解用户的购物行为,因为如果只基于人脸来做,很多时候是拍不到客户的正面,ReID 这个技术在无人超市的场景下有非常大的应用帮助。
在这里插入图片描述
第六个,相册聚类。

现在拍照时,可以把相同人的照片聚在一起,方便大家去管理,这也是一个具象的应用场景。

在这里插入图片描述
第七个,家庭机器人。

家庭机器人通过衣着或者姿态去认知主人,做一些智能跟随等动作,因为家庭机器人很难实时看到主人的人脸,用人脸识别的技术去做跟踪的话,我觉得还是有一些局限性的。但是整个人体的照片比较容易获得,比如家里有一个小的机器人,它能够看到主人的照片,无论是上半年还是下半年,ReID 可以基于背影或者局部服饰去识别。
在这里插入图片描述

3.相关数据集介绍及评价指标

3.1 公开数据简介

由于CNN网络的训练依赖大量训练数据,所以行人重识别研究从传统的手工特征(Hand-craftedfeature)方法发展为如今深度学习自提特征的方法,离不开大规模数据集的发展.近年来,涌现出了越来越多的大规模行人重识别数据集,数据集特点也各自不同,这也反映了该领域蓬勃的发展趋势和巨大的现实需求.

目前常用于深度学习方法的行人重识别数据集有:

  1. VIPeR[10]数据集是早期的一个小型行人重识别数据集,图像来自2个摄像头.该数据集总共包含632个行人的1 264张图片,每个行人有两张不同摄像头拍摄的图片.数据集随机分为相等的两部分,一部分作为训练集,一部分作为测试集.由于采集时间较早,该数据集的图像分辨率非常低,所以识别难度较大.
  2. PRID2011[11]是2011年提出的一个数据集,图像来自于2个不同的摄像头.该数据集总共包含934个行人的24 541张行人图片,所有的检测框都是人工手动提取.图像大小的分辨率统一为128×64的分辨率.
  3. CUHK03[12]在香港中文大学采集,图像来自2个不同的摄像头.该数据集提供机器自动检测和手动检测两个数据集.其中检测数据集包含一些检测误差,更接近实际情况.数据集总共包括1 467个行人的14 097张图片,平均每个人有9.6张训练数据.
  4. Market1501[13]是在清华大学校园中采集,图像来自6个不同的摄像头,其中有一个摄像头为低分辨率.同时该数据集提供训练集和测试集.训练集包含12 936张图像,测试集包含19 732张图像.图像由检测器自动检测并切割,所以包含一些检测误差(接近实际使用情况).训练数据中一共有751人,测试集中有750人.所以在训练集中,平均每类(每个人)有17.2张训练数据.
  5. CUHK-SYSU[14]是香港中文大学和中山大学一起收集的数据集.该数据集的特点是提供整个完整的图片,而不像其他大部分数据集一样只提供自动或者手动提取边框(bounding box)的行人图片,图片来源于电影和电视.该数据集总共包括18 184张完整图片,内含8 432个行人的99 809张行人图片.其中训练集有11 206张完整图片,包含5 532个行人.测试集有6 978张完整图片,包含2 900个行人.
  6. MARS[15]数据集是Market1501的扩展.该数据集的图像由检测器自动切割,包含了行人图像的整个跟踪序列(tracklet). MARS总共提供1 261个行人的20 715个图像序列,和Market1501一样来自同样的6个摄像头.和其他单帧图像数据集不一样的地方是, MARS是提供序列信息的大规模行人重识别数据集.特别注意的是, MARS和Market1501的训练集和测试集存在重叠,因此不能够混在一起训练网络.
  7. DukeMTMC-reID[16]在杜克大学内采集,图像来自8个不同摄像头,行人图像的边框由人工标注完成.该数据集提供训练集和测试集.训练集包含16 522张图像,测试集包含17 661张图像.训练数据中一共有702人,平均每个人有23.5张训练数据.该数据集是ICCV2017会议之前最大的行人重识别数据集,并且提供了行人属性(性别/长短袖/是否背包等)的标注.
    在这里插入图片描述
    除了以上几个已经开源的常用数据集以外,目前还有几个比较新的数据集,其中比较典型的有: 1)中山大学采集的红外ReID数据集SYSU-MM01[17],可以实现夜间的行人重识别. 2)北航大学等采集的LPW数据集[18],包含2 731个行人的7 694个轨迹序列,总共有56万多张图片,该数据集的特点是有多个独立的场景,每个场景都可以作为一个独立的数据集,训练集和测试集按照场景分开,因此更加接近真实使用情况. 3)北京大学采集的MSMT17数据集[19],包含室内室外15个相机的12万多张行人图片,有4千多个行人ID,是目前最大的单帧ReID数据集. 4)北京大学和微软研究院联合采集的LVreID数据集[20],包含室内室外15个相机的3千多个行人ID的序列图片,总共14 943个序列的3百多万张图片,尚未开放下载链接.

以上数据集的细节可以在表1中查阅,其中大部分数据集使用Deformable Part-basedModel(DPM)或者手动标注的方法[21]检测行人,两个还未开放下载的同源数据集MSMT17和LVreID使用了最新的Faster RCNN检测器[22], MARS在提取序列的时候还辅助了Generalized MaximumMulti Clique problem (GMMCP)跟踪器[23].几乎目前主流的数据集都使用累计匹配(CumulativeMatch Characteristics, CMC)曲线和平均准确度(Mean Average Precision, mAP)准确度评估.由于ReID的数据集数目繁多,本文也只能列举一些比较常用的典型数据集,更多数据集的信息可以查阅文献[24].

3.2 评价指标

Alt

4.行人重识别重难点

图2展示了一些行人重识别数据集的图片,从图中可以看出,行人重识别是一个非常有挑战性的问题.其中最主要的难点主要有:不同行人之间的外观可能高度相似,而相同的行人在不同的时空下姿态也可能不同,行人主体遭遇遮挡以及不同相机拍摄的光线条件差异等.这些难点也使得行人重识别和一般的图像检索问题有所不同,目前深度学习的方法除了扩大训练数据和改善网络结构以外,也会针对于这些难点设计专用于ReID任务的算法.

Alt
行人重识别虽然近几年取得了高速的发展,然而目前依然面临着许多挑战.目前学术界已存的数据集是清理之后的高质量图像,然而在真实场景下行人重识别会遇到跨视角造成的姿态多变、分辨率变化、行人遮挡以及图像域变化等问题.这些问题逐渐受到学者的重视,本小节将会简单介绍一些克服这些挑战的代表性.

1)跨视角造成的姿态多变问题:由于不同摄像头架设的角度、位置不一,拍摄图片中的行人姿态也十分多变.目前已经有不少代表性的工作从不同角度上来解决这个问题,而这些方法主要是依靠一个预训练的姿态模型来实现姿态的对齐.除了3.3小节中介绍的GLAD和SpindleNet等工作以外, CVPR2018提出的姿态敏感嵌入方法(Pose-Sensitive Embedding, PSE)[71].如图12所示, PSE利用一个预训练的姿态模型估计行人的姿态点,然后将姿态点信息输入到网络,网络的视角分支会估计行人的朝向及其概率.另一方面, PSE的特征分支分别得到前向、背向和侧向三个视角的特征图,之后与估计的视角概率加权得到最终的全局特征.通过使用对齐后的全局特征,可以更好地处理视角多变的行人图片.

2)行人图片分辨率变化:由于摄像头中目标拍摄距离不一致,拍摄的行人图片分辨率也不一样.目前专门解决这个问题的方法较少,论文[72]提出了一个新的图像超分辨和行人身份识别联合学习(Super-resolution and identity joint learning,SING)的方法.如图13所示, SING通过联合学习图片的超分辨率和行人重识别的问题,既能够提升低分辨率图片的分辨率,又能提高低分辨率图片行人重识别任务的准确度.为了得到低分辨率的图片,SING先用高分辨率图片降采样得到一批低分辨率图片.之后,网络优化联合学习图像超分辨的重构损失和行人身份识别损失函数.低分辨率图片经过网络高分辨率处理后再进行特征提取,而正常分辨率图像则是直接进行特征提取.由于不同分辨率的图片经过不同的方式提取特征,因此SING网络能够较好的应对分辨率变化的问题.

3)行人图片遮挡问题:目前学术界的行人重识别数据集大多数清洗过的高质量图像.然而在真实的使用场景,行人经常会被移动目标或者静态物体所遮挡,造成行人图片的不完整.由于失去了部分行人特征而引入了很多干扰特征,使得很多基于全局特征的行人重识别算法效果大大下降.为了解决这个问题,一个思路是利用行人姿态模型来估计行人图像的可视部分,然后对可视部分进行局部特征提取、融合[18].而CVPR2018的论文[73]提出深度空间特征重建方法(Deep Spatial feature Reconstruc-tion, DSR)来进行不完整图片和完整图片的匹配.如图14所示, DSR利用一个训练好的ReID网络对图片进行特征提取,并且不对原图进行尺度变换的操作.不同尺寸的图片经过网络后得到不同尺寸大小的特征图,而两个不同尺寸的特征图并不能直接地进行相似度计算.为了解决这个问题, DSR利用空间特征重建(Spatial Feature Reconstruction)的方法计算出两幅特征图之间的稀疏表达系数.完整图片的特征图经过乘以稀疏表达系数便可以与不完整图片的特征图进行欧氏距离的度量.从而实现不同尺寸图片的特征图相似度的计算.

4)图像域变化的跨模态重识别.图像域的变化是行人重识别应用上非常普遍的一个挑战.图像域变化的类型也多种多样,例如不同相机、不同天气、不同时间、不同城市拍摄的图像风格均可能不同.此外,夜晚RGB相机也会失效,使用红外相机拍摄的图片没有颜色信息,因此RGB图片与红外图片的行人重识别也是个典型的跨模态问题.目前基于GAN网络生成图像来解决图像域偏差是一个很流行的思路,例如前文介绍的CamStyle解决不同相机的图像域问题, PTGAN解决不同城市的图像域问题.而RGB与红外图片域的跨模态重识别问题逐渐开始受到关注, ICCV17接受的一篇论文[17]提出了深度零填充模型(Deep zero padding model)首次利用深度网络来解决这一问题.如图15所示,该方法的核心思想是在网络输入图片的时候,对于不同域的图片在不同的通道上用零填充.零填充通道记录了图像来源于哪个图像域的信息,促使深度网络根据图像域来自适应提取不同的特征,从而实现更好的跨模态行人重识别.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、行人重识别研究方法综述

本小节总结概述基于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值