【最新视频行人重识别综述】Deep Learning for Video-based Person Re-Identification: A Survey

最新推荐文章于 2025-03-04 10:06:43 发布

得逞

最新推荐文章于 2025-03-04 10:06:43 发布

阅读量2.1k

点赞数 10

分类专栏：行人重识别文章标签：音视频深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_44606353/article/details/136536625

版权

行人重识别专栏收录该内容

3 篇文章

订阅专栏

论文： https://arxiv.org/abs/2303.11332

引言

视频重识别流行的主要原因是为公共安全提供广泛的服务，如跟踪每个具有唯一ID的人，预防犯罪，行为分析，法医调查等。在智能视频监控应用中，视频重识别被定义为从大量图库图像中通过各种不重叠的摄像机识别单个人。
视频重识别算法的核心和重要任务是从视频序列中获取时间特征。与基于图像的信息相比，视频自然包含了比单个图像更多的信息。现有的方法大多强调提取视频中存在的时空特征，然后对得到的特征进行re-ID算法。
先前的一些研究直接使用处理图像的re-ID方法，并进行了一些扩展，并应用于视频。这些方法利用循环神经网络、特征聚合函数和不同的池化操作从每张图像中独立提取时空信息，以获得帧级信息(例如外观)表示。上述这些技术在需要帧级特征时以同等重要的方式查看不同的视频帧。
几种流行的方法如图1所示。
在这里插入图片描述

本文贡献

与最近现有的调查相比，这是第一篇广泛涵盖用于视频重识别的深度学习方法，而不是所有类型的person re-ID的综述论文。
我们从多个方面全面介绍了视频重识别的深度学习技术，包括全局外观方法、局部部分对齐方法、注意方法、图方法和transformer方法。
这篇调查论文广泛地涵盖了架构设计，新颖的损失函数，现有的工作，以及视频重识别的深度学习的快速发展。
对基准数据集上的结果进行了广泛的比较。讨论了视频重识别的发展和影响视频重识别系统的挑战，并对其进行了简要的回顾和未来的讨论。

视频重识别方法

本节讨论视频重新识别的特征表示学习方法。我们将其分为五个主要类别：a) 全局外观方法 b）局部部分对齐方法 c）注意力方法 d）图方法和 e) transformer方法。

全局外观方法

这类方法从一个人的图像中提取一个单一的特征向量，没有任何补充信息。由于行人重新识别最初应用于人检索问题，以往的研究将现有的深度学习方法纳入视频重新识别领域时，往往忽略了全局特征的学习。作为一项开创性工作，Niall et al.(2016)引入了第一个基于池化和递归机制的Recurrent Deep Neural Network(RDNN)架构，将所有时间步数据组合成一个单一的特征向量。
为了比较不同的时间建模方法，Gao和Nevatia(2018)通过triplet和softmax交叉熵损失训练的固定基线架构，全面研究了3D ConvNET、RNN、时间池化和时间注意力。Fu等人(2019)通过引入时空注意力(STA)方法解决了大规模视频重识别问题。与使用平均池提取直接帧级线索不同，使用2D时空映射来测量剪辑级特征表示，而不需要任何额外的线索。通常，从单个帧中提取的特征包含大量的噪声、照明、遮挡和不同的姿势。这导致辨别信息的丢失(例如，外观和运动)。Refining Recurrent Unit(RRU) Liu等人(2019b)在前一帧的运动上下文和外观的帮助下恢复了缺失的部分。
另一个流行的解决方案是使用遮挡区域显式处理对齐问题损坏。Li等人(2018)采用了一种独特的多样性正则化表达式，在Hellinger距离上制定，以验证没有发现相似身体部位的SA模型。Zhao等人(2019)提出了一种基于属性的特征重加权框架和解纠缠技术。单帧特征分为不同类别的子特征，每个类别定义了一个特定的语义属性。双流网络Song等人(2019)联合处理详细和整体特征利用注意方法提取全局级别的特征。另一个网络从视频中捕获局部特征，并通过结合这两个特征来增强判别性时空特征。
与Zhang等人不同，（2020b）全局引导交互学习（GRL）框架Liu等人（2021d）提取图像序列中的细粒度信息。基于局部和全局特征，全局引导相关性估计（GCE）模块生成特征相关性图，定位低相关性和高相关性区域以识别相似的人。此外，为了处理多个记忆单元并增强时间特征，构建了时间交互学习（TRL）来收集特定的线索。Li et al.（2021）通过考虑帧间关系，联合调查全局和局部区域对齐，从而改善全局外观。

局部部分对齐方法

这些方法提取局部部分/区域，有效地防止与轨迹中的其他帧不对齐。从持久的身体结构和外观上不一致的身体部位的组合来看，它们彼此都是新的。目标是根据视觉相似性来区分个人图像。
为了保留结构关系细节， Bao等人(2019)提出了结构关系学习(SRL)以细化和有效的方式提取结构关系。SRL有助于卷积特征使区域与GCN之间的关系变得有用。GCN允许学习隐藏层的特征表示，隐藏层编码图的节点特征和局部结构信息。另一个流行的解决方案是时空补全网络(STCnet) Hou等人(2019)，该方法通过恢复被遮挡部分的外观来明确地处理部分遮挡。基于区域的质量评估网络(RQEN)：Song等人(2018b)设计了具有梯度的端到端训练技术并且学习了每个人图像的局部质量，并在序列中聚集互补的视频帧的局部细节。
与以前的方法不同，他们在网络训练中使用擦除技术来惩罚正则化的项，以防止过拟合。Hou等人(2020)在训练和测试期间使用擦除策略从视频帧中捕获互补亲和力。该方法基于前一帧的激活部分，擦除每一帧的区域，确保帧集中在一个新的人体部分。为了提取细粒度线索，Zhang等人(2020b)提出了Multi-Granularity Reference aided attention Feature Aggregation (MG-RAFA)来联合处理时空特征。从全局角度考虑每个节点/位置的语义层次结构。对于每个特征的位置，参考提供全局结构和外观信息的特征节点，利用局部亲和度来支持对局部特征的不同权重。Li等人(2021)考虑了视频帧视觉相似度的整体特征，同时关注允许恢复不对齐部分的质量。

注意力方法

这些方法通常在训练和预测中忽略不同的像素，使用相似的像素来构建计算友好的网络。
Song等人(2018a)介绍了一种掩码引导网络，其中使用二进制掩码与相应的人物图像共存，以减少背景杂波。与之前的工作类似，Subramaniam等人(2019)通过在CNN网络的不同层之间集成Cosegmentation-based Attention(COSAM) 块，Subramaniam等人(2021)，CO-Segmentation方法在不同基线上的视频重识别方面表现出了显著的改进。这些协同分割方法能够提取人物图像之间的独特特征，并将其用于通道和空间上的注意力。在视频重新识别的另一项工作中，Chen等人(2019a)学习时空特征并计算注意力得分图，以指定一个人的不同组成部分的质量。
在实际应用中，人体的运动模式是重新识别的主要部分。流引导-注意力网络Kiran等人(2021)设计用于使用CNN特征提取器融合图像和光流序列，该特征提取器允许在空间外观信息之间编码时间数据。导流注意依靠光流与特征之间的联合SA来提取特征间的独特特征。此外，针对较长的输入流，提出了一种聚合特征的方法，以改进视频序列的表示。
一些研究集中在多粒度和多注意力的方法，集中在人体的重要部位。Hu等(2020)介绍了集中多粒度多注意力网络(CMMANet)，提出了多注意力块通过处理中间多尺度特征来获得多粒度细节。此外，多注意块中的多注意子模块可以自动发现帧序列中的多个判别区域。与多分支网络相关，Hou等人(2021)提出了一种不同于现有框架的创新且计算友好的视频重新id网络。双边互补网络(BiCnet)保留了原始图像的空间特征，并采用下采样方法拓宽了接受域，时间核选择(TKS)模块捕获了视频的时间关系。与以往的研究不同，Chen等人(2020a)引入了一个端到端的3D框架来捕捉行人在时空领域的显著特征。在该框架中，利用双流网络和RNN模型选择突出的三维箱子，提取运动和外观信息。

图方法

CNN模型Krizhevsky等人(2012)在图像理解和重建方面取得了显著的成功之后，学术界和工业界的研究人员开始专注于开发用于图数据的卷积方法。最近，研究人员将重新id方法与图模型结合起来，并探索了Video重新id Yan等人(2016)。Cheng等人(2018)开发了一个训练网络，通过联合拉普拉斯形式联合处理传统的三元组和对比损失，可以充分利用排序数据和训练样本之间的关系。在Shen等人(2018)中，提出了一种新的无监督算法，该算法映射了人重新id方法中的排名机制。然后，将公式过程进行了扩展，使其能够利用多种算法的排序结果。只有匹配不同算法产生的分数才能产生一致的结果。人物重新识别任务的关键是有效地计算人物图像之间的视觉相似性。目前的人员重新识别方法通常分别计算不同图像对(被调查)和候选列表的相似度，而忽略了各种查询-候选对之间的关联知识。
为了解决上述问题，相似导向图神经网络(SGGNN) Chen等人(2018b)提出生成一个图来说明查询和候选对(节点)之间的成对关联，并利用这些关联以端到端方式提供从图像中提取的最新的查询候选相关特征。大多数重新识别方法强调局部特征的相似性匹配。Chen等人(2018b)结合多人图像来估计其条件随机场(CRF)中局部关系和全局关系之间的关联。该模型的好处是可以从图像对中学习局部相似性度量，同时考虑集合中所有图像的依赖关系，形成组相似性。Yan等人(2019)在人员重新识别和使用上下文细节方面投入了更多精力。他们首先开发了一个上下文模块，称为实例扩展部分，侧重于在场景中寻找和净化有益的上下文细节。Wu等人(2020)对视频重新识别的创新工作之一是基于图的自适应表示。现有的研究忽略了基于部分的特征，它包含时间和空间信息。该方法允许上下文信息与相关区域特征(如特征亲和性)之间的关联，并提出对齐连接，从而提出一种自适应结构感知的传染性图。Liu等人(2021b)提出相关性和拓扑学习(CTL)方法，生成鲁棒和可区分的特征。它在多粒度级别上捕获特征，并克服了造成的外观问题。
近年来，超gnn备受关注，并在各个计算机视觉研究领域取得了主导成果，如person re-ID Shen等人(2018)，动作识别Wang和Gupta(2018)，图像识别Chen等人(2019b)。这些超图算法在对象兴趣的基础上发展成对关系。一般来说，超图是一种边独立工作并且可以连接任意数量的顶点的图。图2 (b)所示超图的说明反过来，如图2 (a)所示，在一个简单图中，一条边与两个顶点恰好相连。在MG超图中，如图2 (d)所示，利用整个视频帧中身体部位等多个阶段的特征构建了具有不同空间粒度的超图。在每个超图阶段，新的时间粒度由连接图中一种类型的节点的超边所采取，例如围绕单独的时间尺度的身体部分特征。第一个多颗粒超图(MGH) Yan等人(2020)提出了超图和创新的互信息损失函数来克服图像检索问题。MGH方法显然支持来自帧序列的多颗粒ST信息。然后，他们提出了一个注意过程，以结合节点级上的特征来获得更好的鉴别图表示。值得注意的是，所提出的方法达到了90%的rank-1精度，这是MARS数据集上的最高精度之一。图匹配中的标签估计与无监督学习中的人再识别问题密切相关。Ye等人(2019)提出了一种无监督动态图匹配(DGM)视频重新id方法来预测标签。这种技术通过使用一个鉴别度量和相应更新的标签来迭代更新过程。

Transformer方法

近年来，变压器在计算机视觉领域表现出极大的兴趣，并提出了基于自注意的方法来解决视觉问题。受近期发展的启发，Zhang等人(2021b)提出了第一步，提出了第一个时空转换器(STT)，并综合了预训练数据策略来减少视频重新id任务的过拟合。在他们的网络中，全局模块使补充能够利用帧中的补丁之间的关系。为了从视频中提取综合特征，Liu等人(2021c)进一步探索了变压器，并引入了三叉变压器(TMT)，该变压器具有鲁棒的新型特征提取器，可将原始视频联合转换为S、T和ST域。为了获取细粒度特征并聚合到多视图特征中，提出了自视图转换器增强单视图特征，并使用跨视图转换器组合多个特征。郑等人(2021)设计了一种双工时空滤波网络(DSFN)架构，从帧序列中提取静态和动态数据，用于视频重新id。为了提高核的性能，提出了稀疏正交约束来扩大时间特征的差异。为了与一组内核协作，他们添加了额外的通道来协助并从不同的特征中提取ST线索。He等人(2021)提出了一种混合密集交互学习(DenseIL)框架，该框架利用CNN和注意力机制进行视频重新id。DenseIL由一个基于cnn的编码器和一个基于di的解码器组成，前者负责提取有效的鉴别空间特征，而另一个解码器则密集地模拟帧间的ST固有相互作用。

新颖的架构

与现有的体系结构不同，Jiang等人(2021)提出了一种新的设计来处理视频re-ID中的错位问题。自分离网络 (SSN) 提供了一种有效的方法来处理一个人的身体部位的时间和空间变化。SSN 推导出两轮分类方法，从而更好地在像素和聚合特征上进行训练。改进的粗到细轴向注意网络(CFAAN) Liu等人(2021a)是在Link和re-Detect块的帮助下设计的，可以在图像级别上对齐噪声轨迹列表。该模块不仅降低了计算成本，而且取得了可喜的结果。各种视频重新识别方法仍然受到姿势变化和个人错位问题的影响。为了处理错位，张等人。（2021a）提出了参考辅助部分对齐（RAPA），它专注于身体的不同部分并解开判别特征。提供了基于参考特征学习 (RFL) 姿势的模块来捕获一致的对齐标准。在视频内、关系和基于注意力的部分特征解缠(PFD)块中对齐身体部位，旨在通过帧定位和匹配身体部位。
大多数的视频重新识别方法都集中在图像的重要区域，因此，这些方法很容易丢失精细识别图像序列中的粒度提示。与以往的研究不同，本文引入了新的GRL Liu等人(2021d)框架以及互反学习和相关估计。GCE模块创建局部和全局特征的特征图，帮助定位低区域和高区域，以识别相似的人。在此基础上，提出了一种新的TRL方法来改进高相关性语义信息。Gu等人(2020)提出了外观保留3D卷积(AP3D)和外观保留模块(APM)，它们在像素级对齐邻域特征图。三维ConvNets在保持视觉外观质量的基础上对时间信息进行建模。通过将先前的3D-Conv过滤器替换为AP3Ds，可以更容易地将AP3D与当前的3DConNet聚合。在视频再识别中，个人属性和视觉外观是匹配身份的关键，这两个特征都对行人的跟踪有重要作用。Liu et al.(2020)提出通过在SA和时间语义上下文的帮助下构建分支网络来关注属性-时间学习。

损失函数

损失函数在区分学习到的特征方面起着重要作用。一般来说，softmax 损失将学习到的特征分开，而不是区分。设计一个行人重新识别损失函数的主要目标是通过效率损失来增强表示。我们强调了视频重新识别的几个最有影响力的损失函数。

Attention and CL Loss

Weighted Triple-Sequence Loss (WTSL)

Symbolic Triplet Loss (STL)

Weighted Contrastive Loss (WCL)

Triplet Loss

Regressive Pairwise Loss (RPL)

数据集和指标

我们首先描述了用于评估视频重新识别方法的基准数据集的统计数据。其次，我们按时间顺序广泛回顾了以前优越的方法的性能。最后，我们根据视频重新识别的几个主要因素分析结果。

训练和测试数据集

因为视频重新识别是一个现实世界的问题，更接近于视频监控场景。在过去的几年里，已经为视频重新识别构建了各种高要求的数据集:MARS Zheng等人(2016a)， DukeMTMC-VID Wu等人(2018)和iLIDS-VIDWang等人(2014)，这三个数据集通常用于训练和评估，因为有大量的轨迹和行人身份。