Pedestrian attribute recognition: A survey

最新推荐文章于 2022-07-19 15:51:02 发布

阿拉小伟子

最新推荐文章于 2022-07-19 15:51:02 发布

阅读量1k

点赞数 2

文章标签：深度学习人工智能

原文链接：https://doi.org/10.1016/j.patcog.2021.108220

版权

Pedestrian attribute recognition: A survey

链接: link.
行人属性识别（PAR）是计算机视觉界的一项重要任务，在实际视频监控中发挥着重要作用。本文的目标是使用传统方法或基于深度学习网络来回顾现有作品。首先，我们介绍了行人属性识别的背景，包括行人属性的基本概念和表述以及相应的挑战。其次，我们从八个角度分析了该任务的流行解决方案。第三，我们讨论了具体的属性识别，然后，对深度学习和基于传统算法的 PAR 方法进行了比较。之后，我们展示了 PAR 与其他计算机视觉任务之间的联系。第四，我们介绍了该社区的基准数据集、评估指标，并进行了简要的性能比较。最后，我们对本文进行了总结，并给出了 PAR 的几个可能的研究方向。

1 引言

行人属性是人类可搜索的语义描述，可用作视觉监控中的软生物识别技术，可应用于人员重新识别、面部验证和人体识别。行人属性识别（PAR）旨在挖掘给定图像的目标人的属性。与低级特征（如 HOG、LBP 或深层特征）不同，属性可以被视为高级语义信息，它对视点变化和观看条件变化更具鲁棒性。因此，计算机视觉中的许多任务将属性信息集成到他们的算法中以实现更好的性能，例如行人检测、人员重新识别、动作识别和场景理解。尽管已经在这个主题上提出了许多工作，但是由于具有挑战性的因素，例如视点变化、低照度、低分辨率，PAR 仍然是一个未解决的问题。
传统的行人属性识别方法通常侧重于从手工制作的特征、强大的分类器或属性关系的角度开发鲁棒的特征表示。一些里程碑，包括 HOG、SIFT、SVM 或 CRF 模型。然而，关于大规模基准评估的报告表明，这些传统算法的性能远未达到实际应用的要求。在过去的几年里，深度学习在使用多层非线性变换进行自动特征提取方面取得了成功，特别是在计算机视觉、语音识别和自然语言处理方面取得了令人瞩目的成绩。基于这些突破，人们提出了许多基于深度学习的行人属性识别算法。
虽然已经提出了这么多算法，但到目前为止，还没有对这些属性识别算法进行详细调查、综合评价和深入分析的工作。在本文中，我们总结了行人属性识别的现有工作，包括传统方法和流行的基于深度学习的算法，以更好地理解这一方向并帮助其他研究人员快速捕捉主要管道以及最新研究前沿。具体来说，我们试图解决以下几个重要问题：1）传统和基于深度学习的行人属性识别算法之间的联系和区别是什么？我们从不同的分类规则中分析传统和基于深度学习的算法，例如基于部分、基于组或端到端的学习； 2）行人属性如何对其他相关的计算机视觉任务做出贡献？我们还回顾了一些人属性引导的计算机视觉任务，例如人重识别、人检测，以充分展示其在许多相关任务中的有效性和广泛应用；3）如何更好地利用深度网络进行行人属性识别，未来属性识别的发展方向是什么？通过分析现有的人物属性识别算法和一些排名靠前的基线方法，我们得出了一些有用的结论并提供了一些可能的研究方向。

2 问题表述和挑战因素

给定一个人图像 I，行人属性识别旨在从预定义的属性列表中预测一组属性 a i 来描述这个人的特征 A = { a 1 , a 2 , … . . ，一个L}。这个任务可以用不同的方式处理，比如多标签分类和二元分类。如图1所示，输入图像通常经过数据增强处理以获得更多的训练样本。然后，使用深度学习方法或手动设计的算法（如 HOG）提取处理图像的特征。使用特征表示及其标签，我们可以以有监督的方式为每个属性训练机器学习模型，例如分类器。在测试阶段，我们可以使用这个模型来预测每个属性的响应分数，如果它的分数大于给定的阈值，我们就假设这个输入图像有一个对应的属性。除了这种同时进行的属性预测之外，还有一些算法以循环的方式预测属性，即一个接一个地预测属性。
尽管基于深度学习模型已经取得了良好的性能，但是由于属性类别（外观多样性和外观歧义[2]）的类内差异较大，该任务仍然具有挑战性。我们列出了可能明显影响最终识别性能的具有挑战性的因素如下：1）。多视图。相机从不同角度拍摄的图像导致了许多计算机视觉任务的视点问题。由于人的身体不是刚性的，这进一步使人的属性识别更加复杂。 2）。遮挡。人体被其他人或物部分遮挡，增加了人属性识别的难度。因为被遮挡部分引入的像素值可能会使模型混淆并导致错误的预测。 3）。不平衡的属性分布。每个人都有不同的属性，因此属性的数量是可变的，导致数据分布不平衡。 4）。低分辨率。在实际场景中，由于高质量的相机相当昂贵，图像的分辨率相当低。 5）。照明。图像可以在 24 小时内的任何时间拍摄。因此，光照条件在不同时间是可变的。人像中也可能出现阴影，夜间拍摄的图像可能完全无效。 6).模糊。当人物移动时，相机拍摄的图像可能会模糊。在这种情况下识别属性也是一项非常具有挑战性的任务。

3 PAR 算法回顾

在本节中，我们将从以下八个方面回顾现有的行人属性识别算法：基于全局、基于局部、基于视觉注意力、基于序列预测、基于新设计的损失函数、基于课程学习、基于图形模型和其他算法。这些方法的简要总结见表 2 和表 3。
在这里插入图片描述

3.1 基于全局特征的模型

苏多维等人。 [3] 提出了使用卷积网络为每个属性学习的多分支分类层。他们采用预训练的 AlexNet 作为基本特征提取子网络，并使用 KL-loss（Kullback-Leibler divergence based loss function）将最后一个全连接层替换为每个属性一个损失。李等人。 [4]为PAR引入了深度神经网络，并试图解决传统方法中存在的以下两个问题：1）。手工制作的功能； 2）。忽略属性之间的相关性。本文提出了两种算法DeepSAR和DeepMAR。 DeepSAR 没有对人类属性之间的相关性进行建模，这可能是进一步提高整体识别性能的关键。因此，他们提出了 DeepMAR，它同时获取人类图像及其属性标签向量，并通过 sigmoid 交叉熵损失联合考虑所有属性。此外，他们还考虑了实际监视场景中标签分布的不平衡，并提出了一种改进的损失函数，该函数被广泛应用于许多后续的深度 PAR 工作中。阿卜杜勒纳比等人。 [5] 提出了一种使用 CNN 进行属性估计的联合多任务学习算法，命名为 MTCNN。 MTCNN 让 CNN 模型在不同的属性类别之间共享视觉知识。他们在 CNN 特征上采用多任务学习来估计相应的属性，并使用分解方法从总分类器权重矩阵中获得可共享的潜在任务矩阵和组合矩阵。因此，他们可以通过学习本地化的特征来实现群体之间灵活的全球共享和竞争。加速近端梯度下降算法用于优化。
许多作品采用 CNN-RNN 框架来利用组内互斥和组间相关性，但它们忽略了属性数据集背后的先验知识。 Kai Han [6] 提出通过挖掘属性共现先验来探索不同属性之间的相关性。具体来说，他们将来自不同预测的信息与属性感知池方法相结合。他们的模型遵循多分支架构，并收集上下文信息以提高最终识别性能。
总结：根据上述算法，我们可以发现这些算法都是以整幅图像为输入，对PAR进行多任务学习。他们都尝试使用特征共享、端到端训练或多任务学习来学习更强大的特征表示。这些模型的优点是简单、直观和高效，这对于实际应用非常重要。然而，由于缺乏对细粒度识别的考虑，这些模型的性能仍然有限。

3.2 基于局部特征的模型

众所周知，如果我们可以从同一视点隔离对应于同一身体部位的图像块，我们可以更简单地训练属性分类器。然而，直接使用的物体检测器由于其能力有限，对于2011年之前的身体部位定位是不可靠的。布尔德夫等人。 [7] 采用poselet 将图像分解为一组部分，每个部分捕获对应于给定视点和局部姿势的显着模式。这提供了一个强大的人的分布式表示，可以从中推断出属性，而无需明确定位不同的身体部位。具体来说，他们首先检测给定图像上的poselets并获得它们的特征表示。然后，他们训练多个 SVM 分类器，分别用于poselet 级、人物级、上下文级属性分类。
RAD ∗(ICCV-2013, [8] ) 从外观方差的角度提出了一种零件学习算法，而以前的工作侧重于处理需要手动零件注释的几何变化，例如poselet [7]。他们首先将图像点阵划分为多个重叠的子区域（命名为 window ）。定义大小为 W ×Hi 的网格和网格上包含一个或多个网格单元格的任何矩形形成一个窗口。所提出的方法在部分窗口的形状、大小和位置方面更加灵活，而以前的工作（如空间金字塔匹配结构，SPM [9]）将区域递归划分为四个象限，并使所有子区域都是正方形不会在同一水平上相互重叠。通过所有这些窗口，他们学习了一组与该特定窗口在空间上相关联的部分检测器。对于每个窗口，所有相应的图像块都是从训练图像中裁剪出来的，并由 HOG 和颜色直方图特征描述符表示。然后，基于提取的特征进行 K-means 聚类。每个获得的集群表示零件的特定外观类型。他们还通过逻辑回归为每个集群训练了一个局部检测器作为初始检测器，并通过再次将其应用于整个集合并更新最佳位置和规模来迭代优化它以处理嘈杂的集群问题。在多尺度重叠窗口学习零件后，它们遵循基于 Poselet 的方法 [7] 中提出的属性分类方法。具体来说，他们将来自这些局部分类器的分数与部分检测分数给出的权重进行聚合，以进行最终预测。
PANDA (CVPR-2014, [10] ) 发现与某些属性相关的信号是微妙的，并且图像主要受姿势和视点的影响。对于佩戴眼镜的属性，在整个人的尺度上信号较弱，并且外观随着头部姿势、框架设计和头发的遮挡而显着变化。他们认为准确预测底层属性的关键在于定位对象部分并建立它们与模型部分的对应关系。他们建议联合使用全局图像和局部补丁进行人物属性识别。他们首先检测poselets，然后采用CNN提取局部补丁和整个人类图像的特征表示。他们直接将组合的局部和全局特征输入到线性分类器中，该分类器是用于多属性估计的 SVM（支持向量机）。
引入 AAWP (ICCV-2015, [11]) 来验证部件是否可以在动作和属性识别方面带来改进。 CNN 特征是在一组边界框上计算的，这些边界框与要分类的实例相关联，即整个实例、提供的 oracle 或人员检测器和提供的类似poselet 的部分检测器。对于零件检测器模块，他们通过遵循对象检测算法 RCNN [12] 来设计他们的网络。给定图像和检测到的部分，他们使用 CNN 获得 fc7 特征并将它们连接成一个特征向量作为其最终表示。因此，可以使用预训练的线性 SVM 分类器来估计动作或属性类别。这项工作以更广泛的方式进一步扩展和验证了零件的有效性和必要性。
MLCNN (ICB-2015, [13] ) 提出了一种多标签卷积神经网络，可以在统一框架中一起预测多个属性。他们将整个图像分成 15 个重叠的块，并使用卷积网络来提取其深层特征。它们采用相应的局部部件进行特定的属性分类。他们还使用预测的属性来帮助人员重新识别，他们的实验验证了属性在人类相关任务中的重要作用。 ALM（ICCV-2019，[14]）以分层方式预测属性，并将这些结果与简单的投票方案融合。更重要的是，他们为每个分支提出了一个基于空间变换器网络的弱监督属性定位模块（ALM）。 ALM 还包含一个用于特征增强的微小通道注意模块。他们的 PAR 网络是用深度监督机制训练的。
ARAP (BMVC2016, [15] ) 采用端到端的学习框架进行关节部位定位和多标签分类进行人物属性识别。它主要包含初始卷积特征提取层、关键点定位网络、每个部分的自适应边界框生成器以及每个部分的最终属性分类网络。他们的网络包含三个损失函数，即回归损失、纵横比损失和分类损失。具体来说，他们首先提取输入图像的特征图，然后进行关键点定位。给定关键点，他们将人体分为三个主要区域（包括硬、躯干和腿）并获得初始部分边界框。另一方面，他们也将之前 fc7 层的特征作为输入并估计边界框调整参数。给定这些边界框，他们采用双线性采样器来提取相应的局部特征。然后，将特征输入两个 fc 层进行多标签分类。
DeepCAMP (CVPR-2016, [16] ) 提出了一种新颖的 CNN，它挖掘中级图像块以进行细粒度的人类属性识别。具体来说，他们训练一个 CNN 来学习有区别的补丁组，称为 DeepPattern，然后，利用常规的上下文信息，并部署特征学习和补丁聚类的迭代来净化专用补丁集。本文的主要见解在于更好的嵌入有助于提高模式挖掘算法中聚类算法的质量。因此，他们提出了一种迭代算法，在每次迭代中，他们训练一个新的 CNN 来对前一次迭代中获得的集群标签进行分类，以帮助改进嵌入。另一方面，他们还将来自局部补丁和全局人类边界框的特征连接起来，以改进中级元素的集群。
PGDM（ICME-2018，[17]）是第一个尝试探索行人身体（即行人姿势）结构知识以进行人属性学习的工作。他们首先使用预训练的姿态估计模型估计给定人体图像的关键点。然后，他们根据这些关键点提取零件区域。局部区域和整个图像的深层特征都被独立提取并用于属性识别。然后将这两个分数融合在一起以实现最终的属性识别。属性识别算法包含两个主要模块：即主网（AlexNet）和PGDM。引入的 PGDM 模块是现有的姿态估计算法。他们直接训练一个回归网络，用从现有姿势估计模型中获得的粗略地面真实姿势信息来预测行人姿势。然后，他们使用空间变换器网络将关键点转换为信息区域，并使用独立的神经网络从每个关键点相关区域进行特征学习。他们共同优化了主网、PGDM 和姿态回归网络。
DHC (ECCV-2016, [18] ) 建议使用深层次的上下文来帮助人的属性识别，因为背景有时会提供比仅目标对象更多的信息。具体来说，在他们的网络架构中引入了以人为中心的上下文和场景上下文。他们首先构建输入图像金字塔并将它们全部通过 VGG-16 以获得多尺度特征图。他们提取四组边界框区域的特征，即整个人、目标对象的检测部分、图像金字塔和全局图像场景中的最近邻部分。前两个分支（整个人和部分）是人属性识别算法的常规管道。本文的主要贡献在于后两个分支，即以人为中心和场景级上下文有助于提高识别结果。一旦获得这四个分支的分数，他们将所有分数相加作为最终的属性分数。由于使用上下文信息，该神经网络比常规行人属性识别任务需要更多的外部训练数据。例如，他们需要检测人体部位（头部、上身和下身区域）并识别给定图像的风格/场景。他们提出了一个名为 WIDER 的新数据集，以更好地验证他们的想法。虽然通过这个管道可以显着提高人体属性识别结果，但是，这个模型看起来比其他算法要复杂一些。
LGNet (BMVC-2018, [19] ) 提出了一种定位指南网络 (LGNet)，可以定位不同属性对应的区域。它还遵循本地-全球框架。具体来说，他们采用 Inception-v2 作为特征提取的基本 CNN 模型。对于全局分支，他们采用全局平均池化层（GAP）来获取其全局特征。然后，利用 fc 层输出其属性预测。对于局部分支，他们使用 1×1 卷积层为每个图像生成 cclass 激活图。然后，他们通过裁剪相应激活图的高响应区域来为每个属性捕获一个激活框。他们还使用 EdgeBoxes 生成区域建议以从输入图像中获取局部特征。此外，他们还考虑了提取的建议的不同贡献和不同的属性应该关注不同的局部特征。因此，他们使用每个属性的类活动图作为指南来确定局部特征对不同属性的重要性。最后，全局特征和参与局部特征通过 PAR 的元素求和融合在一起。
总结：根据本小节的综述论文，很直观地发现这些算法都采用了全局和细粒度的局部特征。身体部位的定位是通过外部部位定位模块实现的，例如部位检测、姿态估计、poselets 或建议生成算法。零件信息的使用显着提高了整体识别性能。同时，它也带来了一些不足：首先，作为中间阶段的操作，最终的识别性能很大程度上依赖于零件定位的准确性。换句话说，不准确的零件检测结果会给最终分类带来错误的特征。其次，由于人体部位的引入，它也需要更多的训练或推理时间。第三，一些算法需要人工标注零件位置的标签，这进一步增加了人力和金钱的成本。

3.3 基于注意力机制的模型

引入 HydraPlus-Net (ICCV-2017, [20]) 以使用多向注意力 (MDA) 模块对来自多个级别的多尺度特征进行编码，以进行行人分析。它包含两个主要模块，即作为常规 CNN 的主网络 (M-net) 和注意力特征网络 (AF-net)，其中包括应用于不同语义特征级别的多向注意力模块的多个分支。 AF-net 和 M-net 共享相同的基本卷积架构，它们的输出通过全局平均池化和 fc 层连接和融合。输出层可以是用于属性识别的属性 logits 或用于人员重新识别的特征向量。换句话说，它可以分别用于最小化PAR和人员重新识别的交叉熵损失和softmax损失。 VeSPA (arXiv-2017, [21] ) 将视图线索考虑在内，以更好地估计相应的属性。因为作者发现暗示属性的视觉线索可以强烈本地化。此外，头发、背包、短裤等人物属性的推断高度依赖于行人的获取视图。图像被输入到 Inceptions 网络中，并且可以获得它的特征表示。引入了特定于视图的单元来将特征图映射到粗略的属性预测中。然后，使用视图预测器来估计视图权重。注意权重用于乘以特定视图的预测并获得最终的多类属性预测。视图分类器和属性预测器使用单独的损失函数进行训练。整个网络是一个统一的框架，可以进行端到端的训练。
DIAA（ECCV-2018，[22]）可以看作是一种用于人物属性识别的集成方法。他们的模型包含多尺度视觉注意力和深度不平衡分类的加权焦点损失。对于多尺度视觉注意力，作者采用了来自不同层的特征图。他们提出了加权焦点损失函数来衡量预测的属性向量和地面实况之间的差异。此外，他们还建议以弱监督的方式学习注意力图（只有属性标签，没有特定的边界框注释），通过引导网络将其资源集中到那些包含相关信息的空间部分来提高分类性能。输入图像。注意子网络将特征图作为输入并输出一个注意掩码。然后将输出馈送到注意力分类器以估计行人属性。
CAM (PRL-2017, [23] ) 提出使用和细化注意力图来提高 PAR 的性能。他们的模型包含两个主要模块，即多标签分类子网络和注意力图细化模块。采用的 CAM 网络也遵循特定类别的框架，换句话说，不同的属性分类器对 fc 层具有不同的参数。他们使用 fc 层中的参数作为权重来线性组合来自最后一个卷积层的特征图以获得每个类别的注意力。然而，由于低分辨率、过度拟合的训练，这种注意力机制的幼稚实现无法始终专注于正确的区域。为了解决这个问题，他们探索通过调整 CAM 网络来优化注意力图。他们根据注意力图的浓度来衡量注意力图的适当性，并试图使注意力图突出显示较小但集中的区域。具体来说，他们引入了一个加权平均层来首先获得注意力图。然后，他们使用平均池化对其分辨率进行下采样，以捕获所有潜在相关区域的重要性。之后，他们还采用 softmax 层将注意力图转换为概率图。最后，可以通过全局平均池化层获得最大概率。在最大概率的基础上，作者提出了指数损失函数来衡量注意力热图的适当性。对于网络的训练，作者首先仅通过最小化分类损失来预训练CAM网络；然后，他们采用联合损失函数对整个网络进行微调。 JLPLS-PAA (TIP-2019, [24] ) 探索多种注意力机制来选择重要的和有区别的区域或像素来处理大姿态变化、杂波背景等问题。与常规的空间、时间或通道视图不同，他们提出了解析注意、标签注意和空间注意。具体来说，解析模型用于以拆分和聚合的方式在像素级定位特定的身体区域。标签注意力是通过在图像级监督下为每个标签分配几个注意力图来制定的。空间注意力也被认为是通过图像级监督为所有属性定位最具辨别力的图像区域。值得注意的是，这项工作是首次尝试以类似多任务的学习方式联合学习多种注意力机制。 IA 2 -Net (PRL-2019, [25] ) 提出了一种图像属性相互引导表示 (RGR) 方法来研究图像引导特征和属性引导特征。他们的方法是基于以下观察而开发的：有些属性是具体的，例如“发型、鞋款”，但有些是抽象的属性（例如，“年龄范围、角色类型”）。他们还开发了一种融合注意力机制，为不同的 RGR 特征分配不同的注意力。此外，他们结合了焦点损失和交叉熵损失来处理属性不平衡问题。
Da-HAR (AAAI-2020, [26] ) 尝试基于带有自掩码算子的粗到细框架识别人类属性。他们的 self-mask 块在 MS-COCO 数据集上训练并用于人物分割。在面具的帮助下，他们的模型对分心和杂乱的背景不敏感。来自主干网络各层的分层特征与 1×1 算子和注意力模块融合。来自此类侧分支的预测与主分支融合以进行最终决策。
CAS (ICME-2020, [27] ) Zeng 等人提出了一个 Co-Attentive Sharing 模块。 [27]基于多任务学习中的软共享结构，可以挖掘有区别的通道和空间区域，以实现更有效的特征共享。更详细地，针对每一层探索了协同分支、注意分支和任务特定分支，然后，将三个分支的结果聚合为每个任务后续层的输入特征。张等人。 [28] 提出了任务感知注意力机制（名为 TAN）来探索每个位置在不同任务中的重要性。他们首先使用布料检测器裁剪目标区域，然后使用 CNN 提取其特征。使用空间注意和任务注意模块来学习特征图，并使用 t 分布随机三重嵌入 (t-STE) 损失函数进行优化。总结：视觉注意力是当前深度学习时代的一个热门研究课题，并已被广泛应用于许多领域。一般来说，注意力是一种行为和认知过程，有选择地关注信息的离散方面，无论是主观的还是客观的，而忽略其他可感知的信息 1 。行人属性识别也遵循这个框架，上述工作也验证了注意力机制的有效性。然而，与注意力机制集成的工作仍然有限。如何设计新的注意力模型或直接从其他领域借用现有的注意力算法仍有待探索。

3.4 基于序列化预测的模型

CNN-RNN (CVPR-2016, [29] ) 常规多标签图像分类框架为每个类别学习独立的分类器并对分类结果使用排名或阈值，未能明确利用图像中的标签依赖性。本文首先采用RNNs来解决这个问题，并结合CNNs学习联合图像标签嵌入来表征语义标签依赖性以及图像标签相关性。该模型可以通过顺序链接标签嵌入来对联合嵌入空间中的标签共现依赖性进行建模。对于 CNN-RNN 模型的推理，他们试图找到最大化先验概率的标签序列。 CNN-RNN模型的训练可以通过交叉熵损失函数和时间反向传播（BPTT）算法来实现。
JRL（ICCV-2017，[30]）首先分析了行人属性识别任务中存在的学习问题，例如图像质量差、外观变化和注释数据少，并提出探索属性和视觉上下文之间的相互依赖和相关性作为辅助属性识别的额外信息源。因此，正如其名称所示，JRL 模型被提出来联合循环学习属性上下文和相关性。为了更好地挖掘这些额外信息以进行准确的人物属性识别，作者采用序列到序列模型来处理上述问题。他们首先将给定的人物图像分成多个水平条状区域，并按从上到下的顺序形成一个区域序列。得到的区域序列可以看作是自然语言处理中的输入句子，可以用LSTM网络按顺序编码。在解码阶段，解码器 LSTM 将人内属性上下文和人际相似性上下文作为输入和输出随时间步长的可变长度属性。本文中的属性预测也可以看作是一个生成方案。为了更好地针对特定属性关注人物图像的局部区域并获得更准确的表示，他们还引入了注意力机制来关注人内属性上下文。
GRL (IJCAI-2018, [31] ) 是在 JRL 的基础上开发的，它也采用 RNN 模型以顺序方式预测人类属性。与 JRL 不同，GRL 的制定是为了按群体识别人类属性，并逐渐关注群体内和群体间的关系。他们将整个属性列表分成许多组，因为组内的属性是互斥的，组间的属性也是相关的。例如，BoldHair 和 BlackHair 不能出现在同一个人图像上，但它们都与一个人的头肩区域有关，可以在同一组中一起识别。它是一种端到端的单一模型算法，不需要预处理，它还利用了分组行人属性之间更多潜在的组内和组间依赖性。 JCM (arXiv-2018, [32] ) 现有的基于序列预测的 PAR 算法，如 JRL、GRL，由于 RNN 的对齐能力较弱，可能容易受到不同的手动划分和属性顺序的影响。本文提出了一种联合 CTC-Attention 模型（JCM）来进行属性识别，它可以一次预测任意长度的多个属性值，避免映射表中属性顺序的影响。 JCM实际上是一个多任务网络，它包含两个任务：属性识别和人员重新识别。他们使用 ResNet-50 作为基本模型来为这两个任务提取特征。对于属性识别，他们采用 Transformer 作为他们的注意力模型来对齐长属性序列。连接主义时间分类（CTC）损失和交叉熵损失函数用于网络训练。对于person re-ID，他们直接使用两个全连接层来获得特征向量，并使用softmax损失函数来优化这个分支。在测试阶段，JCM 可以同时预测人员身份和一组属性。他们还使用波束搜索来解码属性序列。同时，他们从基本模型中的 CNN 中提取特征，以对行人进行分类以进行行人重新识别任务。
RCRA (AAAI-2019, [33] ) 提出了两种模型，即用于行人属性识别的循环卷积 (RC) 和循环注意 (RA)。 RC模型利用Convolutional-LSTM模型探索不同属性组之间的相关性，RA模型利用组内空间局部性和组间注意力相关性来提高最终性能。具体来说，他们首先将所有属性划分为多个属性组，类似于 GRL。对于每个行人图像，他们使用 CNN 提取其特征图并将其逐组提供给 ConvLSTM 层。然后，可以通过在 ConvLSTM 之后添加卷积网络来获得每个时间步的新特征图。最后，将特征用于当前属性组的属性分类。基于上述 RC 模型，他们还引入了视觉注意力模块来突出特征图上的感兴趣区域。参与的特征图用于最终分类。该网络的训练也是基于WPAL-network中提出的加权交叉熵损失函数。总结：从本小节可以看出，这些算法都采用了顺序估计过程。因为属性是相互关联的，它们也有各种各样的困难。因此，采用RNN模型对属性进行一一估计是一个有趣且直观的想法。在这些算法中，他们将不同的神经网络、属性组、多任务学习集成到这个框架中。与基于 CNN 的方法相比，这些算法更加优雅和有效。由于连续属性估计，这些算法的缺点是时间效率。在未来的工作中，需要更有效的序列属性估计算法。

3.5 基于新设计的损失函数的模型

WPAL-network (BMVC-2017, [34]) 被提议以弱监督的方式同时识别和定位人物属性（即，只有人物属性标签，没有特定的边界框注释）。 GoogLeNet 作为其特征提取的基本网络。它们融合了来自不同层的特征，并将它们输入到灵活空间金字塔池化层 (FSPP) 中。每个 FSPP 的输出被送入全连接层并输出一个向量，其维度与行人属性的数量相同。此外，作者还引入了一种新颖的加权交叉熵损失函数来处理大多数属性类别的正负样本的极不平衡分布。 AWMT (MM-2017, [35] ) 众所周知，各种属性的学习难度是不同的。然而，大多数现有算法忽略了这种情况，并在其多任务学习框架中共享相关信息。这将导致负迁移，换句话说，当两个任务不同时，不充分的蛮力迁移可能会损害学习者的表现。 AWMT 建议研究一种共享机制，该机制可以动态和自适应地协调学习不同人员属性任务的关系。具体来说，他们提出了一个自适应加权的多任务深度框架来联合学习多个人的属性，以及一个验证损失趋势算法来自动更新加权损失层的权重。他们使用 ResNet-50 作为骨干网络，并以训练和验证图像作为输入。基本网络将为训练和验证图像输出其预测的属性向量。因此，可以同时获得 train loss 和 val loss。 val loss 用于更新权重向量，然后利用权重向量对不同的属性学习进行加权。他们提出了验证损失趋势算法来自适应调整权重向量。他们算法背后的直觉是，当同时学习多个任务时，应该给“重要”任务更高的权重，以增加相应任务的损失规模。 ArXiv-2019, [36] 是第一个利用硬注意力解决背景影响的工作，使用由掩码 R-CNN 预测的二进制掩码。然后，他们基于多任务学习训练他们的网络，以捕获大多数标签之间的语义依赖关系。作者定义了一个加权和损失函数来考虑每个类别在损失值中的不同贡献。
HFE (CVPR-2020, [37] ) 基于新设计的 HFE 损失为分层特征嵌入 (HFE) 引入了外部人员 ID 约束。该损失函数是从三元组损失函数扩展而来的，由三元组间损失、三元组内损失和绝对边界正则化组成。因此，每个类可以更紧凑地聚集，从而导致类之间的边界更加清晰。与此同时，贾等人。 [38] 认为现有的 PAR 设置是不切实际的，因为在火车和测试集中有大量相同的行人身份。他们重新划分数据集以确保具有相同人物 ID 的图像不会同时出现在训练和测试集中，并基于此设置实施强基线方法。他们的实验结果表明，现有的 PAR 算法被夸大了。他们认为区分同一区域内的细粒度属性（例如凉鞋与运动鞋）比定位特定属性的区域更重要。姬等人。 [39] 提出 MTA-Net 来解决图像和属性之间的复杂关系，以及行人属性的不平衡分布。他们共同使用基于 CNN-RNN 框架的前一个、当前和下一个时间步骤的知识。此外，提出了焦点平衡损失（FBL）函数来处理第二个问题。
总结：很少有工作专注于为行人属性识别设计新的损失函数。 WPAL-network [34] 考虑数据的不平衡分布，并根据训练数据集中所有属性类别的正标签比例提出加权交叉熵损失函数。这种方法看起来有点棘手，但在许多PAR算法中得到了广泛的应用。 AWMT He 等人。 [35] 为每个属性学习提出了一种自适应加权机制，使网络更专注于处理“困难”任务。这些工作充分证明了设计新颖的损失函数以更好地训练 PAR 网络的必要性。

3.6 基于课程学习的算法

MTCT (WACV-2017, [40] ) 提出了一个多任务课程转移网络来处理缺乏手动标记训练数据的问题。他们的算法包含多任务网络和课程迁移学习。对于多任务网络，他们采用五个堆叠的 Network-In-Network (NIN) 卷积单元和 Nparallel 分支，每个分支代表三层全连接子网络，分别用于对其中一个 Nattributes 进行建模。模型训练采用Softmax损失函数。认知研究表明，人类/动物采用的更好的学习策略是从学习更简单的任务开始，然后逐渐增加任务的难度，而不是盲目地学习随机组织的任务。因此，他们采用课程迁移学习策略进行服装属性建模。具体来说，它由两个主要阶段组成。在第一阶段，他们使用干净（更简单）的源图像及其属性标签来训练模型。在第二阶段，他们嵌入跨域图像对信息，同时将更难的目标图像附加到模型训练过程中，以捕获更难的跨域知识。他们采用t-STE（t-分布随机三元组嵌入）损失函数来训练网络CILICIA（ICCV-2017，[41]）与MTCT[40]类似，CILICIA也将课程学习的思想引入到人物属性识别中从易到难学习属性的任务。他们探索不同属性学习任务之间的相关性，并将这种相关性分为强相关和弱相关任务。具体来说，在多任务学习的框架下，他们使用各自的 Pearson 相关系数来衡量强相关的任务。对于多任务网络，他们采用分类交叉熵函数 [42] 来衡量预测和目标之间的差异。为了加权不同的属性学习任务，一个直观的想法是学习另一个分支网络进行权重学习。他们采用监督迁移学习技术来帮助弱相关组中的属性学习。他们还提出了 CILICIA-v2 [43]，通过引入一种有效的方法来使用分层凝聚聚类来获取任务组。它可以是任何数字，而不仅仅是两个组（即强/弱相关）。 DCL（ICCV-2019，[44]）引入了一个统一的框架，称为动态课程学习，在线自适应地批量调整采样策略和损失学习，以处理数据分布不平衡引起的问题。具体来说，他们设计了两级课程调度器：采样调度器和损失调度器。第一个旨在找到一批中最有意义的样本，以从不平衡到平衡分布和从易到难学习。第二个用于在分类和度量学习损失之间实现良好的权衡。他们在两个属性数据集上实现了新的最先进的识别性能。
总结：受认知科学最新进展的启发，研究人员也考虑对 PAR 使用这种“易”到“难”的学习机制。他们将现有的课程学习算法引入到他们的学习过程中，以对每个属性之间的关系进行建模。由于能够像人类一样首先估计“更容易”的属性，这使得 PAR 算法看起来更智能。其他一些算法，例如自定进度学习，也用于对多标签分类问题或其他计算机视觉任务进行建模。也值得引入更先进的认知科学著作来指导PAR的学习。此外，元学习在细粒度分类、小样本学习等诸多任务中也展现了“学以致用”的能力。将这个学习框架集成到 PAR 也将是一个有趣的研究方向。

3.7 基于图模型的算法

图模型通常用于在许多应用中对结构学习进行建模。同样，也有一些工作将这些模型集成到 PAR 任务中。 DCSA ∗(ECCV-2012, [45] ) 建议使用条件随机场 (CRF) 对人类属性之间的相关性进行建模。他们首先估计姿势信息并仅定位上半身的局部部位。然后，从这些区域中提取四种类型的基本特征。这些特征被融合以通过 SVM 训练多个属性分类器。本文的关键思想是应用全连接 CRF 来探索属性之间的相互依赖关系。他们将每个属性函数视为 CRF 的一个节点，连接每两个属性节点的边反映了这两个属性的联合概率。采用置信传播来优化属性标签成本。 A-AOG ∗(TPAMI-2018, [46] ) 是属性 And-Or 语法的缩写，它被明确提出来表示身体部位的分解和表达，并解释姿势和属性之间的相关性。该算法是基于与或图开发的，与节点表示分解或依赖；或节点代表分解或零件类型的替代选择。具体来说，它主要综合了三类语法：短语结构语法、依存语法和属性语法。他们使用深度 CNN 为每个部分生成建议，并采用基于波束搜索的贪心算法来优化上述目标函数。 VSGR (AAAI-2019, [47]) 建议通过视觉语义图推理 (VSGR) 来估计行人属性。他们认为，人物属性识别的准确性受到以下因素的严重影响：1）。只有局部部分与某些属性相关； 2）。具有挑战性的因素，例如姿势变化、视点和遮挡； 3）。属性与不同部分区域之间的复杂关系。因此，他们建议使用基于图的推理框架对区域-区域、属性-属性和区域-属性的空间和语义关系进行联合建模。该算法主要包含两个子网络，即视觉到语义子网和语义到视觉子网。对于第一个模块，它首先将人体图像划分为固定数量的局部部分。他们构造了一个图，其节点是局部部分，边是不同部分的相似性。与常规关系建模不同，它们采用部件之间的相似关系和拓扑结构将一个部件与其相邻区域连接起来。将两个子图组合起来计算空间图的输出。语义到视觉子网络也可以用类似的方式处理，它也输出序列属性预测。这两个子网络的输出融合为最终预测，并且可以以端到端的方式进行训练。
JLAC (AAAI-2020, [48] ) 为 PAR 提出了 JLAC（属性和上下文关系的联合学习），它包含两个主要模块：属性关系模块（ARM）和上下文关系模块（CRM）。 ARM 模块用于基于具有特定属性特征的属性图来探索多个属性之间的相关性。对于 CRM，作者构建了一个图投影方案，其目标是将 2-D 特征图投影到来自不同图像区域的一组节点中。该模块充分探索了这些区域之间的上下文关系。采用 GCN 挖掘两个模块的图结构特征，可以端到端地优化整个架构。
BCRNNs (CVPR-2018, [49] ) 建议使用双向卷积循环神经网络 (BCRNNs) 来解决基于其定义的语法拓扑的视觉时尚分析问题。具体来说，他们提出的依赖语法可以捕捉类似运动学的关系，对称语法可以解释衣服的双边对称性。总结：由于存在于多个属性中的关系，提出了许多算法来发现PAR的此类信息。因此，Graphic 模型很容易被引入到学习管道中，例如马尔可夫随机场、条件随机场、And-Or-Graph 或 Graph Neural Networks。本小节审查的作品是通过将图形模型与 PAR 集成的输出。也许其他图形模型也可以用于PAR以达到更好的识别性能。虽然这些算法在建模行人属性之间的关系上有很多优势，但是，这些算法似乎比其他算法更复杂。在实际场景中也需要考虑效率问题。

3.8 其他算法

本小节用于演示不适合上述类别的算法，包括：PatchIt [50]、FaFS [51]、GAM [52] 和 IFSL [53]。 PatchIt 提出了一种名为 PatchTask 的自监督预训练方法，以获得 PAR 的权重初始化。它的关键见解是利用来自与目标任务相同领域的数据进行预训练，并且它仅依赖于自动生成而不是人工标注的标签。 FaFS 被提出来自动设计紧凑的多任务深度学习架构。该算法从一个薄的多层网络开始，并在训练期间以贪婪的方式动态扩展它。这将通过重复上面的扩展过程和类似的任务驻留在同一分支中直到顶层，从而创建一个树状的深层架构。 GAM 建议使用深度生成模型处理行人属性的遮挡和低分辨率问题。具体来说，他们的整体算法包含三个子网络，即属性分类网络、重建网络和超分辨率网络。对于属性分类网络，他们还采用联合全局和局部部分进行最终属性估计。为了处理遮挡和低分辨率问题，他们引入了深度生成对抗网络 [54] 来生成重建和超分辨率图像。并将预处理后的图像作为输入到多标签分类网络进行属性识别。 Liuyu Xiang [53] 提出了 IFSL 来处理少镜头行人属性识别问题。因为大多数以前的 PAR 算法都是为一组固定的属性而设计的，无法处理增量的小样本学习场景。这项工作引入了一个名为属性原型生成器的额外模块，它可以看作是从特征嵌入中提取多属性信息的高级元学习器。并且它可以产生有区别的属性原型嵌入，从而为新属性提供分类权重。
张等人。 [55] 提出了 TS-FashionNet，即纹理和形状偏置的双流网络，用于时尚图像分析。具体来说，shape-biased 流包含一个标志性分支，以帮助提取形状特征；而纹理偏置流则用于强调纹理特征的提取。然后，将这两个分支连接在一起以预测服装属性并对服装类别进行分类。贾等人。 [56] 认为当前对 PAR 的评估与实际场景不一致，并提倡零样本行人身份设置。他们提出了两个新的数据集 P ET A ZS 和 RAP ZS 用于评估。

4 讨论

在本节中，我们将首先讨论本节中具体的属性识别，然后将深度学习与基于传统算法的 PAR 方法进行比较。之后，我们将展示 PAR 与其他计算机视觉任务之间的联系。

4.1 特定属性识别

除了对全身的属性识别外，还有一些针对人局部的属性识别算法，例如人脸属性识别（如性别、年龄、种族）。在本小节中，我们将简要回顾特定的属性识别算法。关于人脸属性识别的更详细介绍，请参考[57]和[58]。罗德里格斯等人。 [59] 被提议发现给定面部信息最丰富和最可靠的部分，以改善年龄和性别分类。具体来说，它是一种前馈注意力机制，主要由三个模块组成：注意力CNN、补丁CNN和多层感知器（MLP）。两个 CNN 模块用于预测最佳注意力网格以分别根据注意力网格预测的重要性来执行瞥见和评估更高分辨率的补丁。 MLP 模块用于整合来自两个 CNN 的信息并进行最终分类。李等人。 [60] 提出累积隐藏层和比较排序层来解决样本不平衡问题并学习更有效的老化特征。累积隐藏层由逐点累积信号监督，该信号连续编码目标年龄标签。比较排序层由成对比较信号监督，换句话说，谁年龄大。这是受到观察的启发，即根据两张脸判断哪个年龄比准确年龄更容易。 [61] 对年龄估计深度学习方法的训练和评估程序进行了全面诊断。他们通过遵循先前的工作并使用适当的问题公式和损失函数来实现最先进的性能。他们还考虑了各种因素来构建基于多任务学习框架的更好的年龄估计模型，例如纳入种族和性别等信息的策略。他们的研究有助于更好地理解深度年龄估计算法。 Antipov 等。 [62] 阐明了人类人口统计估计的一些开放性问题，以改进现有的基于 CNN 的性别和年龄预测方法。他们的工作分析了 CNN 训练的四个重要因素：目标年龄编码和损失函数、CNN 深度、预训练、训练策略。然后，他们根据这些实验设计他们的模型并实现最先进的性能。 [63] 提出了一种用于面部年龄估计的群体感知深度特征学习方法。具体来说，他们将序数年龄分成一组离散组，并学习跨年龄组的深度特征转换，以将每个人脸对投影到新的特征空间中。它们同时最小化正面人脸对的组内方差并最大化负面人脸对的组间方差。陈等人。 [64] 提出了一种自动发现“光谱属性”的方法，它避免了定义手工属性表示所需的人工工作。 Fasel 和 Luettin [58] 对自动面部表情分析进行了回顾，包括：面部运动、变形提取方法和分类方法。 Hadid 和 Pietikäinen [65] 研究了面部外观和运动的组合，用于视频中的面部分析。他们受到心理物理学发现的启发，该发现表明面部运动可以为面部分析提供有价值的信息。他们设计了一组扩展的卷局部二元模式以及用于视频时空面部和性别识别的增强方案。也有一些作品专注于给定人体图像的背包检测，例如，[66]、[67]、[68]、[69]。这些方法的常规流程是先检测人体，然后以细粒度的方式分割携带的物体。

4.2 深度学习与传统算法的比较

在基于深度神经网络的算法接管 PAR 社区之前，大多数传统方法都遵循标准管道，如图 1 所示。通常，我们需要先对数据集进行一些预处理，如翻转、旋转、尺度变化、裁剪、平移、添加高斯噪声等。然后，提取手动设计的特征（例如，HOG 或 SIFT 特征）来表示人物图像。之后，训练多个分类器来区分所有行人属性，例如支持向量机。在测试阶段，我们需要设置一个阈值来估计相应的属性是否存在。根据上述 PAR 算法，包括传统方法和基于深度学习的方法，我们可以发现以下观察结果：1）。这两种方法都试图从细粒度的角度处理 PAR，例如估计来自局部人体的属性。主要区别在于如何定位这些区域：传统方法依赖于目标检测器，而深度学习方法采用更先进的目标检测器、视觉注意机制或从辅助任务（例如姿态估计）获得的其他一些信息. 2）。这两种方法都需要行人图像的强大特征表示。传统方法使用手动设计的特征，而基于深度学习的算法可以从给定的训练数据集中自动学习深度特征。这也是基于深度学习的 PAR 算法最独特的特征之一。 3）。这两种方法都试图利用先验信息或人类属性之间的关系来增强最终识别性能。传统方法通常采用条件随机场、马尔可夫随机场等图形模型作为后处理，而基于深度学习的算法可以将这些关系集成到他们的管道中，并基于图神经网络以端到端的方式进行学习。网络。一般来说，传统和基于深度学习的 PAR 算法都有相似的思想，但深度学习方法总是比传统算法获得更好的识别准确率。我们认为最重要和最直观的原因之一是可以从大规模数据集中学习的强大深度特征。另一个原因是 PAR 的许多挑战很难用传统算法建模，但这很容易用深度神经网络实现。第三个原因是深度神经网络可以与传统方法融合，即“深度+X”的模式。这将进一步扩展深度神经网络的应用。

4.3 PAR 与其他任务之间的连接

视觉属性可以看作是一种中级特征表示，可以为高级人类相关任务提供重要信息，例如人员重新识别、行人检测、人员跟踪、人员检索、人体动作识别和场景理解。对于行人检测，常规算法将其视为单个二元分类任务，而 Tian 等人。 [70] 提出用语义任务联合优化人物检测，以解决正样本和硬负样本的混淆。他们使用现有的场景分割数据集来传输属性信息，以从多个任务和数据集源中学习高级特征。
对于行人重新识别，行人属性可以被视为一种中级表示，并在行人描述中与行人重识别共享一个共同目标。 PAR 侧重于局部信息挖掘，而人员重新识别通常捕获一个人的全局表示。已经有很多作品试图将 PAR 集成到他们的个人 re-ID 系统中。例如，林等人。 [71] 提出了一个属性-人物识别网络，这是一个多任务网络，它可以学习 re-ID 嵌入并同时预测人物属性。 [72] 提出了一种属性感知注意力模型，以端到端的方式同时学习局部属性和全局类别表示。苏等人。 [73] 还提出将中级属性集成到人员重新识别框架中，并以半监督的方式训练属性模型。具体来说，他们首先在一个独立的属性数据集上对深度 CNN 进行预训练，然后在另一个仅用人员 ID 注释的数据集上进行微调。之后，他们使用更新的深度 CNN 模型估计目标数据集的属性标签。哈米斯等人。 [74] 建议将语义方面集成到基于外观的常规方法中。他们共同学习对联合外观-属性子空间的判别投影，这可以有效地利用属性和外观之间的相互作用进行匹配。 [75] 还提出了一项关于服装属性的综合研究，以帮助行人重新识别。他们首先提取身体部位及其局部特征以减轻姿势错位问题。然后，他们提出了一种基于潜在 SVM 的人员 re-ID 方法来对低级部分特征、中级服装属性和人员对的高级 re-ID 标签之间的关系进行建模。他们将服装属性视为实值变量，而不是将它们用作离散变量，以获得更好的人员重新识别性能。莱恩等人。 [76] 和莱恩等人。 [77] 都学习了一个属性中心表示来描述人和一个度量来比较属性配置文件。莱恩等人。 [78] 还通过学习用于描述人的中级语义属性的选择和加权来实现更好的重新识别性能。 Schumann 和 Stiefelhagen [79] 首先训练一个属性分类器，并将其响应纳入基于 CNN 的行人 re-ID 模型的学习中。 [80]发现属性与特定的局部区域相关，并利用属性检测生成相应的属性部分检测器。这将显着处理 re-ID 任务的身体部位错位问题。凌等人。 [81] 提出了一个具有多重分类和验证损失的多任务学习网络，用于将人身份和行人属性任务紧密结合的人员重新识别。在 [82] 中，作者使用多镜头重新识别的思想来进行人员重新识别而不是单个问题图像。具体来说，他们利用低级特征、属性和属性间相关性使他们的模型在多相机设置下稳健。 [83] 还开发了一个基于 CNN 的行人属性辅助行人重新识别框架。他们首先使用特定于部件的 CNN 学习属性，然后将它们与低级鲁棒 LOMO 特征融合。然后，他们将学习到的属性 CNN 嵌入与识别 CNN 嵌入合并到一个三元组结构下，用于人员重新识别。
也有一些作品整合了行人属性，用于人物检索和人类主动识别。对于人物检索，Wang 等人。 [84]利用服装的低级特征（例如颜色）和高级特征（即人物属性）来解决由几何变形、遮挡和杂乱背景引起的问题。他们基于内容的图像检索算法是基于视觉词袋模型开发的。更重要的是，他们提出了一种重新排序方法，通过利用衣服类型、袖子和图案等属性来改善搜索结果。陈等人。 [85]通过首先从在线购物商店挖掘具有细粒度属性标签的服装属性来解决描述人的问题。然后，他们使用双路径深度域适应网络来弥合收集到的图像和实际测试数据之间的差距。他们的工作验证了人们描述的人物属性的有效性和重要性。对于人类主动识别，[86]总结的文献综述也提到属性是语义空间的元素，是描述活动基本或内在特征的有效特征。此外，刘等人。 [87] 验证了属性能够为人类动作识别构建更具描述性的模型。他们以有区别的方式选择属性或与数据驱动的属性连贯地集成，以使属性集更具描述性。由于行人属性识别主要集中在许多其他研究课题中研究的服装特征，例如部分检测、姿势估计 [88] 和人体解析 [89]。但是这些任务都有自己的重点，例如：部分检测旨在使用边界框定位对象的局部部分；姿态估计侧重于定位对人类活动识别有用的人的关键点；人体解析是一种更细粒度的人体像素分割，比行人属性识别更困难。然而，这些任务可以通过联合方式学习，因为这些任务都是以人体为重点，也有自己的重点。实际上，多任务学习在机器学习、模式识别和计算机视觉领域已经研究了很长时间。行人属性识别和其他任务的联合学习也验证了这种多任务设置的有效性，例如上述联合 PAR 和人员重新识别算法。

5.基准

5.1 数据集

与计算机视觉中的其他任务不同，对于行人属性识别，数据集的注释包含许多不同级别的标签。例如，发型、颜色、帽子和玻璃，被视为特定的低级属性，对应图像的不同区域；虽然一些属性是抽象的概念，例如性别、方向和年龄，与某些区域不对应，但我们将这些属性视为高级属性。此外，人类属性识别通常受到环境或上下文因素的严重影响，例如视点、遮挡和身体部位。为了便于研究，一些数据集提供了透视、零件边界框、遮挡的注释。通过回顾近年来的相关工作，我们发现并总结了几个用于研究行人属性识别的数据集。如表 1 所示，由于本文篇幅有限，我们只展示了这些基准数据集的一些重要参数，如图像编号、属性编号、图像来源和相应的项目页面。有关这些数据集的更多详细信息，请访问我们的 arXiv 版本的项目页面 [90]

5.2.评估标准

属性分类的性能可以用接收器操作特征（ROC）和平均ROC曲线下面积（AUC）来评估，它们由两个指标计算，召回率和假阳性率。召回率是正确检测到的阳性样本占阳性样本总数的比例，假阳性率是指错误分类的阴性样本占整个阴性样本的比例。在各种阈值设置下，可以通过绘制召回率与误报率来绘制 ROC 曲线。然而，除了 [97] 之外，很少有 PAR 算法采用这两个度量。 Chen等人使用了几何均值（G-mean）。 [45] 用于评估，这是不平衡数据分类的流行评估指标。除了上述指标外，平均准确度 (mA) 还用于评估属性识别算法。对于每个属性，mA 分别计算正负样本的分类准确率，然后取它们的平均值作为对该属性的识别结果。最后，通过对所有属性取平均值来获得识别率。评估标准可以通过以下公式计算：
在这里插入图片描述
其中 L 是属性的数量。 T Pi 和T Ni 分别是正确预测的正例和反例的数量，P i 和N i 分别是正例和反例的数量。上述评价标准独立对待每个属性，忽略了多属性识别问题中自然存在的属性间相关性。李等人。 [98] 将这些指标命名为基于标签的标准，并建议使用基于示例的评估标准，这一事实受到以下事实的启发：基于示例的评估可以更好地捕捉给定行人图像的预测一致性。四个广泛使用的指标，即准确度、精确度、召回率和 F1 值，可以定义为：
在这里插入图片描述
其中 Ni 是示例的数量，Y i 是第 i 个示例的真实正标签，f(x) 返回第 i 个示例的预测正标签。和| ·| 表示集合基数。由于 ROC、AUC 和 G-mean 仅用于少数 PAR 工作，因此我们仅在表 2 和表 3 中报告了基于 mAP、准确率、精度、召回率和 F1 值的主要实验结果。

5.3 性能评估

在本节中，我们简要介绍了 2014 年至 2020 年提出的 17 种 PAR 算法的性能。如图 2 所示，我们可以发现基线方法 CNN-SVM 优于最近的基于深度学习的 PAR 方法 sig - 在大型基准数据集 RAP 和 PETA 上都表现出色。具体来说，最近的深度学习方法将多个评估指标的基线从大约 50+% 提高到 80+%。这些实验结果充分证明了基于深度学习的 PAR 算法的有效性和优势。有趣的是，我们还发现当前基于深度学习的方法的准确性是可比的，与几年前提出的深度 PAR 算法相比，当前的方法（2020 年）并没有显着的改进。这些方法更详细的实验结果见表2和表3。因此，在未来的工作中，如何设计新的模块以进一步提高PAR结果？在下一节中，我们为 PAR 提出了几个可能的研究方向。

6 未来研究方向

更准确有效的局部定位算法人类可以以非常有效的方式识别详细的属性信息，因为我们可以一瞥特定区域并根据局部和全局信息推理属性。因此，设计可以检测局部部分以进行准确属性识别的算法是一个直观的想法。根据第 3.2 节，不难发现研究人员确实对挖掘人体局部部位更感兴趣。他们使用手动注释或检测到的人体或姿势信息进行部件定位。也有一些算法试图以弱监督的方式提出统一框架来共同处理属性识别和定位。我们认为这也将是行人属性识别的一个很好的和有用的研究方向。用于数据增强的深度生成模型近年来，深度生成模型取得了很大进展，并提出了许多算法。一个直观的研究方向是我们如何使用深度生成模型来处理低质量的人物图像或数据分布不平衡的问题？已经有很多研究专注于以文本、属性或姿态信息为指导的图像生成。生成的图像可用于许多其他数据增强任务，例如对象检测、人员重新识别和视觉跟踪 [99]。设计新算法以根据给定的属性生成行人图像以增加训练数据也是值得的。
进一步探索视觉注意力机制视觉注意力近年来越来越受到研究者的关注。它仍然是当今最流行的技术之一，并在许多任务中与各种深度神经网络集成。正如 Mnih 等人所指出的那样。 [100] ，人类感知的一个重要特性是人们不会一次处理整个场景。取而代之的是，人类有选择地将注意力集中在视觉空间的一部分上，以在需要的时间和地点获取信息，并随着时间的推移结合来自不同注视点的信息来构建场景的内部表示，指导未来的眼球运动和决策制作。它还大大降低了任务的复杂性，因为感兴趣的对象可以放置在注视的中心，并且注视区域之外的视觉环境（“杂波”）的不相关特征自然会被忽略。设计新的注意力机制或借鉴其他研究领域进行行人属性识别可能是未来的一个重要研究方向。新设计的损失函数近年来，针对深度神经网络优化提出了许多损失函数，例如（加权）交叉熵损失、对比损失、中心损失、三重损失、焦点损失。研究人员还为 PAR 设计了新的损失函数，例如 WPAL 和 AWMT，以进一步提高其识别性能。研究不同损失函数对PAR的影响是一个非常重要的方向。探索更高级的网络架构现有的 PAR 模型采用现成的在大规模数据集上预训练的网络作为其骨干网络架构。他们很少考虑 PAR 的独特特性并设计新颖的网络。近年来提出了一些新颖的网络，例如胶囊网络，但是，仍然没有尝试将此类网络用于 PAR。也有研究表明，网络架构越深，我们可以获得的识别性能越好。如今，自动机器学习解决方案（AutoML）越来越受到关注，也发布了许多开发工具用于开发，例如：AutoWEKA和Auto-sklearn。因此，在未来的工作中使用上述方法设计用于人物属性识别的特定网络将是一个不错的选择。
先验知识引导学习与常规分类任务不同，行人属性识别由于人类的偏好或自然约束而始终具有自己的特征。挖掘PAR的先验知识或公共知识是一个重要的研究方向。例如，我们在不同的季节、温度或场合穿不同的衣服。另一方面，一些研究人员试图利用历史知识（如：维基百科 3）来帮助提高他们的整体表现。因此，如何利用这些信息来探索人物属性之间的关系或帮助机器学习模型进一步理解这些属性仍然是一个未研究的问题。多模态行人属性识别虽然现有的单模态算法已经在一些基准数据集上取得了良好的性能，如上所述。然而，众所周知，RGB图像对光照、恶劣天气（如：雨、雪、雾）、夜间等都很敏感。我们似乎不可能在全天候和全天候的情况下实现准确的行人属性识别。但智能监控的实际需求远不止这个目标。我们如何才能弥合这一差距？一个直观的想法是从其他模式（例如热传感器或深度传感器）中挖掘有用信息，以与 RGB 传感器集成。已经有很多作品试图融合这些多模态数据并显着提高它们的最终性能。我们认为多模态融合的思想也有助于提高行人属性识别的鲁棒性。热图像可以突出人体和其他一些佩戴或携带物体的轮廓。
基于视频的行人属性识别现有的行人属性识别是基于单幅图像的，然而，在实际场景中，我们经常获取摄像机拍摄的视频序列。虽然在每个视频帧上运行现有算法是一种直观且简单的策略，但效率可能是实际应用的瓶颈。一般来说，基于图像的属性识别只能利用给定图像的空间信息，由于信息有限，这增加了PAR的难度。相比之下，给定基于视频的 PAR，我们可以联合利用空间和时间信息。好处可以列举如下： 1）。我们可以通过定义更动态的人物属性，例如“奔跑的人”，将属性识别扩展到更一般的情况； 2）。运动信息可用于推理单个图像中可能难以识别的属性； 3）。在视频中学习的一般人物属性可以为其他基于视频的任务提供更多有用的信息，例如视频字幕、视频对象检测。因此，如何高效准确地识别实际视频序列中的人体属性是一个值得研究的问题。属性和其他任务的联合学习将人物属性学习集成到其他人物相关任务的管道中也是一个有趣且重要的研究方向。已经有很多算法将人的属性考虑到相应的任务中，例如：基于属性的行人检测、视觉跟踪、人重新识别和社会活动分析。未来，如何更好地挖掘细粒度的人属性用于其他任务，并利用其他任务更好地识别人的属性是一个重要的研究方向。
在这里插入图片描述

7 结论

在本文中，我们回顾了近年来从传统方法到基于深度学习的算法的 PAR。具体来说，我们首先介绍 PAR 的背景（问题表述和挑战因素）。然后，我们从不同的角度对PAR算法进行了回顾，包括：基于全局、基于部分、基于视觉注意力、基于序列预测、基于新设计的损失函数、基于课程学习、基于图形模型等算法。之后，我们讨论了特定的属性识别，然后，对深度学习和基于传统算法的 PAR 方法进行了比较。之后，我们展示了 PAR 与其他计算机视觉任务之间的联系。我们总结了为 PAR 提出的现有基准，包括流行的数据集和评估标准，并在 RAP 和 PETA 数据集上对选定的 17 种 PAR 算法进行了简要比较。最后，我们对本文进行了总结，并给出了 PAR 的几个可能的研究方向。然而，由于本文篇幅有限，还有许多其他工作可能与 PAR 相关但不在本次调查中。例如，深度 PAR 算法中使用的骨干深度网络的历史，各种机器学习技术，如迁移学习、自监督学习、元学习或主动学习，可能会激发研究人员设计更高级的 PAR算法。在我们未来的工作中，我们将总结这些可能对行人属性识别有用的技术。