【深度学习】步态识别-论文阅读：（ICCV-2021）通过有效的全局-局部特征表示和局部时间聚合进行步态识别

最新推荐文章于 2024-04-04 12:35:41 发布

盏云

最新推荐文章于 2024-04-04 12:35:41 发布

阅读量4.2k

点赞数 1

分类专栏：步态识别论文阅读行为识别文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/zhe470719/article/details/122600962

版权

论文阅读同时被 3 个专栏收录

16 篇文章 3 订阅

订阅专栏

步态识别

6 篇文章 10 订阅

订阅专栏

行为识别

3 篇文章 2 订阅

订阅专栏

这里写目录标题

论文详情
Abstract
1. Introduction
2 主要贡献
3 Proposed Method
4 Conclusion

论文详情

论文题目：Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation
paper是北京交通大学、悉尼科技大学发表在ICCV 2021的工作
论文地址：原论文
论文笔记参考：笔记1
笔记2
笔记3

Abstract

最近的步态识别框架通过从人类的全局外观或局部区域提取的描述来表示每个步态帧。

缺点：
基于全局信息的描述往往忽略了步态帧的细节，
基于局部区域的描述无法捕捉相邻区域之间的关系，从而降低了判别能力。

主要贡献：
本文提出了一种新的特征提取和融合框架，以实现步态识别的判别特征表示。
（特征融合模块旨在通过综合给定的全局和局部输出来产生更稳健和更具判别力的表示。）
为了实现这一目标，利用全局视觉信息和局部区域细节，
1.开发了全局和局部特征提取器 (GLFE)。
具体来说，GLFE 模块由新设计的多个全局和局部卷积层 (GLConv) 组成，以principle方式集成全局和局部特征。
2提出了一种新颖的操作，即局部时间聚合（LTA），通过降低时间分辨率来进一步保留空间信息以获得更高的空间分辨率。
在GLFE和LTA的帮助下，本文方法显著提高了视觉特征的判别能力，从而提高了步态识别性能。大量实验表明，本文提出的方法在两个流行的数据集上优于最先进的步态识别方法。

3D CNN 在步态识别方面的局限性在于在处理可变长度序列方面缺乏灵活性。在 [35] 中，已经努力通过利用多个 3D CNN 来整合不同尺度的时间信息来解决这个缺点。

1. Introduction

近年来，许多现有的步态识别方法采用卷积神经网络（CNN）来生成步态特征表示，取得了比传统方法更好的识别性能。
通常，特征表示可以分为两类：基于全局特征的表示和基于局部特征的表示
基于全局特征的步态表示方法从整个步态帧中提取步态特征。
基于局部特征的表示方法从局部步态部分提取和组合局部步态特征

限制：
上述方法仅利用全局或局部特征进行表示，从而限制了识别性能。特别是全局特征表示可能对步态的细节不够重视，而局部特征表示可能会丢失步态的全局上下文信息而忽略局部区域之间的关系，
传统的 3D CNN 需要固定长度的步态序列进行分类，因此无法直接处理不同长度的视频。

提出：
为了解决上述问题，在本文中，通过学习全局和局部特征的有效表示，提出了一个新的跨视角步态识别框架。
具体来说，本文在三维CNN框架中建立了一个新的特征提取模块，称为全局和局部特征提取器（GLFE），以便从步态帧的全局和局部信息中获得判别性的表示。

在GLFE模块中，设计了一个新的全局和局部卷积层(GLConv)，以principle方式提取全局和局部特征。
全局特征提取器关注整个视觉步态外观，而局部特征提取器关注步态细节。
GLFE 模块由多个 GLConv 层组成。通过结合全局和局部步态特征图，GLFE 模块能够获得更具判别性的特征表示。

由于现有的基于2D CNN的方法通常使用空间池化层来降低特征的分辨率，空间信息将逐渐丢失。
为了充分利用空间信息，开发了一种新的局部时间聚合 (LTA) 操作来替代传统的空间池化层并聚合局部剪辑中的时间信息。以这种方式利用时间分辨率来获得更高的空间分辨率。

由于该方法采用3D卷积，因此将时间卷积应用于时间信息的聚合。

2 主要贡献

提出了一个新的步态识别框架，以获得一个有判别性的步态表示。在这个框架中，引入了一个新的全局和局部特征提取（GLFE）模块以及全局和局部卷积层（GLConv）。
提出了一种新的局部时间聚集（LTA）操作来聚集局部时间信息，同时保留空间信息。
该方法已在公共数据集CASIA-B和OUMVLP上进行了评估。实验结果表明，它可以达到最先进的性能，特别是在复杂的条件下。

3 Proposed Method

在本节中，首先概述了所提出方法的框架。然后描述了所提出方法的关键组件，包括局部时间聚合(LTA)、全局和局部特征提取器 (GLFE) 和广义均值(GeM)池化层。最后，介绍了训练和测试的细节。

3.1 Overview

目的：是为步态识别提取更全面的特征表示，包括三个关键组成部分。
首先，使用卷积从原始输入序列中提取浅层特征。
接下来，设计了本地时间聚合(LTA)操作来聚合时间信息并保留更多的空间信息以进行权衡。
然后，利用全局和局部特征提取器(GLFE)对全局和局部信息进行综合特征集成。
然后，利用时间池和GeM板池层实现特征映射。
最后，我们选择三元组损失[3,5]和交叉熵损失来训练所提出的模型。
在这里插入图片描述

3.2 Local Temporal Aggregation

以前的工作使用特定模式“CL-SP-CL-SP-CL”来提取特征，其中 CL 表示卷积层，SP 表示空间池化层。
然而，空间信息可能会因 SP 下采样操作而丢失。考虑到步态序列中的时间信息是周期性的，提出了LTA操作来代替第一个空间池化层，它可以整合局部剪辑的时间信息并保留更多的空间信息。
在这里插入图片描述

3.3 Global and Local Feature Extractor

除了全局步态特征，最近的一些研究人员提出了利用局部步态信息的不同步态识别框架，虽然它比全局步态特征包含更详细的信息，但局部步态特征并不关注局部区域之间的关系
因此，提出了一种新的GLFE模块来提取特征，该模块可以利用全局和局部信息。
GLFE 模块由 GLConv 层实现，GLConv层包含全局和局部特征提取器。
全局特征提取器可以提取整个步态信息，
局部特征提取器用于从局部特征图中提取更多细节。
由于组合不同，GLConv有两种不同的结构，例如GLConvA和GLConvB。
如图1所示，GLFE模块包括四层，“GLConvA-SP-GLConvA-GLConvB”。
在这里插入图片描述

在这里插入图片描述
基于以上两种形式的GLGonv层，可以构建GLFE模块，在LTA操作后提取步态特征。在实验中，GLConvA被用来实现前几个GLGonv块，GLConvB被用来实现GLFE模块中的最后一个块。

图 2. 不同步态特征提取器的架构。⊕ \oplus⊕代表逐元素相加，Concat”是指将不同部分的特征图水平串联起来

3.4 Feature Mapping

在这里插入图片描述

3.5 Loss Function

在这里插入图片描述

4 Conclusion

本文提出了一个新的步态识别框架，在三维卷积公式下产生判别性的特征表示。
首先，为了提取更全面的步态信息，提出了一个全局和局部特征提取器来提取稳健的步态特征进行表示。
其次，为了利用更多信息，还探索了不同下采样方法的效果，并引入了局部时间聚合来代替传统的空间池化层。
此外，引入了广义均值池化层来自适应地聚合空间信息，从而提高特征映射性能。在公共数据集上的实验结果验证了所提方法的有效性。

盏云

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
【深度学习】步态识别-论文阅读：（ICCV-2021）通过有效的全局-局部特征表示和局部时间聚合进行步态识别

这里写目录标题论文详情Abstract1. Introduction2 主要贡献3 Proposed Method3.1 Overview3.2 Local Temporal Aggregation3.3 Global and Local Feature Extractor3.4 Feature Mapping3.5 Loss Function4 Conclusion论文详情论文题目：Gait Recognition via Effective Global-Local Feature Represe
复制链接

扫一扫