这里写目录标题
论文详情
(ICCV-2021)用于步态识别的3D局部卷积神经网络(3D Local Convolutional Neural Networks for Gait Recognition)
paper是中国科学技术大学发表在ICCV 2021的工作
论文地址:地址
视频讲解:阿里达摩院
学习笔记1
概述
步态识别的核心是捕捉人体行走时随时间变化的独有的、有区分性的特征。
**现有方法缺点:**提取特征时采用固定划分局部的手段,忽略了人体部位的位置、大小和运动模式都是随时间动态变化的。
改进:提出一种全新的视频序列分析基础模型building block,作为3D CNN backbone中即插即用的模块,动态定位不同的三维局部区域,每个区域的时空位置和尺度各不相同,在步态识别任务上取得最好结果。
达摩院视频讲解笔记
挑战
最近的四个针对步态做法:通过多个尺度或者多层特征融合,提取人的不同部位运动特征。基本做法,通过pooling,或者划分固定大小的条的手段,粗略的对应人的手,头,脚特征,但人部位的位置,大小,运动的变化的,因此将feature map划分成条是不精确的,无法解决局部识别的问题。
例如:头。和手摆动的频率不一样。因此时间paten问题:提取头部的时候,可能提取前边的多少帧,提取手部很大时候又是一些帧;空间上,手,头是个动态变化的过程,所以local就会有很大变化,所以需要动态的定位到各个不同的局部,且要完整的提取运动周期的话,时间的长短scale,位置的长短不同,
现有工作没有很深入结合人体步态识别特征需求的网络结构。
提出3D local CNN
意义:动态的定位
3D local block
动态体现:
1位置localization
cx.cy.ct代表在那个帧的哪个位置采样,代表位置;
segema:高斯窗的平滑程度;diut:步长;gama:置信度,
对应人眼,就是到底关注哪些特征的区域,时间空间的定位
2采样sampling
人眼聚焦的机理:
空间上人眼focus机制,代表了一堆高斯函数的采样,以输入的点为高斯的加权
时间上,线性插值,保留运动的变化特征
图中每个框长短不一样,空间上的大小不一样,所以采样出来的可能是对应的手脚一些局部的特征
3feature extraction
4feature fusion
1x1x1:特