【步态识别】LagrangeGait基于拉格朗日《Lagrange Motion Analysis and View Embeddings for Improved Gait Recognition》

本文链接：https://blog.csdn.net/weixin_45074807/article/details/128106639

本文通过数学建模分析，提出了一种新的运动辅助步态识别方法，并引入了一种视角感知的嵌入方法，旨在减少视角差异带来的识别误差。实验结果证明了该方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 论文&代码源

《Lagrange Motion Analysis and View Embeddings for Improved Gait Recognition》
论文地址：https://ieeexplore.ieee.org/document/9879229
代码下载地址： https://github.com/ctrasd/LagrangeGait

2. 论文亮点

在本文中，通过数学建模分析，作者认为只使用一阶时间信息是很难进行步态识别的，为了有效地对人的行走模式进行建模，二阶运动特征是不容忽视的。
为了验证上述观点，作者提出了一种新的运动辅助步态识别方法，以进一步减少视角差异带来的识别误差，同时引入了一种视角感知的嵌入方法，其能够产生一个多分支框架，该框架结合了剪影序列的视图、外观和内在运动。
实验结果表明，本文所提出的模型可以有效地缩小因视角差异引起的类内误差。

注意：本文中， $\frac {\text d x}{\text d t}$ 为一阶运动特征； $\frac {\text d^2 \theta}{\text d t^2}$ 为二阶运动特征。

1) 通过拉格朗日方程对人体进行建模：

通过拉格朗日方程（组）对人类行走过程进行建模，并得出结论：除了一阶运动特征外，我们还需要使用二阶运动特征来表示步态；

2) 提出二阶运动提取模块：

二阶运动提取模块能够提取高层特征图上的特征；

3) 引入一种新的轻量级视图嵌入模块：

引入一种新的、轻量级的视图嵌入模块，能够减少因视角变化引起的识别误差；

4) 实验结果可视化：

将所提出的方法应用于公共数据集，验证了方法的有效性，并进行了一些可视化的严谨，以进一步证明方法的正确性。

3. 模型结构

overview

3.1 建模思路

现阶段步态识别的最优方法虽然能够取得很高的识别精度，但是我们很难确定它究竟是依赖于人体形状还是“步态”进行识别的。基于这一猜想，作者提出了使用拉格朗日方程来分析人类的行走模式。

3.2 建立拉格朗日方程

analysis
如上图所示，假设人的大腿和小腿是刚性连接的，从而对其进行机械结构的建模。
两条大腿和小腿的长度和质量分别用 $l_1$ , $l_2$ , $m_1$ , $m_2$ 和 $l_3$ , $l_4$ , $m_3$ , $m_4$ 表示； $\theta _i$ 表示（大/小）腿与水平线之间的夹角；假设人是以小距离 $x$ 水平向前运动。

首先可以得到动能方程：
$\frac 12(m_1 + m_2 + m_3 + m_4)(\frac {\mathrm d x}{\mathrm dt})^2 + \frac 16(m_1 l_1^2(\frac{\mathrm d \theta_1}{\mathrm dt})^2\\+ m_2 l_2^2(\frac{\mathrm d \theta_2}{\text dt})^2+ m_3 l_3^2(\frac{\mathrm d \theta_3}{\mathrm dt})^2+ m_4 l_4^2(\frac{\mathrm d \theta_4}{\mathrm dt})^2) \qquad(1)$

势能方程：
$-\frac 12 m_1gl_1 \mathrm {cos} \theta_1 - m_3g(l_1 \mathrm {cos} \theta_1 + \frac{l_3}2 \mathrm{cos} \theta_3) \\ -\frac 12 m_2gl_2 \mathrm {cos} \theta_2 - m_4g(l_2 \mathrm {cos} \theta_2 + \frac{l_4}2 \mathrm{cos} \theta_4) \qquad(2)$

然后凑出拉格朗日方程：
（说实话，从上面两个等式我怎么凑也没能凑出来下面的拉格朗日方程组，不知道是前面的列错了，还是后面的方程组是错的，，，这一部分有待继续研究。。。。）
$\begin{cases} (m_1 +m_2 +m_3 + m_4)\frac{\mathrm d^2x}{\mathrm d t^2} =Q_0\\ \displaystyle \frac 13 m_1 l_1^2 \frac {\mathrm d^2 \theta _1}{\mathrm d t^2} -\frac12(m_1 +m_3)gl_1 \mathrm {sin} \theta _1 \frac {\mathrm d \theta _1}{\mathrm d t} = Q_1 \\ \displaystyle \frac 13 m_2 l_2^2 \frac {\mathrm d^2 \theta _2}{\mathrm d t^2} -\frac12(m_2 +m_4)gl_1 \mathrm {sin} \theta _2 \frac {\mathrm d \theta _2}{\mathrm d t} = Q_2\qquad(3) \\ \displaystyle \frac 13 m_3 l_3^2 \frac {\mathrm d^2 \theta _3}{\mathrm d t^2} -\frac12 m_3 gl_3 \mathrm {sin} \theta _3 \frac {\mathrm d \theta _3}{\mathrm d t} = Q_3 \\ \displaystyle \frac 13 m_4 l_4^2 \frac {\mathrm d^2 \theta _4}{\mathrm d t^2} -\frac12 m_4 gl_4 \mathrm {sin} \theta _4 \frac {\mathrm d \theta _4}{\mathrm d t} = Q_4 \\ \end{cases}$

其中， $Q_0$ , $Q_1$ , $Q_2$ , $Q_3$ , $Q_4$ 表示的是广义力，广义力是来自人体肌肉的力和阻力，这些力是人运动的本质，并且在一个步态周期内连续变化。

3.3 网络结构

作者提出疑问：
我们已知的是3D CNN可以提取时间信息，但是很难证明级联后的3D CNN是否可以进一步提取二阶运动信息，并且很难知道3D CNN是在提取运动信息，还是仅仅对特征图进行求和。

所以作者设计了一个模块，利用光流估计中使用的方法提取二阶运动特征，与3D CNN相比，这一方法可以明确地提取相邻帧之间的运动（从而进一步分析）。

framework

作者提出了一个名为LagrangeGait的网络模型，该网络的框架由三个分支组成。
顶层分支是运动分支，根据前述列出的拉格朗日方程，提取二阶运动特征；中间分支是提取外观特征的主干分支，借鉴的是GaitSet或GaitGL等骨架网络，在这一分支中浅层提取出的特征图被用于运动（顶层）分支；底层分支为视觉分支，负责预测输入剪影序列的视图，并产生可训练的视图嵌入模块。

给定一个步态剪影序列，表示为 $\pmb I = \{ \pmb I_1, \pmb I_2, ..., \pmb I_T \}$ ，其中 $T$ 为序列长度。

主干分支提取的浅层特征图为 $\pmb X_{origin} = [\pmb X_1, \pmb X_2, ..., \pmb X_t]$ ，其中 $\pmb X_i \in \Bbb R^{C \times H \times W}$ ， $\pmb X_{origin} \in \Bbb R^{t \times C \times H \times W}$ ， $t$ 是池化后特征图在时间维度上的长度。

随后， $\pmb X_{origin}$ 被送入不同的分支：
$\pmb X_{origin} = F_{3d}(\pmb I)\\ \pmb X_{motion} = F_{motion}(\pmb X_{origin})\\ \pmb X_{appearance} = F_{backbone}(\pmb X_{origin})\\ \pmb f_{view} = F_{view}(\pmb X_{appearance})$ 其中， $\pmb X_{motion}, \pmb X_{appearance} \in \Bbb R^{C_2 \times H \times W}$ , $\pmb f_{view} \in \Bbb R^{C_3}$ 以及 $F_{motion}, F_{backbone}, F_{view}$ 分别与上述三个分支相对应。

然后，对序列视角进行预测，并融合到 $\pmb X_{motion}$ 和 $\pmb X_{appearance}$ 中： $\hat p = F_{predict}(\pmb f_{view})\\ \pmb f_{motion} = F_{fusion_1}(\pmb X_{motion},\hat p)\\ \pmb f_{appearance} = F_{fusion_2}(\pmb X_{appearance}, \hat p)$ 其中， $\hat p \in \Bbb R^M$ 是预测视角， $M$ 是离散视图的个数； $\pmb f_{motion}$ 和 $\pmb f_{appearance}$ 分别是最终得到的运动特征和外观特征， $\pmb f_{motion} \in \Bbb R^{n_{motion} \times C_3}, f_{appearance} \in \Bbb R^{n_{appearance} \times C_3}$ ，其中 $n_{motion} , n_{appearance}$ 是使用HPP模块对运动特征图和外观特征图进行切片的条数， $C_3$ 是两个特征图的通道数（是相等的）。

最终用于步态识别的特征为：
$\pmb f_{final} = [\pmb f_{motion}; \pmb f_{appearance}] \qquad(4)$
上述方程的具体运算过程将在下文中进行详细解释。

3.3.1 运动分支（Motion Branch）

motion

一阶特征提取层使用三维卷积，二阶特征提取参考RAFT光流法【RAFT: Recurrent All-Pairs Field Transforms for Optical Flow】的结构（光流法的介绍可以参考这一篇博客：【入门向】光流法（optical flow）基本原理+深度学习中的应用【FlowNet】【RAFT】），并使用相邻帧响应关系： $\pmb X_0 = F_Q(\pmb X_{origin, i})\\ \pmb X_1 = F_K(\pmb X_{origin, i+1})\\ Att(\pmb X_0, \pmb X_1) = Softmax(\pmb X_0^T\pmb X_1)$ 其中， $F_Q$ 和 $F_K$ 是核为 $\times 1$ 的卷积层组合，进行维度合并； $Att(\pmb X_0, \pmb X_1) \in \Bbb R^{HW \times HW}$ 。

随后，相关图被重塑为 $Cor(\pmb X_0, \pmb X_1) \in \Bbb R^{H \times W \times HW}$ 。

因为我们已经假设在一帧的时间内，人体的移动是很微小的，那么对于 $\pmb X_{origin, i}$ 中的任一像素点 $\pmb x = (u, v)$ ，在 $\pmb X_{origin, i+1}$ 中对应的像素点为 $\pmb x' = (u+f^1(u), v+f^1(v))$ ，采样范围为： $N(x)_r = \{\pmb x + \pmb{dx}|\pmb {dx}\in \Bbb Z^2,||\pmb{dx}||_1 \le r \}$ 其中， $\pmb{dx}$ 是采样偏移量， $r$ 是采样半径。

对于 $Cor(\pmb X_0, \pmb X_1)$ 上的每一个像素点 $\pmb x$ ，我们根据 $N(x)_r$ 定义的公式进行采样，可以得到 $\pmb X_{corr,i}' \in \Bbb R^{H \times W \times (2r+1)^2}$ ，然后对通道的表示位置进行交换，得到 $\pmb X_{corr,i} \in \Bbb R^{(2r+1)^2 \times H \times W}$

最后，二阶特征图在时间维度上进行整合，得到一个特征图的序列： $X_{corr} = [X_{corr,1}; X_{corr,2}; ...; X_{corr,t-1}]$ 其中 $X_{corr} \in \Bbb R^{(2r+1)^2 \times {t-1} \times H \times W}$ 。

然后，使用三维卷积得到运动特征： $\pmb X_{motion} = F_{3dconv}(X_{corr}) \qquad(5)$ 其中， $F_{3dconv}$ 的卷积核大小为 $\times 3 \times 3$ ， $\pmb X_{motion} \in \Bbb R^{C2 \times T \times H \times W}$ 。

3.3.2 视图嵌入分支（View Embedding）

对于现有的步态识别模型，很少有考虑到视图本身的方法，本文作者提出了一种更轻量级的视图嵌入（融合）方法。
viewembedding

首先计算输入特征图 $\pmb X_{origin}$ 的视图特征： $\pmb X_{appearance} = P_{Max}(\pmb X_{origin})\\ \pmb f_{view} = P_{Global\_Avg}(\pmb X_{appearance})$ 其中， $P_{Max}$ 是时间维度上的最大池化， $P_{Global\_Avg}$ 是全局平均池化。

然后，预测的视角可以用下列方程进行计算： $\hat p = W_{view} \pmb f_{view} +B_{view} \\ \hat y = \text{arg} \text{max}\hat{p_i}$ 其中， $W_{view} \in \Bbb R^{M \times C_2}$ 和 $B_{view}$ 分别是全连接层的权重和偏置；视图预测结果 $\hat y \in \{0, 1, 2, ..., M-1\}$ ； $M$ 是视角数量，对于CASIA-B数据集 $M = 11$ ，对于OU-MVLP数据集 $M = 14$ 。

argmax是求出使因变量为最大值时自变量的值（集合），这里返回的是自变量的索引值。

对于每一个离散视角 $\hat y$ ，将训练两个嵌入 $E_{m,\hat y} \in \Bbb C_0$ 和 $E_{a,\hat y} \in \Bbb C_0$ 分别融合进运动和外观特征，并应用于HPP模块。

3.3.3 水平金字塔池化（HPP）

在步态识别中，水平金字塔池化（HPP）已经被广泛应用，本文除了对外观使用HPP之外，还对运动特征图做了同样的池化操作，在对两者进行池化结束后，与前面视角嵌入结果相连接，得到最终的特征投影。

对于HPP后得到的外观特征图表示为 $\pmb f_{app,1}, \pmb f_{app,2}, ..., \pmb f_{app,n}$ 其中， $\pmb f_{app,i} \in \Bbb R^{C_2}$ ， $n$ 是被分割出的条数，对于运动分支和外观分支，条数分别是 $n_{motion}$ 和 $n_{appearance}$ 。

作者原文这部分的 $F_{fusion_1}$ 和 $F_{fusion_2}$ 搞混了。。
假设 $\pmb X_{motion}$ 是 $z$ ，那么 $F_{fusion_1}$ 可以用下式进行计算： $\pmb f_{mv,i} = [\pmb f_{motion,i};E_{m,z}]\\ \pmb f_{finalm,i} = W_p \pmb f_{mv,i}, \space i=1, 2, ..., n_{motion} \\ \pmb f_{motion} = [\pmb f_{finalm,1}, \pmb f_{finalm,2}, ..., \pmb f_{finalm,n_{motion}}]$ 其中， $\pmb f_{mv,i} \in \Bbb R^{C_2 +C_0}$ ， $\pmb f_{finalm,i} \in \Bbb R^{C_2}$ ， $\pmb f_{motion} \in \Bbb R^{n_{motion} \times C_2}$ 。

对 $\pmb X_{appearance}$ 同理。

最后得到最终特征 $\pmb f_{final} \in \Bbb R^{(n_{motion}+n_{appearance})\times C_2}$ 。

3.3.4 损失函数

包括交叉熵损失和三元组损失，用公式分别表示为： $\mathcal L_{CE} = -\sum_{i=1}^N \sum _{j=1}^M y_{ij}\text {log}(p_{ij}),\space p_{ij} = \frac {e^{\hat p_{ij}}}{\sum _{j=1}^M e^{\hat p_{ij}}}\qquad(6)$ $\mathcal L_{trip} = \frac 1K \sum _{i=1}^K \sum _{j=1}^n max(m-d_{ij}^- + d_{ij}^+,0)\qquad(7)$
$\mathcal L = \mathcal L_{trip} + \lambda_{CE} \mathcal L_{CE}\qquad(8)$