View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition

该论文提出了一种方法,通过使用视图适应子网络为每个动作视频找到最佳角度,进行旋转处理,以改善数据集质量。网络首先利用LSTM确定旋转参数,然后对骨架序列进行变换并输入主网络进行分类。变换涉及X、Y、Z轴的旋转,并通过端到端训练进行优化。此外,将骨架序列转化为骨架图以辅助关节位置的变换处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是一个论文的笔记
大致思路:对每一个动作视频选一个更好的角度进行旋转处理(这么理解,原来的数据集的摄像头的位置不咋地,导致数据集中的视频不咋地,而这篇论文做的就是给数据集中的每个视频自动找一个好的角度)然后送入主网络进行分类。
在这里插入图片描述先通过view adaptation subnetwork 找到一个合适的角度,再变换,再分类

整个网络模型

在这里插入图片描述

如何进行变换

在这里插入图片描述αt,βt,γt是沿X轴、Y轴和Z轴顺时针旋转的角度
v‘是旋转后的位置

LSTM如何找角度

在这里插入图片描述
hrt是LSTM隐式输出向量,Wr是全连接层的权重,br是全连接层的偏置
在这里插入图片描述
dt是距离
h d t∈RN×1为其LSTM层的隐藏输出向量(这个我也分的不是很清楚,具体的看这里)

端到端训练的反向传播

在这里插入图片描述
在这里插入图片描述

J是一帧中关节个数

是损失反向传播到视图自适应子网的输出 是损失反向传播到视图自适应子网的输出

CNN方面
简而言之就是:将骨架序列映射到称为骨架图的图像映射,然后对每一个关节点做一个变换

在这里插入图片描述
floor是最大整数函数,vtj是第t帧的第j个关节,cmax和cmin分别是训练数据集中所有关节坐标的最大值和最小值

在这里插入图片描述
12由1和10可得

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值