【论文阅读】Skeleton Optical Spectra-Based Action Recognition Using Convolutional Neural Networks
这篇文章是基于正交时空编码图的方法,时空编码图使用的是HSV模型,其中色彩信息H用来编码骨骼的时空信息,饱和度S和亮度V用来编码骨骼关节点的运动速度信息,这篇文章的一些想法还是挺有意思的。
网络结构
整个网络结构如上图所示,对于一段骨骼序列,首先将其编码成正交时空编码图,然后将3个正交平面的时空编码图分别输入到卷积神经网络中,得到的预测结果融合得到最终的结果,主要介绍一下构建正交时空编码图的方法。
正交骨骼光谱图
因为需要将骨骼序列的时空信息都编码在正交骨骼光谱图中,正交骨骼光谱图是HSV模型,所以我们分别介绍:
- 编码骨骼的空间信息:编码骨骼空间时,首先在3个正交平面上分别累积骨骼点,这些点会保留人体骨骼的基本结构。
- 然后编码骨骼的运动信息,使用色彩H编码运动信息,和归一化很相似,只不过是沿着时间归一化。
- 然后为了加强空间信息,使之更容易分辨,将人体骨骼的左半部分按照【0-360】编码运动信息,将人体骨骼的右半部分按照【360-0】编码运动信息。将人体骨骼的脊柱不编码运动信息。
- 最后编码人体骨骼的速度信息,将速度信息编码到饱和度(S)和亮度(V)中,关节点的运动速度越快,饱和度和亮度就越大。
所以最终的彩色编码公式为:
其中H,S,V分别为色彩、饱和度和亮度的编码,
K
1
K_{1}
K1、
K
2
K_{2}
K2、
K
3
K_{3}
K3分别表示人体骨骼的3个部分(左半边身体、右半边身体和脊柱)。编码色彩的时候,左半边部分编码为【0-360】,右半边部分编码为【360-0】,脊柱不编码。编码饱和度时,只编码左右运动的速度,脊柱的运动速度因为噪声太大,不编码。编码亮度的时候左右部分编码为【0-1】,脊柱编码为【1-0】。
实验结果
实验结果如上表所示,可以看到每一步改进对最终的实验结果都是有益的。