1.姿态估计与识别技术的简介
2.研究方法
3.感悟
姿态估计与识别技术的简介
随着深度学习技术的快速发展,极大的推动了人体姿态估计与识别的研究。网络结构的精度得到了很大的提高,但是训练出来的模型参数很大。算法 的复杂度主要来自于模型本身的设计复杂对和深度学习卷积网络参数计算。
从静态图像与视频序列,单目标与复杂目标阐述了当前人体姿态估计与识别的研究现状。通过基于卷积神经网络的图像处理算法与传统图像处理算法进行比对,说明了轻量化网络的技术手段和高效率的特征提取技术。姿态估计与行为技术一方面应用于实现高质量的人机交互体验,另一方面,用于行为预判功能的实现,分析当前的行为,推测下一时间轴的若干行为。而识别的场景也从静态图像到动态视频,从单一个体到复杂场景多目标识别。基于视觉的人体姿态估计有两种方法,一种是基于模板匹配的方法,另一种是基于机器学习的方法。基于深度学习的人体姿态估计能够快速将样本标签中的人体姿态信息进行拟合,从而生成具有姿态分析能力的模型。
研究方法
1.卷积神经网络技术
典型的卷积神经网络的隐藏层大方向可以分为两个部分,一个线性变换层(卷积,池化,连接)负责模型的线性泛化能力。另一个是非线性层,用来激活函数来获取非线性分类能力。
卷积神经网络是最突出的特征是自动拟合所需的特征。首先通过卷积操作老获取特征,然后级联池化层来控制特征映射图的尺寸,再通过样本标签的对比来修正卷积核的参数,自动生成需要的特征图,这种特征学习方式脱离了传统图像识别人工特征的方式,使得图像识别的研究产生了质的飞跃。卷积层是卷积神经网络的基本层,负责卷积运算。在神经网络里面可以通过卷积层来获取不同尺度的特征输出,如1 × 1的卷积可以将多个尺度的特征图统一到一个空间维度。
在卷积神经网络当中,激活函数主要完成非线性化的功能。常用的激活函数包括sigmoid 函数、tanh 函数、Relu 及其变体。
2.轻量化网络技术
1.空间可分卷积
空间可分卷积主要指在将卷积核进行拆分或者变换,在分别进行卷积计算。矩阵分解的方式有很多,例如三角分解(Triangular Factorization),满秩分解,QR 分解(QR Factorization),奇异值分解(Singular Value Decomposition,SVD)。
2.深度可分离卷积
深度可分离卷积主要从卷积核的深度上来分割矩阵。这种机制与空间可分离卷积有本质的区别。深度可分离卷积是将卷积核的通道进行分割,而不是直接将矩阵进行分解。
3.特征金字塔网络
特征金字塔网络在特征提取的时候同时注重浅层网络的纹理特征和深层网络的语义特征。为了提取多层级特征映射图,避免单一了利用最后的层作为唯一的特征映射输出结果,应该需要利用每一层级的特征作为预测输出的根据。一种直接的方法就是直接在每一层级的输出中做一次预测。
3.人体姿态的编码技术
基于骨骼关键点方法首次由 Johansson 在其经典的移动灯显示实验提出。人体姿态的大部分信息由主要的关节关键点即可描述。由此,人体姿态估计领域的研究大多基于该描述方法。目前主流的数据集的标签也采用标注骨骼关键点的方式。本文所用人体姿态编码详细描述如下:
鼻子(0)、颈部(1)、左肩(2),左肘(3)、左腕(4)、右肩(5)、右肘(6)、右腕(7)、右臀(8)、右膝(9)、左踝(10)、右臀(11)、右(12)、右踝(13)、左眼(14)、右眼(15)、左耳(16)、右耳(17)、背景(18)。
1.自顶向下识别技术
自顶向下的识别技术主要路线是先检测每一个人体个体目标,然后检测每一个人体的关键骨骼点,这一步不仅得到了关键点的坐标,还得到了该关键点的标签。自顶向下的识别技术的关键多集中在目标检测上,要想得到精度更高的算法,必定需要精度更高的目标检测设计上。影响目标识别精度的因素有很多。例如:在人多的场景中,如果人体目标过于拥挤,预选框内出现多余人体肢干,会造成错分的情况
2.自底而上识别技术
在算法上能够一定程度克服算法线路上人多识别的问题,自底而上的算法不在检测整个人体目标,而是坚测人体部位得到原始关键点坐标。再通过定义约束方程来决定这些关键点的连接方式,从而得出人体姿态图。
感悟
读完这篇论文,对人体姿态估计与识别技术有了新的认知,深度学习对这项技术的发展具有推动作用。先使用深度可分离卷积代替普通卷积,以降低模型的参数量,再通过网络结构上使用更加高效沙漏模型的特征金字塔网络,以降低参数量带来的特征能力不足问题。论文的关键在于提高算法的精度和轻量化,对算法的效率性和精度的提高还有一定的空间。