[PaperReading]基于三维卷积的帕金森患者拖步识别

HenryFar

已于 2022-05-10 16:08:32 修改

阅读量790

点赞数 2

分类专栏：论文阅读文章标签：计算机视觉图像处理神经网络深度学习

于 2022-05-10 16:02:12 首次发布

本文链接：https://blog.csdn.net/weixin_50850903/article/details/124690681

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于三维卷积的帕金森患者拖步识别

导师推荐阅读

摘要

思路：首先利用特征提取模块从经过预处理的视频序列中提取出时空特征，然后将得到的特征在不同空间和时间尺度上进行融合，之后将这些特征送入分类网络中得到相应的识别结果。

1. 引言

以往的工作中，通过运动传感器来采集运动数据是最常用的一类方法。
- Camps等人，一种通过运动传感器和深度学习技术结合的方法来识别PD患者冻结步态。
- Mileti等人，利用安装在下肢的可穿戴传感器采集步态运动信号。
- Nguyen等人，使用深度相机Kinect来获取包含运动信息的人体3维骨架，然后利用骨架信息建立人体步态模型来检测异常步态。
- 高发荣等人，采集下肢表面肌电信号来实现步态模式的准确识别。
- Morris等人，使用安装在人体下肢的惯性传感器借助计算机生成人体下半部分的动画模型，并统计这些人体动画模型在行走过程中的各种运动参数来对患者的冻结步态进行判断。

传感器不方便，安装和校准困难。

使用计算机视觉的方法来对行为进行识别。（非接触不需穿戴额外设备）
- Hu等人，提出了一种基于视觉的帕金森病患者冻结步态识别方法，该方法首先检测患者的腿和脚的关键点，然后利用图卷积的方法来判断PD患者是否具有冻结步态。
- Tang等人，提出了一种利用摄像机实现行走过程中关键动作检测的方法。
- Wolf等人，利用多视点3维卷积神经网络（Mutil-View 3-Dimensional Convolutional Neural Network, MV3DCNN）从步态序列中获取时空信息。
- 刘天亮等人，使用融合时空双网络流和视觉注意的方法来进行行为识别。其首先逐帧提取出视频中行为运动的光流特征，然后再使用深度学习的方法对视频图像和光流特征进行分类获得分类结果。
- 吴培良等人，提出一种视角无关的时空关联深度视频行为识别方法。
上述工作，任务目标并没有以PD患者的拖步状态研究为主要研究对象，在拖步的识别准确率上没有达到最优，而本任务仅仅关注拖步这个现象进行研究。

3维卷积核能对连续帧图像进行卷积，提取出图像序列的时间和空间特征。

3维卷积网络结构中经常使用的有C3D网络、D3D网络和P3D网络结构，这些网络结构都在行为识别相关任务中有很好的表现，但是3维卷积网络对应的网络参数会比2维卷积更多。

本文避免了使用层数过多的网络结构，结合3维卷积网络结构和拖步状态患者的行走特点，提出了一种新的网络结构来实现拖步患者的准确识别，该网络结构大致可分为特征提取模块和特征融合模块。

首先特征提取模块用于从图像序列中提取时空特征，然后再经过特征融合模块对特征进行融合判断。
对于特征提取模块中的3维卷积的结构，本文选择参考最基础的C3D网络；而特征融合模块则参考GaitSet的网络结构。
该网络结构的输入数据是连续的“行走”图像序列。

2. 拖步识别

使用TUG(the Timed Up-and-Go)测试视频为基础数据来评估PD患者的基本运动功能。包括坐、站立、行走、转身、走回和坐回6个子任务。

拖步识别的整体流程如图所示，首先需要对TUG测试视频进行自动分割获得其中的==“ 行走”子任务，并对其进行预处理以后作为网络的输入数据。对于识别网络的结构可以分为两个模块进行描述，第1个是用于从图像序列中提取时空特征的特征提取模块==，第2个则是将第1个模块得到的特征在不同的空间和时间尺度上进行融合的特征融合模块，最后使用全连接层(Fully Connected layer，FC)和sigmoid激活函数对融合后的特征进行分类识别。

整体流程结构

2.1 数据处理

正样本：PD患者的临床TUG测试视频。
负样本：相同拍摄环境下录制正常人步态的TUG测试视频。
差异：主要表现在脚尖的运动差异。正常人行走过程中是先脚跟着地后脚尖着地，而对于拖步患者则表现为先脚尖着地后脚跟着地或者整个脚掌在地上拖拽前行。

使用TUG视频子任务自动分割算法自动提取出"行走"子任务的图像序列,然后使用Mask R-CNN将“行走”片段中每一帧人体区域进行框选，同时为了进一步地消除不同视频录制是背景的干扰，使用人体语义分割方法NLGInet将人体前景和背景进行分离。
取1s(25fps)作为一个样本。
本文的工作主要关注腿部的运动状况，而上本身并不能提供太多的有用信息，所以最终保留图像的下1/4，得到图像的尺寸为32×64。总共收集到362个包含拖步状态的正样本和364个正常步态的负样本来组成数据集。

2.2 特征提取模块

C3D单元结构如图所示：

C3D单元结构
C3D单元仅包含1个3×3×3卷积核的3维卷积层、1个激活函数ReLU层和批归一化层(BN)，避免多层的卷积结构造成网络参数过多的问题。

在本文中，特征提取模块主要由3个阶段组成。如图所示，特征提取模块的第一个阶段，使用1个卷积核为1×3×3的3维卷积用来提取输入图像序列的空间信息的同时保持特征V₁在时间维度上的独立，之后的两个阶段是使用C3D单元来提取图像序列的时空信息分别得到特征V₂和V₃。

识别网络结构

2.3 特征融合模块

GaitSet在文章中提出一种利用步态序列来识别行人的方法，把步态序列看作一组步态轮廓的集合，而行走序列中每张图片的轮廓都有其独特的外观。即使这些序列被打乱，也不难通过观察轮廓的外观将它们重新排列成为正确的顺序。
在本任务中认为区分拖步和正常步态的关键是行走图像序列中的少量帧，但是本文认为时间上的顺序是可以提供有用信息的。

如网络结构图所示（上图），特征融合模块中，主要使用了MAX操作、水平金字塔池化(Horizontal Pyramid Pooling, HPP)、分段水平金字塔池化(Period-wise Horizontal Pyramid Pooling, PHPP)和跨接的上采样多种操作。

图：HPP、PHPP

hpp phpp