Fall detection based on fused saliency maps

最新推荐文章于 2025-05-12 17:13:12 发布

七77.

最新推荐文章于 2025-05-12 17:13:12 发布

阅读量518

点赞数 8

分类专栏：跌倒检测文章标签：视觉检测

本文链接：https://blog.csdn.net/weixin_46687145/article/details/135240857

版权

跌倒检测专栏收录该内容

4 篇文章

订阅专栏

摘要

跌倒检测正引起学术界和工业界的越来越多的关注。由于人体在图像中相对于背景占据的空间较小，因此复杂的背景影响了人体跌倒或非跌倒特征的提取。为了减少复杂背景的干扰，提出了一种基于融合显著图的跌倒检测方法，该方法由显著图生成模型和跌倒检测模型两部分组成。对于显著图生成模型，通过M级分割获取不同层次的分割图像。显著性检测主要采用双流卷积神经网络提取全局和局部特征生成显著图。显著图融合算法根据平均结构相似度自动学习权值来融合显著性图。对于跌倒检测模型，利用融合的显著图，构造一个简单的深度网络来提取跌倒与非跌倒的判别特征。实验结果表明，该方法在UR 跌倒检测和自建NT跌倒检测数据集上的准确率分别为99.67%和98.92%。与使用RGB图像和深度图像相比，该算法的收敛速度最快。本文提出的跌倒检测方法在降低复杂背景干扰方面比其他方法具有更高的准确率和更快的收敛速度。

1.介绍

随着年龄的增长，人的各种生理机能严重退化，跌倒等事故频发。跌倒检测是人类异常行为检测的一个重要课题，尤其是对独居老年人的异常行为检测。统计数据显示，摔伤是79岁及以上老年人受伤的主要原因，也是[22]所有年龄组中受伤的第二大原因。一项调查显示，在65岁或以上的老年人中，35%的人每年至少跌倒一次。随着医疗保健行业的发展和世界老年人口的快速增长，对监测系统，特别是跌倒检测系统的需求不断增加。因此，迫切需要一种实时、准确的算法来检测跌倒事件。

现有的跌倒检测方法主要分为两部分:基于非视觉传感器和基于完全视觉的方法[2,7,12]。基于非视觉传感器的方法，由于可穿戴设备的存在，给人带来了不适感。基于视觉的方法可以处理从采集设备获得的信息，以检测跌倒。例如，Kinect提供了人体跌倒检测设备，与基于非视觉传感器的方法相比，可以提高舒适度。为了获得三维空间信息，研究人员通常直接对视频进行分析。Min等人[35]提出了一种基于三维骨骼信息的支持向量机(SVM)室内环境跌倒检测方法。Alzahrani et al.[20]提取3D骨骼，通过对比不同骨骼特征组合的性能来选择特征。为了提高精度，还将两种方法结合使用[8]。Jansi和Amutha[4]使用了来自加速度计和深度图的两种不同的模态信号来探测下落。这些基于骨骼数据和深度图像的方法有利于保护老年人的隐私，特别是在家中。然而，大多数公共场景视频采集设备只能采集RGB图像，无法采集骨架数据和深度图像。因此，基于RGB图像的跌倒检测方法在现实生活中有更广泛的应用。

在RGB模式下使用的基于深度学习的方法已经在许多计算机视觉任务中取得了优异的结果，如动作识别、目标检测等[9,13,34,47]。特别是随着老龄化的加剧，跌倒检测已成为研究的热点之一，深度网络在其中的应用也越来越多。由于大多数判别特征都包含在二维图像中，所以很多研究者将视频转换为图像帧进行跌倒检测研究，以节省计算量。Cai等人[6]提出了一种使用多任务沙漏卷积自编码器的方法，沙漏残差单元提取多尺度特征，多任务机制增强了跌倒检测的特征表征。Lie等人[30]将卷积神经网络(CNN)和长短期记忆(LSTM)应用于人体跌倒检测，该方法基于不同角度的历史运动图像。Ge等人[16]集成了协同显著性增强的循环卷积网络进行跌倒检测。Khraief等人[21]提出了利用多模态数据进行跌倒检测的加权多流深度卷积神经网络。这些方法在跌倒检测中取得了良好的效果。然而，这些方法提取的特征受到复杂背景的严重干扰，缺乏判别信息。

对人类视觉系统的研究表明，显著性与场景的唯一性和稀缺性有关，显著性检测可以减少复杂背景[40]的干扰。显著性检测一般分为自底向上和自顶向下两种方法，已经在计算机视觉的许多方面得到了探索[1,10,26]。一方面，自底向上的方法主要基于底层的视觉特征[45]。Zhang等人[46]提出了基于流形正则化支持向量机的显著性检测方法，将局部正则化和全局正则化分别构建到支持向量机中，考虑显著性对象的完整性，发现远程语义结构。Li等人[28]将深轮廓检测模型转换为不需要任何人工掩码的显著性目标检测模型。Huo et al.[19]提出了宽场景下显著目标总体位置和轮廓特征的算法，包括边界均匀性和迭代优化。另一方面，自顶向下方法假定了具有更多语义信息的显著性检测特征[42]，Li等人的[29]引入了局域约束的上下文编码，在显著性检测中加强局域约束和上下文约束，有利于定位自然图像中特定类别的物体。Qiu等人提出了一种自顶向下的自动融合方法，利用阀模块对粗语义信息进行控制。这些方法在显著性检测方面的效果各不相同，各有其独特的优势。

一些研究者认为自上而下和自下而上的方法都涉及到观察力，这促使他们以一种联合的方式去探索这两种方法。Liu等人[32]构建了基于自底向上思想的全局引导模块和特征聚合模块，使从上至下的方式将粗语义特征与细语义特征很好地融合在一起，使高级语义特征逐步细化，得到细节丰富的显著图。Wang et al.[41]提出了一种融合自顶向下和自底向上显著性推理的显著目标检测方法，采用迭代和协作的方式。自顶向下和自底向上的过程用于粗到细的显著性估计和语义更丰富的特征。Zhao et al.[48]提出了金字塔特征注意力网络，该网络聚焦于有效的高层上下文特征和低层空间结构特征，利用注意力机制和边缘保持损失学习细节特征进行边界定位。由于显著性检测可以获得有效的特征，包括细节特征和粗糙特征，研究者将其应用于跌倒检测。Leite et al.[25]使用了一种多流方法来检测跌倒事件。将光流、显著图和RGB数据输入到VGG-16网络的每个流中，通过支持向量机对跌倒或非跌倒事件进行分类。这种方法不仅耗时，而且需要大量的计算资源。

综上所述，观察到RGB、骨架和深度图像通常用于跌倒检测。但是在大多数公共场景中，由于缺乏提取骨架和深度图像的设备，一些方法的应用受到限制。此外，利用不同的预处理方法和网络对RGB数据的特征提取进行了广泛的探索，在检测跌倒时，背景对特征的影响比较大。此外，人体在图像中相对于背景占据的空间较小，因此复杂的背景影响了人体跌倒或非跌倒特征的提取。显著性检测可以获得显著的人体区域，减少来自背景的干扰。提出了一种基于融合显著图的跌倒检测方法，包括显著图生成和跌倒检测两部分。为了提取更有效的信息，保证人在整体空间中的相对位置，采用双流模型[38]提取全局和局部特征进行显著性检测。同时，不同分割条件下提取的特征[11]也不同，为了尽可能充分地提取出人的综合信息，我们生成显著图，并在不同分割级别对其进行融合，得到跌倒和非跌倒的判别特征。

本文的主要贡献如下:

(1)将融合显著图引入到跌倒检测中来表示动作信息，与RGB和深度图像相比，这种表示方法具有更低的计算要求和更多的判别特征，减少了复杂背景的干扰，有利于高效检测。

(2)提出了一种新的显著图生成模型，利用全局特征和局部特征互补，生成融合显著图。此外，根据显著图在不同水平上的贡献，引入平均结构相似度来学习权重。

(3)创建了一个新的具有挑战性的数据集NTFD，用于显著性检测和跌落检测的研究和评估。为了减少人工标注的时间，本文提出了一种快速、简便的人工区域自动标注方法，这个具有复杂背景的数据集是公开的。

第二节讨论了本文提出的基于融合显著图像的跌倒检测方法。实验和结果在第3节描述，第4节以结论结束本文。

2.基于深度显著图像的跌倒检测

跌倒检测是计算机视觉中的一个重要课题，受到越来越多学者的关注。显著性检测可以获得包括细节和粗糙特征在内的有效特征，我们想要生成显著图，然后用它们来检测跌倒，以减少背景干扰，改善跌倒和非跌倒的判别特征。

2.1框架概述

本文方法的过程如图1所示。引入显著图生成方法，从RGB图像中获得融合的显著图。并介绍了基于深度特征的跌倒检测方法。此外，表1给出了我们方法的主要符号列表。

图1.框架的过程，显著图的生成是从RGB图像中获取融合的显著图像，然后通过深度特征进行跌倒检测。

表1.主要数学符号说明

2.2显著图生成部分

显著图生成部分由M级分割模块、显著性检测模块和显著性标记模块组成，如图2所示.，为了与前人的工作公平比较，采用M级分割方法[26,40]。M级分割后的图像I可以表示为{ $I_1$ , $I_2$ , $I_3$ ，…， $I_m$ ，…， $I_M$ }，其中 $I_m$ 是图像I在m级的分解，由Rm区域组成，如图2左侧所示。 $I_1$ 是由最多的区域组成的最精细的分解， $I_M$ 是由最少的区域组成的最粗糙的分解。

在显著性检测模块中，我们构建了一个双流CNN模型，该模型由两个独立的流(global stream和local stream)组成，分别负责全局和局部特征提取的任务，如图2中间所示。需要注意的是，双流CNN模型在训练和测试时的输入是不同的。

在训练过程中，可以将RGB图像裁剪成两部分:整幅图像和局部区域。使用预训练的Faster-RCNN作为人体检测算法来获取人体块。将整个图像输入全局流提取全局特征，将人体块输入局部流提取人体特征。在测试过程中，整个图像被送入全局流，并输出全局特征 $f_a$ 。分割得到的每个区域作为局部流的输入，输出局部特征 $f_b$ 。由于双流网络的局部流只使用人类区域进行训练，因此在输入背景区域如轮廓时可以提取出粗特征，在输入人类区域时可以获得详细特征。因此， $f_b$ 是显著性检测的判别特征。所有的输入图像都归一化为227 × 227。

双流CNN有六层，包括三个卷积层和每个流的三个全连接层，分别从全局流和局部流得到两种不同的特征向量，这些从不同区域获得的特征向量共同定义了我们用于显著性检测模块的特征。因此将两个不同的特征连接起来作为最终的融合特征，过程表示为:

$f_x=f(f_a,f_b)\quad\quad\quad\quad(1)$

其中，fx为融合特征，f(⋅)为拼接函数，fa、fb分别为从整个图像和局部区域捕获的特征。由于背景区域和人的区域所获得的特征fb不同，融合特征也存在差异。将融合特征输入两层全连接层和一层输出层的神经网络，得到显著性评分，显著性评分是通过大量RGB图像及其显著性标签进行训练的。最后一个全连接层的输出馈送到输出层，通过softmax函数在显著性标签上产生一个分布。该网络根据从双流CNN中提取的特征生成每个区域的显著性评分，将每个区域的显著性分数赋给相应的像素，得到每个分割层次的显著性图。

对于显著图融合模块，我们可以捕获显著图S={ $S_1$ , $S_2$ , $S_3$ ，…， $S_m$ ，…， $S_M$ }，如图2右侧所示。我们假设融合显著图是在单个分割层次上的图的线性组合，并通过运行最小二乘学习权值。特别地，引入了平均结构相似度(MSSIM)[39]来学习权值,m越小，分割越详细，在这个分割级别得到的显著图越接近标签。假设显著性标记 $S_g$ 和显著图 $S_m$ 之间的m越小，MSSIM越大。可以发现，m越小的显著图 $S_m$ 对融合的贡献越大。即显著图 $S_1$ 对融合显著图 $S_{f_k}$ 的贡献最大。因此，我们在 $S_1$ 的基础上积累融合显著图，具有不同显著图数目的融合显著图为 $S_{f_1}=w_1S_1$ , $\mathbf{S}_{\mathbf{f}_2}=w_1\mathbf{S}_{\mathbf{1}}+w_2\mathbf{S}_{\mathbf{2}},\mathbf{S}_{\mathbf{f}_2}=w_1\mathbf{S}_{\mathbf{1}}+w_2\mathbf{S}_{\mathbf{2}}+w_3\mathbf{S}_{\mathbf{3}},\ldots,$ $\mathbf{S}_{\mathbf{f_{k}}}=\sum_{m=1}^{K}w_{m}\mathbf{S_{m}}.$ 权重的定义与 $S_g$ 和 $S_m$ 的MSSIM成正比。因此，融合的显著图被定义如下:

$\begin{aligned}\boldsymbol{S}_{f_{K}}=\sum_{m=1}^{K}w_{m}\boldsymbol{S}_{m},K\boldsymbol{\in}[1,M] & & \\ \left.\text{s.t.}\left\{\begin{array}{l}\{w_{m}\}_{m=1}^{K}=\mathop{\mathrm{argmin}}_{w_1,w_2,\ldots w_{K}}\left(\boldsymbol{S}_{g}-\sum\limits_{m=1}^{K}w_{m}\boldsymbol{S}_{m}\right)_{f}^2\\ w_{m}\varpropto\text{MSSIM}(\boldsymbol{S}_{g},\boldsymbol{S}_{m})\\ \text{MSSIM}(S_{g},S_{m})=\frac{1}{R_m}\sum\limits_{j=1}^{R_{m}}SSIM\left(x_{j},y_{j}\right)\end{array}\right.\right. & & \left(2\right)\end{aligned}$

其中， $S_{f_k}$ 和 $S_g$ 分别为融合了K显著图和显著性标签的显著图。其中 $S_m$ 和 $W_m$ 为m级的显著图和权值。 $x_i$ 和 $y_j$ 分别为显著标签和显著图第j个区域的图像内容， $R_m$ 为局部区域。

2.3通过显著性特征检测跌倒

为了提高跌倒检测的效率，我们构建了一个简单的深度网络，基于融合显著图提取跌倒与未跌倒的判别特征，如图3所示。

深度网络以五层神经网络为基础，采用融合的显著图作为输入。它由两个卷积层(Conv)和两个池化层以及一个全连接层(FC)组成，在卷积层之后，分别使用最大池化实现平移不变性，卷积和池化层的核大小分别为5 × 5和2 × 2，卷积层和全连接层采用ReLU和sigmoid函数。

其中，g∗(⋅)和p∗(·)是卷积函数和池化函数，函数 $g_1$ 以融合显著图 $S_{f_k}$ 和初始参数 $\Theta_1$ 为输入,函数 $g_2$ 以输出 $l_1$ 和参数 $\Theta_1$ 为输入。h为全连接，O为神经网络的输出。通过最终输出O来检测跌倒或非跌倒。对于有N个训练样本的分类问题，交叉熵损失表示为:

$E=-\sum\limits_{n=1}^Ny_n\text{log}(O_n)\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(4)$

其中 $y_n$ 表示第n个真实概率分布， $O_n$ 表示第n个预测概率分布。

2.4算法流程图

本文算法的流程图如图4所示。以RGB图像为输入，通过显著图的生成得到融合显著图，包括显著图的分割、显著图的检测和显著图的融合。基于融合显著图的跌倒检测可以减少复杂背景对跌倒检测的影响。我们的方法在算法1中进行了总结。

3.实验

我们在Intel Core i7-6800 K CPU, NVIDIA GTX 1080 GPU的计算机上进行了实验。本系统主要在MATLAB R2014a和Caffe框架下，Windows 10环境下实现。为了验证该算法的有效性，在UR跌倒检测数据库[23]和我们自建的NT跌倒检测(NTFD)数据库中对该算法进行了研究。

3.1数据集

UR跌倒检测数据库(URFD)[23]包含30次跌倒和40个活动序列。跌倒事件用两个kinect和相应的加速度计数据记录下来，每次跌倒都包含一系列深度图像、RGB图像、同步数据和加速度计数据。在每个场景中，有几个人执行类似的动作，五人分别进行两种跌倒方式，通过站立和坐两种重叠的视角观察跌倒。

我们构建了一个名为NT跌倒检测(NTFD)的数据库，以方便对跌倒检测的研究和评估。为了建立这个数据库，我们最初通过Kinect收集了超过5000张图像，这些图像可以分为三种类型:RGB图像、深度图像及其标记的索引图。该数据库包括5个动作:坐、弓、站、四肢着地、躺在地上，如图5所示。前三个动作定义为非跌倒，后两个动作定义为跌倒。为了说明该算法的实用性，我们在不同的环境下与多人进行了数据采集。我们从NTFD数据库中选取2100幅具有显著目标像素标注的图像，将其分为3部分:1200幅用于训练，300幅用于验证，600幅用于测试。从每个动作中随机选取训练图像，取其平均值。

3.2显著性图的影响

为了验证显著性检测的有效性和不同层次显著图融合的必要性，我们对不同层次的显著图和融合结果进行了定量评价。精确召回(Precision-Recall, PR)曲线是评价显著性区域检测性能的常用方法。将正确识别的目标区域和背景区域分别视为真正和真负。当背景部分和目标部分被错误识别，分别被视为假阳性和假阴性。

由于显著图和显著标签一般不相同，因此对每一层的显著图进行二值化处理得到二值图像（像素只有0，1），针对不同的显著图自适应地确定二值化阈值，并将自适应阈值定义为显著图像素值的均值的两倍。通过对显著图和标准图的二值图像逐像素比较，计算其查全率和查准率。在绘制所有显著性图的PR曲线时，选择从0到255的阈值来计算一组相应的精度和召回值，然后分别取平均值。

为了验证所提出的算法对每个显著图的融合性能优于每个独立的显著图。一方面，不同水平显著性图的PR曲线如图6a所示。然而，无论是正确率还是召回率都不能全面评价显著性图的性能。因此，F-measure被用来评估显著图(F-measure是精度和召回的调和平均值)，其中参数 $\beta ^2$ 被设置为0.3，以更重视精度而不是召回[26]。分别计算不同水平显著性图的F-measure、precision和recall，如图6b所示。

从PR曲线中可以看出，显著性图S1和S15在几乎整个召回范围内分别达到了最高和最低的精度。从S1到S15，在相同的召回次数下，精度逐渐降低，因此S1的表现最好。在图6b中，召回率呈上升趋势，而准确率呈下降趋势。除S2外，F-measure也呈现出下降趋势。也就是说，m越小，显著图Sm (m= 1,2，⋯⋯15)与显著标签之间的关系就越密切。实验结果验证了显著性标签与显著图Sm之间的MSSIM随m的减小而增大的假设。区域的数量由最大到最小组成，每个分割的尺度由最精细到最粗糙，分割越精细，提取的特征就越细致有效，在Feasure、precision和recall等方面都表现得越好。

另一方面，我们通过融合不同数量的显著图来验证融合显著图的性能。为了验证K的选取对显著图的影响，我们计算了不同水平下每个显著图和不同K下融合显著图的精度、召回率和F-measure，分别如表2所示。

我们可以看到，对于所有两个或两个以上显著图的融合，融合后的精度和F-measure都明显好于独立显著图，而召回率则明显低于独立显著图。一般情况下，融合后的图像的显著性优于各个层次的图像。对于不同数量显著图的融合，当融合的显著图数量K为8时效果最好。当K小于8时，性能逐渐提高，当K大于8时，性能逐渐下降。这是因为当K达到一定值时，融合过多的显著图会导致特征冗余，影响融合性能。因此，融合显著图表示在K= 8时得到的最佳显著图 $S_{f_8}$ ，如果下面没有指定。

3.3跌倒检测的准确性

融合了NTFD和URFD的显著图生成如图7所示，前两幅是NTFD数据库中RGB图像及其对应的融合显著图，中间两行和最后两行是RGB图像，在URFD数据集中从不同角度生成融合显著图。

我们将所提出的跌倒检测算法与其他有代表性的方法进行了比较。UR跌落检测结果如表3所示。传统的机器学习方法，如支持向量机和k-Nearest Neighbor (kNN)，可以通过组合不同的模态数据来获得更好的性能。对于单一的RGB图像，传统方法的组合表现出良好的性能。同时，基于深度学习的跌倒检测方法很有潜力，识别准确率随着深度网络的优化逐渐提高。此外，我们的五层深度网络与LeNet类似。当使用融合显著图时，它达到99.67%的准确性，比LeNet高10%。其中包含显著图的Ref.[24]算法的准确率为98.84%，而基于融合显著图的方法的准确率提升了0.83%。该方法的性能优于多模态数据和传统方法相结合的结果。比较表明融合显著图在跌倒检测中的优势，由于融合显著图可以减少复杂背景的干扰，在去除背景信息的情况下可以提高精度。

在NTFD数据库上，我们认为在现实生活中可以采集到的跌倒图像较少，当测试图像的数量大于训练图像时，测试图像更加多样化。因此，我们用从RGB图像中生成的600张融合显著性图进行实验，其中100张用于训练，500张用于测试。我们还使用通过Faster-RCNN提取的RGB人块对我们的深度网络进行了相同的实验。在NTFD数据库上的实验结果如表4所示。与RGB人块和深度图像相比，融合显著图具有更好的性能。与融合显著图相比，人体块和深度图像的准确率分别降低了2.36%和9.72%。值得注意的是，融合显著图在跌倒检测中表现出良好的性能。

为了进一步验证算法的可靠性，我们分别在不同比例的训练样本和测试样本下进行了实验。在图8中，x轴表示训练样本的个数，不同颜色的线表示测试样本的个数。实验结果表明，在样本数量较少的情况下，特别是在训练样本数量为20 ~ 30的情况下，该方法也能取得较好的性能。并且随着训练样本与测试样本的比值的变化，它始终保持在98%以上。

3.4不同模态图像的跌倒检测的收敛性能

实验结果表明，融合显著图在跌倒检测中比RGB块和深度图像具有更好的识别性能。为了验证收敛性能，我们在融合显著图(fusion saliency maps)、深度图(depth image)和RGB人体块(human blocks)三种不同的图像上使用2.3节中提到的深度网络进行了实验。因为收敛性对于评价算法的质量非常重要，快速收敛速度可以加快模型的训练，节省时间，便于模型更新。通过可视化的训练损耗趋势来说明网络的收敛速度，如图9所示。融合显著图的训练速度比其他两种模态数据快得多。此外，我们测试了三种用不同图像训练的模型，使用融合显著图比其他方法更快。当我们使用融合显著图来检测跌倒的人时，由于速度的提高，我们可以减少伤害。

3.5误检案例分析

误检在跌倒检测中是不可避免的，对失败案例的分析有助于发现缺陷，提高性能。对于UR跌倒检测数据库，错误识别样本的示例显示在图10的第一列，你可以看到那个人正在往下掉，这是因为跌倒是一个过程，网络很难判断这个过程，但它被判断为非跌落而发生误检。此外，最后三列显示了NTFD数据库的另一个失败案例。由于物体亮度、对比度等因素的影响，部分背景明显比图像中的人更明显，这将影响识别的准确性。

4结论

提出了一种基于融合显著图的跌倒检测方法，解决了复杂背景造成影响的问题。该方法主要通过显著图生成模型和跌倒检测模型来实现，显著图生成模型是为了获得不同分割级别的显著图，其中使用双流卷积神经网络提取全局和局部特征，然后结合MSSIM度量每个显著图的贡献，学习融合显著图的融合权值。对于跌倒检测模型，显著图可以减少复杂背景的干扰，保留的特征主要集中在人的动作上，因此基于融合显著图构造简单深度网络，提取跌倒或不跌倒的判别特征。在两个可用的跌倒数据集上进行的实验表明，融合显著图的质量在每个分割层次上都优于原显著图。与RGB人块和深度图像相比，融合显著图的跌倒检测精度和收敛性得到了提高。本工作尝试将由RGB图像生成的融合显著图应用于跌倒检测，综合性能较好。未来，我们认为有必要讨论以下几个部分:首先，我们将研究显著图与其他特征如光流、梯度信息、稀疏特征等的融合性能。其次，我们将使用更大的数据库来开发更强大的跌倒检测方法，这将实现实时监测，并将适用于实际应用。