Towards Privacy-Supporting Fall Detection via Deep Unsupervised RGB2Depth Adaptation-CSDN博客

本文链接：https://blog.csdn.net/weixin_46687145/article/details/134600258

通过自适应深度无监督RGB2Depth实现支持隐私保护的跌倒检测

摘要

跌倒检测是健康监测中的一项重要任务，因为它允许系统触发警报，从而在有人跌倒时能够更快地进行干预。尽管之前的大多数方法都依赖于标准 RGB 视频数据，但这种详细的外观感知监控会带来严重的隐私问题。另一方面，深度传感器更能保护隐私，因为它们仅捕获物体与传感器或相机的距离，忽略颜色和纹理信息。在本文中，我们介绍了一种隐私支持解决方案，该解决方案使 RGB 训练模型适用于深度域，并在测试时利用深度数据进行跌倒检测。为了实现跨模态跌倒检测，我们提出了一种无监督 RGB 域到深度域 (RGB2Depth) 跨模态域适应方法，该方法在训练期间利用标记的 RGB 数据和未标记的深度数据。我们提出的管道包含用于特征桥接的中间域模块（IDM）、用于模态辨别的模态对抗性损失、伪标记深度数据和标记源数据的分类损失、同时考虑源域和目标域的三元组损失，以及一种新颖的自适应损失权重调整方法，用于改善各种损失之间的协调。我们的方法在跌倒检测的无监督 RGB2Depth 域适应任务中取得了最先进的结果。代码可在https://github.com/1015206533/privacy_supporting_fall_detection上获得。

1.介绍

根据联合国的预测，全球13%的人口年龄在60岁或以上[1]，开发负责任的技术来支持和帮助老年人变得越来越重要。跌倒是老年人的主要危险，不仅对老年人造成身体伤害，而且对独居的年轻人也造成伤害。据世界卫生组织1报告，跌倒每年导致约684000人死亡，3730万跌倒严重到需要医疗护理才能康复。有不同的方法来实现跌倒检测，例如可穿戴设备[2]-[8]，使用Wi-Fi信号[9]-[13]或视频监控系统[14]-[20]。基于视频的方法的一个优点是其身体实用性，因为与可穿戴设备相比，它们不会给用户带来身体负担或需要复杂的操作程序[10]。基于视频的跌倒检测方法通常建立在完善的动作识别模型上，以实现准确的结果[19]。

当前用于跌倒检测的大多数数据集和方法依赖于RGB数据进行训练和评估[20]。然而，隐私保护最近已成为社区内日益关注的领域，基于RGB的数据的使用，因其可能泄露详细的个人信息而受到批评。因此，人们对隐私保护框架的兴趣越来越大。与RGB数据相比，深度数据（也称为3D数据）能够表示对象与相机或传感器的距离。深度数据不保留详细的纹理信息，极大地增强了其隐私保护特性。这种替代方法解决了隐私问题，同时仍然为跌倒检测系统提供了有价值的信息。因此，根据用户的需要，在测试时利用深度数据的跌倒检测方法将是首选，因为它可以获得准确的结果。然而，现有的用于跌倒检测的基于深度的数据集相对较小，为最先进的活动识别架构提供了有限的训练和测试数据，众所周知，这些体系结构需要大量的数据。考虑到不同模态的隐私保护能力不同，人们可以根据自己的需要在测试时选择使用不同的模态。因此，跨模态自适应成为跌倒检测的一个重要且具有挑战性的研究方向，可以利用在大规模基于RGB的数据集上预先训练好的成熟模型，在测试时实现基于深度的跌倒检测。在这项工作中，我们专注于如何使用带标签的RGB数据和未带标签的深度数据进行训练，并将知识从RGB域转移到深度域（RGB2Depth），这在跌倒检测领域被忽视了。

由于大多数基于深度的跌倒检测数据集规模较小，并且不能用作足够的测试和训练集，而基于视频的方法，例如，X3D [21]，总是需要大规模的预训练来实现收敛，我们首先重新制定并采用现有的行为识别数据集，即Kinetics [22]，用于RGB2Depth跌倒检测任务的无监督域自适应（UDA）。通过P2Net [23]将可见光数据的一个子集转换为深度数据，以提供足够的测试样本，并使用基于RGB的预训练权重来初始化研究模型。为了弥合RGB域和深度域之间的差异以进行跌倒检测，我们通过使用X3D[21]模型建立了跨模态无监督域自适应通道UMA-FD，该模型是实现准确动作识别的最有前途的骨干之一。我们首先利用中间域模块[24]来桥接RGB和深度域的表示，然后利用多个损失来约束潜在空间，例如，对抗模态辨别损失、两个域上的三元组边缘损失、源RGB数据和伪标记深度数据上的分类损失。由于不同的损失以不同的方式做出贡献，因此对损失进行加权的固定方案可能会在不同的学习阶段期间强烈限制学习过程的注意力。因此，我们提出了一个自适应加权的损失函数。网络被要求预测加权参数，以调整使用额外的多层感知器为基础的损失的权重。我们将我们的贡献总结如下：

·我们首次在跌倒检测的背景下提出了RGB-to-Depth（RGB 2Depth）无监督域自适应任务，并开发了一个新的多源数据集，并为此建立了一个基准协议。

·我们还引入了一个新的通道来解决这一任务。我们采用3D-CNN+LSTM [25]，C3D [26]，I3D [27]，X3D[21]作为我们的特征提取骨干，并利用中间域模块（IDM），模态对抗对齐和三重边缘损失来最小化跨域间隙。此外，我们提出了一种自适应加权方法来平衡损失函数。

·与其他现有的跌倒检测方法相比，我们的模型UMA-FD在RGB 2Depth UDA任务上提供了最先进的性能。消融研究分别展示了所提出的构建块的效率。

2.相关工作

跌倒检测

针对跌倒检测的现有研究可以根据所采用的传感器分为三大类。第一组集中在可穿戴设备上。这些设备中的大多数采用加速度计作为主要传感器来捕获来自身体各个部位的信号，例如手腕，胸部和腰部[3]-[8]。例如，Chen等人。[28]使用手腕上的智能手表来监控个人的运动状态。Mehmood等人[29]提出了一种名为SHIMMER的新型可穿戴传感器，用于测量腰部的信号。第二组跌倒检测研究利用Wi-Fi信号网络[9]-[13]，[30]。在[10]中，Wang等人提出了WiFall，这是一种通过分析无线电信号变化与人类活动之间的相关性来实现跌倒检测的系统。Hu等人[13]提出了DeFall，这是一种基于离线模板生成阶段和在线决策阶段的系统，利用与人体跌倒相关的Wi-Fi特征。第三组涉及基于视觉的方法[14]-[20]，其通常使用动作识别模型作为跌倒预测的特征提取支柱。几个现有的数据集使得基于视频的跌倒检测成为可能，例如，UR Fall数据集[31]、Kinetics数据集[22]、NTU数据集[32]、UP Fall数据集[33]。例如，Khraief等人。[34]介绍了一种多流深度卷积神经网络，它采用RGB和深度模态进行跌倒检测。Na等人。[25]使用3DCNN和LSTM作为主干来提取RGB视频的特征并进行跌倒检测。Chen等人。[35]使用注意力引导的双向LSTM来实现复杂背景中的跌倒检测。[19]考虑隐私问题，并利用身体骨架和语义分割掩模作为输入来实现跌倒检测，同时丢弃大量现有的RGB数据。与[19]相比，我们的RGB2Depth无监督域自适应方法旨在利用尽可能多的现有数据来训练模型。该模型预计将适应从数据丰富的RGB域到使用未带标签支持隐私保护的深度域的数据。由于RGB和骨架数据之间的显著域差异，我们不利用骨架信息。相反，我们使用深度数据，因为它在保护隐私和维护足够的信息以进行准确的域映射以及从数据丰富的RGB域中学习之间提供了平衡。

动作识别

动作识别方法可分为基于视频的方法[36]-[39]，39]-[45]和基于骨骼的方法[46]-[52]，其中基于骨骼的方法与我们的工作关系更密切。在基于视频的动作识别中，该模型被设计用于从单个静止图像或一系列帧中学习人体动作的潜在线索。现有的成熟模型包括基于cnn的模型，如C3D[26]、I3D[27]、X3D[21]、SlowFast[53]，以及基于transformer的模型，如MViTv2[39]、Video Swin[43]。

无监督领域自适应

无监督领域自适应的目标是利用目标领域的未标签数据来减少领域差距。由于它在许多应用领域的实用性，无监督领域自适应已经引起了语义切分、动作识别等领域研究人员的广泛关注。例如，可以通过伪标签[54]和对比学习[57]-[59]实现无监督域适应。对于跨模态域自适应，欧阳等人提出了一种基于变分编码器的方法，将三维MRI图像适应为医学成像领域的三维CT图像。窦提出了一种即插即用的领域适配模块(DAM)，该模块针对生物医学领域的跨模态领域适配。然而，在跌倒检测时不同模态间的域适应研究非常有限。因此，我们将其作为一个有趣的研究方向，并提出了一个无监督的跌倒检测领域自适应框架，据我们所知，这是第一个完成的。

领域自适应（Domain Adaptation）：迁移学习的一种。域适应是一种针对解决源域集和目标域分布偏移（domain shift）的机器学习算法。各式各样的域适应方法旨在通过学习源域和目标域的域不变（domain invariant）特征，从而在目标域没有或少量标签的情况下，将从源域学到的分类器应用于目标域。为了解决传统监督学习需要大量人工标注的问题。顾名思义，就是将某个领域或者任务学习好的知识或模式，应用到到新的不同但相关的领域中，达到可观的效果。

伪标签：利用在已标注数据所训练的模型在未标注的数据上进行预测，根据预测结果对样本进行筛选，再次输入模型中进行训练的一个过程。伪标签（Pseudo-Labelling）——锋利的匕首 - 知乎 (zhihu.com)

3.数据集

为了研究RGB2Depth的跨模态无监督域适应用于跌倒检测，我们需要在跌倒场景中包含RGB和深度信息的多模态数据。Kinetics-700视频数据集[61]包含65万个视频剪辑，跨越700个人类动作类，每个剪辑都标注了一个动作类，持续时间约10秒。从Kinetics-700数据集中，我们选择了与跌倒动作相关的两个类别:从自行车上掉下来类和从椅子上掉下来类。这两类视频作为跌倒检测的阳性样本。另外，我们随机选取洗手和扫地两类作为跌倒检测的阴性样本。

而上述四类视频只包含RGB数据。为了生成相应的深度数据，我们可以使用先进的深度估计算法。我们选择P2Net[23]来为我们数据集中的每个视频的每一帧生成相应的288x384深度数据。图1显示了深度数据生成的三种情况，表明深度数据的轮廓一般对应于RGB数据。为了标准化数据格式，我们将RGB视频数据的每一帧的大小调整为256x256。最终，我们生成一个包含RGB和深度模式的标记跌倒检测数据集。

因为我们的数据集的四个类别中的样本数量是不平衡的，我们的目标是正样本和负样本的数量相等，所以我们对每个类别的数据随机抽样。我们将我们的数据集与表i中现有的两个包含RGB视频和相应的跌倒检测深度数据集进行比较。UR的跌倒检测数据集[31]仅包含30次跌倒和40次日常生活序列的活动，不足以训练深度模型。NTU RGB+D数据集[62]是包含60个动作类的动作识别数据集，包括948个摔倒动作视频。我们可以选择948个其他动作的视频作为负样本。然而，这些视频都局限于室内场景，缺乏多样性。相比之下，我们的数据集包含1490个跌倒样本和1489个其他样本，与其他两个数据集相比，提供了更大的数据集，具有更丰富、更多样化和不受约束的场景。

接下来，我们将数据集按照一定的比例划分为训练集和测试集，对数据集进行采样后，各类别的训练样本个数和测试样本个数如表2和图2所示。我们总共有2979个样本，其中阳性样本1490个，阴性样本1489个。我们从每个类别中随机选取100个样本作为测试集，得到2579个训练样本和400个测试样本。每个样本包含RGB数据和相应的深度数据。后一种模型评价实验均基于该数据集。此外，我们还使用NTU RGB+D数据集[62]进行后期实验，其中包含了RGB视频和相应的深度数据，使实验结果更有说服力。

4.提出的方法

本节概述了我们提出的RGB2Depth跌倒检测方法，我们将其称为自适应无监督跨模态跌倒检测(UMA-FD)。在图3中，我们给出了UMA-FD方法的概述，使用自适应跨模态无监督域将知识从RGB源模态转移到深度目标模态。在UMA-FD中，我们对RGB和深度数据进行预处理，生成兼容的输入格式，并使用统一的骨干网生成两种数据流的特征图。在主干中，引入中间域模块(IDM)[24]生成中间模态的特征图，然后计算桥梁特征损失(IDM)[24]。我们的网络的分类层由三个头组成:标签分类头、模态头和权重自适应头。接下来，我们首先定义自适应无监督模态问题，然后我们详细描述我们所提出方法的每个构建块。

图3：提出的体系结构:RGB数据和深度数据共用同一主干，随机配对作为输入，生成相同规格的特征图。IDM被引入主干网并产生桥梁特征损失，分类损失头(Cls)、形态特征头(Modality)和损失权重头(loss Weight Head)是用于标签、形态特征分类和权重适应的三头网络。

A. 问题定义

设X和Y分别表示输入的数据和对应的标签。其中， $X^{R}$ 为RGB视频数据， $X^{D}$ 为深度序列数据。标签 $Y^{R}$ 和 $Y^{D}$ 分别表示RGB和深度数据是否代表跌倒动作。有监督学习的目标是发现一种表示G(·)，处理学习的特征图M(·)，使已知标记样本(x, y)的经验损失 $E_{S}[\iota_{y}(G(M(x)),y)]$ 最小。这种经验损失在标记源模态(在本例中为RGB数据，S = { $X^{R}$ , $Y^{R}$ , $B^R$ })上进行优化。这里， $B^R$ 表示RGB模态样本的分布。模态自适应寻求最小化目标模态上的经验损失，T = { $X^{D}$ , $Y^{D}$ , $B^D$ }，其中 $B^D$ 表示深度模态样本的分布。值得注意的是，源和目标的模态分布存在显著差异， $B^R$ ≠ $B^D$ ，在我们提出的RGB2Depth 跌倒检测任务中，深度数据的标签空间 $Y^{D}$ 是未知的，我们使用RGB数据的S = { $X^{R}$ , $Y^{R}$ , $B^R$ }和深度数据的T = { $X^{D}$ , $B^D$ }训练模型并预测深度数据的标签 $Y^{D}$ 。

B. IDM和桥梁特征损失

在训练过程中， $X^{R}$ 和 $X^{D}$ 随机配对，作为骨干网络的输入。中间域模块(IDM)接受来自两种模态的数据作为输入，并通过对两种模式的特征映射进行加权求和来生成中间模式特征映射（融合RGB和深度数据得到的中间模态特征图），通过网络内的自适应学习获得加权系数。IDM可以添加到骨干网的任意两个隐藏层之间，生成三种模式的隐藏层特征（RGB特征图、深度特征图、中间模态特征图），然后将这些特征图输入到随后的骨干网各层。由IDM模块生成的中间形态特征图可以表示为：

$\begin{aligned}{A}=\delta(MLP(FC([F_{h\_avg}^R;F_{h\_max}^R])+ & FC([F_{h\_avg}^D;F_{h\_max}^D]))).\text{ } \\ & \\ & \\ & \end{aligned}.\left ( 1 \right )$

$F^{inter}=\mathbf{A}^R\cdot F_h^R+\mathbf{A}^D\cdot F_h^D. (2)$

式中， $F_h$ 表示隐藏层的特征映射，下标avg和max表示平均池化和最大池化，FC为全连接层，MLP表示多个全连接层，[;]为串联运算符，δ(·)为Softmax函数。在我们的例子中，使用了不同的主干，我们总是在第一个卷积块之后添加IDM模块（通过第一个卷积块得到RGB特征图和深度图像特征图，再通过IDM模块得到RGB特征图、深度图像特征图和融合的中间模态特征图）。IDM在骨干中的位置如图4所示。

主干网生成RGB、深度和中间模态的最终特征图。我们采用桥梁特征损失[24]来约束中间模态特征图与RGB和深度的距离加权和。加权和采用从前面提到的IDM模块中得到的加权系数。这就确保了当RGB模态对中间模态有显著影响时，桥梁特征的损失更侧重于RGB和中间模态之间的距离；当深度模态对中间模态有显著影响时，桥梁特征的损失更侧重于深度模态和中间模态之间的距离。桥梁特征损失计算为:

$\mathcal{L}_{bridge}^{R\&D}=\frac{1}{n}\sum_{i=1}^{n}\sum_{k\in\{R,D\}}a_{i}^{k}\cdot||F^{k}-F^{inter}||_{2}.\quad(3)$

式中，F为骨干最终输出的特征映射，a为IDM模块产生的权重系数，||·||表示2-范数，用于计算两个特征映射之间的空间欧氏距离。

桥梁特征损失函数保证了中间形态的特征映射在空间分布上处于RGB模态和深度模态之间，进而约束主干学习合适的RGB模态和深度模态的特征映射。

C.无监督的模态自适应

即使源模态和目标模态是不同的，用于跌倒检测的潜在线索也具有很强的相关性。在这种情况下，对源模态的监督训练可以帮助挖掘目标模态的信息线索。基于此，我们的方法还最小化了源模态的分类损失和源模态与目标模态之间的分布差异。

在主干的基础上，利用全连接网络构造有监督分类头。对于有关联样本标签的RGB模态数据，我们可以计算交叉熵损失:

$\mathcal{L}_{cls}^{R}=\sum-ylogQ(X^{R}).\quad(4)$

$Q(x)=\sigma(G(M(x))).\quad(5)$

式中G(·)为分类头，M(·)为骨干网络，σ(·)为sigmoid函数。由于深度数据没有可用的标签，我们采用了一种基于阈值的伪标签技术进行监督，从而可以得到深度数据的分类损失。通过这种方法，我们估计深度样本的伪标签，满足阈值条件:

$\left.Y_{pseudo}^D=\left\{\begin{array}{ll}0, & \sigma(G(M(X^D)))\le1-\tau \\ & \\ 1, & \sigma(G(M(X^D)))\ge\tau\end{array}\right.\right.\quad(6)$

其中τ是伪标签阈值。然后计算相应的伪标签交叉熵损失:

$\mathcal{L}_{pseudo}^D=\sum_{X^D\in T^{part}}-y^{pseudo}logQ(X^D).\quad(7)$

其中 $T^{part}$ 表示满足阈值条件的深度样本集。

伪标签应用于半监督问题，是一种通过有监督样本训练得到的模型，来对无标签数据进行利用的方式。
1.使用思路：

（1）使用有标签数据A训练一个有监督模型。

（2）利用该模型对无标签数据进行预测，得到预测概率值。

（3）基于无标签样本概率值,按照一定阀值进行真值样本抽取，生成新的有标签数据B。

（4）基于A和B重新训练模型C，并使用测试集验证模型小效果。

tips：可以发现，该方法主要适用于分类任务，因为我们需要根据一定概率置信值进行样本的筛选。

Triplet loss（三元损失）[63]是度量学习中常用的一种损失，也可用于处理分类问题。由于视频数据采用了3D卷积网络模型，且单个GPU的内存有限，因此训练数据的批量大小非常小。这使得在单个批次中计算三重损失具有挑战性。跨批处理内存机制(XBM)[64]解决了这个问题，它作为一个模块，在训练过程中存储以前处理过的训练数据。在训练过程中，XBM组件保留了以前批次的特征映射。然后根据当前批次的特征图和XBM中存储的特征图计算三重损失。得到XBM_triplet损失，可以表示为:

$\mathcal{L}_{XBM\_triplet}^{R\&D}=max(d(F_{cur},F_{pre}^p)-d(F_{cur},F_{pre}^n)+margin,0).\quad(8)$

其中 $F_{cur}$ 表示当前样本的特征图, $F^p_{pre}$ 表示与当前样本有相同标签的前一个样本特征图， $F^n_{pre}$ 表示与当前样本有不同标签的前一个样本特征图。XBM_triplet损失约束了具有相同标签的样本间特征映射的最大距离，要小于，具有不同标记的样本间的最小距离，提高了学习后的潜在表示的识别能力。

Triplet loss的原理：

$L=max(d(a,p)-d(a,n)+margin,0)$

输入是一个三元组，包括锚（Anchor）示例、正（Positive）示例、负（Negative）示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本之间的相似性计算。

a：anchor，锚示例；p：positive，与a是同一类别的样本；n：negative，与a是不同类别的样本；margin是一个大于0的常数。最终的优化目标是拉近a和p的距离，拉远a和n的距离。

其中样本可以分为三类：

①easy triplets：L=0，即d(a,p)+margin<d(a,n),这种情况不需要优化，天然a和p的距离很近，a和n的距离很远；

②hard triplets：L>margin,即d(a,n)<d(a,p),a和n的距离近，a和p的距离远，这种情况损失最大，需要优化；

③semi-hard triplets:L<margin,即d(a,p)<d(a,n)<d(a,p)+margin,即a和p的距离比a和n的距离近，但是近的不够多，不满足margin，这种情况存在损失，但损失比hard triplets要小，也需要优化。

引用于：triplet loss 损失函数 - 知乎 (zhihu.com)

D.模式对抗性对齐

在无监督域自适应中，生成对抗方法和鉴别对抗方法被提出来弥补源域和目标域之间的分布差异。对于高维数据流，如视频，鉴别方法更合适[65]。鉴别方法训练鉴别器C(·)，从学习的特征M(·)预测输入的模态。通过最大化判别器损失，网络学习到一个对两种模态都不变的特征表示。

"通过最大化判别器损失，网络学习到一个对两种模态都不变的特征表示。":

在对抗性训练中，判别器的目标是区分源域和目标域的样本，而生成器（或特征提取器）的目标是尽可能生成混淆判别器的样本。最大化判别器的损失意味着生成器（或特征提取器）要努力使其生成的特征表示在源域和目标域之间难以被判别，以至于判别器无法准确区分两个域。

这种对抗性训练的结果是，生成器（或特征提取器）学到的特征表示对两个模态（源域和目标域）都是不变的，因为它们被设计成在两者之间混淆判别器。这有助于在训练过程中缓解源域和目标域之间的分布差异，从而提高模型在目标域上的泛化能力

在我们的场景中，为了对齐RGB和深度数据，我们提出了一种模态鉴别器，它惩罚模态之间的特征变化。模态鉴别器C(·)包含梯度反转层(GRL)[66]和一个学习模态表示M(·)的全连接层。给定一个二进制模态标签 $y_d$ ，表示样本X是否属于RGB或深度域，我们提出如下的模态损失:

$\begin{aligned}\mathcal{L}_{modality}^{R\&D} & =\sum_{k\in\{R,D\}}-y_dlog(C\left(M\left(X^k\right)\right))-\left(1-y_d\right)log(1-C\left(M\left(X^k\right)\right)).\end{aligned}\left(9\right)$

$\begin{aligned}\mathcal{L}_{modality}^{R\&D} & \end{aligned}$ 损失减小了主干网特征映射中不同模式之间的差异。这确保在RGB数据上训练的特性更适用于深度数据。

E.总损失和损失权重调整

综上所述，最终损失可以表示为:

$\begin{gathered} \\ \mathcal{L}=\lambda_a\mathcal{L}_{cls}^R+\lambda_b\mathcal{L}_{pseudo}^D+\lambda_c\mathcal{L}_{modality}^{R\&D}+\lambda_d\mathcal{L}_{bridge}^{R\&D}+\lambda_e\mathcal{L}_{XBM\_triplet}^{R\&D}.\end{gathered}\quad(10)$

其中 $\lambda _a$ ， $\lambda _b$ ， $\lambda _c$ ， $\lambda _d$ ， $\lambda _e$ 为权重比例系数。在训练过程中，整个网络由5个损失组成，每一个损失对最终深度数据分类精度的影响是未知的。因此我们需要相应地调整 $\lambda _a$ ， $\lambda _b$ ， $\lambda _c$ ， $\lambda _d$ ， $\lambda _e$ 的值。手动调整可能很耗时，而且可能不会产生最佳的组合解决方案。为了解决这一问题，我们考虑使用自适应网络自动学习权重，以获得最优解。权重自适应网络W(·)由三层全连接网络和相应的激活函数组成。网络输出是一个五维权重系数:

$P=softmax(W(M(X))). \quad\quad(11)$

则自适应网络的最终损失为:

$\begin{gathered} \mathcal{L}=P_{1}\cdot\mathcal{L}_{cls}^{R}+P_{2}\cdot\mathcal{L}_{pseudo}^{D}+P_{3}\cdot\mathcal{L}_{modality}^{R\&D}+P_{4}\cdot\mathcal{L}_{bridge}^{R\&D}+P_{5}\cdot\mathcal{L}_{XBM\_triplet}^{R\&D}. \end{gathered}\quad(12)$

5.实验及结果

在本节中，我们首先讨论实现细节和评估指标。然后，我们评估了我们提出的方法UMA-FD，并在NTU RGB+D数据集[62]和我们的数据集上将其结果与基线和监督目标方法进行了比较。为了使结果更有说服力，我们将一个跌倒检测主干3D-CNN+LSTM[25]与其他三种不同的基于cnn的主干C3D[26]、I3D[27]、X3D[21]的结果进行比较。接下来，进行了各种消融实验，并对实验结果进行了讨论。最后，我们展示了UMA-FD的定性结果，并对部分样本的分类结果进行了分析。

A.实施细节和评估指标

在训练过程中，我们使用第三节中描述的数据集。NTU RGB+D数据集包含948个跌倒视频及相应深度数据为正样本，948个其他动作视频及相应深度数据为负样本。我们选择180个正样本和180个负样本作为测试集，其余所有样本作为训练集。我们生成的数据集由来自kinetics700数据库的四个类别的RGB视频数据，以及带有深度估计模型的每帧视频数据产生的深度数据组成。我们的训练集总共包含2579 × 2 = 5158个来自RGB和深度模式的样本，其中2579个有标签的RGB样本(源模式)，2579个没标签的深度样本(目标模式)。该测试集共有400个深度模态样本，由四个类别中每个类别随机抽取100个片段生成，其中包括200个正例(跌倒动作)和200个负例(其他动作)。

所有的实验都是在两台NVIDIA GeForce RTX 3090 gpu上进行的，内存为24G，用于并行训练和测试。在训练过程中，RGB和深度数据随机配对，每批包含一个RGB样本和一个深度样本。在训练方面，我们使用开源框架mmaction2[67]，其中包含了预训练模型C3D[26]、I3D[27]和X3D[21]。在第一次训练时，我们使用[67]中提供的预训练模型对权重值进行初始化，而每个网络头采用均值为0，标准差为0.01的正态分布随机初始化。对于表V中的每个消融实验，模型参数的初始化都是基于过去实验中获得的最佳参数配置。所有实验的优化器为SGD[68]，动量为0.9。对于I3D和X3D骨干网，初始学习速率为0.0001。对于C3D，初始学习率设置为0.001。我们为每组模型实验训练了120个epoch。训练60个epoch后，学习速率下降到原来的十分之一。对于伪标签阈值，我们分别使用0.8,0.8,0.8,0.7分别用于跌倒检测骨干方法3DCNN+LSTM和三种不同的骨干方法C3D, I3D, X3D。

基于数据集标签，将跌倒样本定义为正样本，将不跌倒样本定义为负样本，正样本和负样本数量相等。对于二元分类问题，常用的评价指标包括分类准确率、正样本正确率、正样本召回率、F1得分(同时考虑正样本正确率和召回率)和AUC(评估正样本和负样本得分的排名)。除了AUC，其他指标取决于用于区分positive和negative样本分数的阈值。在评价过程中，我们将正样本和负样本的得分阈值设置为0.5。然后，我们根据这个阈值预测的阳性和阴性样本标签计算每个评价指标。

B.与基线和有监督目标进行比较

由于跨模态无监督自适应学习的跌倒检测是一个新问题，目前还没有相关的工作可以作为我们研究的基线。因此，我们需要根据数据集定义基线。最直接的方法，利用迁移学习的概念，包括在标记的RGB数据上训练一个跌倒检测模型，然后直接使用未标记的深度数据集进行预测。我们将其定义为基线方法。此外，我们可以从监督目标方法中获得结果，其中我们假设深度数据标签是已知的，在这种监督目标方法中，我们使用了有标签的RGB和深度数据来训练二值分类模型，然后对深度数据进行预测，得到分类结果。为了使结果更有说服力，我们进行了基于跌倒检测主干3D-CNN+LSTM[25]与C3D[26]、I3D[27]、X3D[21]三种不同的基于cnn的主干的对比实验。

表III和表IV分别提供了基于NTU RGB+D数据集和我们生成的kinetics数据集的结果对比。在NTU RGB+D数据集上，与构建的跌倒检测基准上的3D-CNN+LSTM和C3D、I3D、X3D骨干网络下的基线相比，UMA-FD的准确率提高了10.83%、5.95%、6.66%， 10.83%， F1得分分别提高了45.05%，9.06%，9.89%和10.61%，AUC分别提高了5.96%，20.16%，20.77%和6.63%。需要注意的是，3D-CNN+LSTM是[25]提出的一种成熟的跌倒检测主干，其他的是针对一般动作识别设计的主干。在我们生成的kinetics数据集上，与使用3D-CNN+LSTM跌倒检测主干和C3D、I3D、X3D传统活动识别主干的基线相比，UMAFD的准确率提高了3.25%、4.75%、4.25%、5.5%，F1得分提高了10.56%、5.14%、9.19%和8.61%。AUC分别提高了4.19%、3.92%、3.12%和4.26%。结果表明，通过我们的跨模态无监督自适应方法，对深度数据的跌倒检测性能得到了显著提高。此外，这种改进与所使用的特定主干无关，这证明了我们方法的通用性。不同骨干的成果也都符合预期。与C3D主干网相比，I3D主干网具有更少的参数，并获得了几乎等效的结果。同时，X3D主干网是目前最有希望用于动作识别的主干网之一，其效果明显优于其他两种主干网。另一方面，与监督目标方法相比，由于没有深度数据的标签信息，UMA-FD的准确性仍然较低。我们的方法的准确性仍有改进的空间，这也是我们后续研究的重点。由于X3D主干能够产生最好的结果，因此所有后续实验都将基于X3D主干。

C.消融实验

接下来，我们比较UMA-FD中不同组件的单独贡献。我们利用X3D骨干网，在基线方法的基础上逐步添加我们所提出方法的各个模块部件和loss功能，进行消融实验。我们在表V中报告了结果，它说明了各种构建块的贡献和相应的损失函数。为了便于描述，我们对每个实验进行编号:例如基线编号为V-01。

首先，我们将模态头和模态损失添加到基线模型中，称为V-02。与V-01相比，准确率从73%提高到75.25%，绝对值提高2.25%，F1得分和AUC也明显提高。结果表明，模态头和模态损失确实可以缓解不同模态特征之间的差异，从而可以更多地将从RGB数据中学习到的信息应用到深度数据中，这一结论将在接下来的定性结果中得到进一步的证实。

在V-02的最优模型的基础上，我们设置一个阈值来区分正、负样本伪标签，并加入一个伪损失，从而得到V03模型。模型的精度进一步提高，最优精度达到76.25%，比V-02提高1%。F1的分数也有了明显的提高，AUC也比之前的版本略好，整体上有了明显的提高。V03利用了V-02对深度数据进行分类的能力，并采用了可信度较高的部分伪标签信息，使模型能够学习到更多的深度数据信息。

接下来，基于V-03的最优模型，验证了桥梁特征损失的影响。我们增加了IDM和桥的特征损失(V-04)，使精度从76.25%提高到77.25%。在本版本中，F1的得分明显下降，我们认为这是由于0.5的次优阈值导致了precision和recall之间的较大偏差。调整阈值可显著改善结果:AUC由V-03组的83.05%提高至84.67%。总体而言，性能得到了改善，这表明IDM模块和桥接特征损耗确实使不同模态表示的差异变小了。

接下来，我们将XBM_triplet loss添加到V-04中，并将其称为V05。XBM_triplet loss也需要样品的标签。对于RGB样本数据，直接使用真实标签。对于未带标签地深度数据，使用满足阈值的伪标记计算三元损失。从V-05与V-04的最优结果来看，准确率从77.25%提高到77.75%。综合准确率与F1评分和AUC比较，V-05也优于V-04，说明XBM_triplet loss对于跨模态跌倒检测也是有效的。

最后，验证了权重自适应方法的有效性。在V-05最优模型的基础上，引入权重自适应网络，自动学习每次权重的值。这个编号为V-06的模型就是我们提出的UMA-FD方法。准确率从77.75%提高到78.5%，绝对值提高了0.75%。F1得分和AUC是所有实验结果中最好的，显示出明显的改善。这说明权重自适应网络确实能比人工参数调整更快地找到最优模型。

上述消融实验对各个模块进行了全面的验证。最后，通过采用跨模态无监督自适应学习，将未带标签地深度数据的分类精度从73%(基线)提高到78.5%，显著提高了5.5%。

D.定性结果

我们在图5中展示了由基线方法、包含模态损失的方法和我们提出的UMA-FD方法生成的RGB数据和深度数据特征空间M(·)的t-SNE可视化。很明显，我们提出的方法确实在一定程度上减轻了源模态和目标模态之间的差异。

图5:基线生成的RGB数据(红点)和Depth数据(蓝点)特征空间的t-SNE图、加入模态损失的方法和我们提出的方法UMA-FD。

在基线方法中，我们直接使用RGB模型对深度数据进行预测，得到的特征分布差异显著。当我们加入模态损失来消除这些差异时，情况会好得多。在我们最后提出的方法UMA-FD中，特征分布本质上是混合在一起的，这是期望的结果。因此，我们将从RGB数据中学习到的信息应用到深度数据中，能够更有效地利用这些信息，从而提高深度数据的分类精度。然而，两种模式数据的特征空间分布仍然存在显著差异，即使采用我们提出的UMA-FD方法，这些差异也没有完全消除。确定进一步减少这些差异的方法是拟议任务中未来工作的一个重要方向。

我们的下一个研究领域是模型可解释性。在图6中，我们展示了使用Python包生成的最佳基线和UMA-FD模型的主干GradCAM[69]结果[70]。每一行代表来自测试集的一个例子，四个插图是基于GradCAMbased的结果可视化，我们的RGB数据基线、深度数据基线、RGB数据的UMA-FD和深度数据的UMA-FD(分别从左到右)。

对于这两个例子，基线的分类结果是不正确的，而UMAFD的分类结果是准确的。对于RGB数据，基线和UMAFD都可以捕获视频图像中的关键区域。然而，对于深度数据，基线未能捕获关键区域，而UMA-FD成功捕获了它。在UMA-FD中，模态损失和桥梁特征损耗有助于缓解模式之间的特征差异，而伪标签损耗和XBM_triplet损耗使模型能够从深度数据中获得更多信息。这些因素使我们的方法能够更好地捕获深度数据中的关键区域。GradCAM结果表明，与基线相比，我们提出的UMA-FD方法更有效地将RGB信息转化为深度数据，验证了跨模态无监督学习的有效性，并解释了UMA-FD获得更高精度的原因。

最后，通过多个实例分析了UMAFD的分类结果。在图7中，我们提供了两个分类结果错误的跌倒样本，而图8展示了两个正确分类的例子。提取视频样本中的三帧RGB图像及其对应的深度帧。对于第一个预测错误的情况，跌倒动作位于图像的小幅度的角落，且只占用少量的帧数。对于第二种预测错误的情况，摔倒的人离相机太远，他们在图像中的出现只占用很少的像素。在两种正确的情况下，跌倒作用的距离和幅度相对正常。上述分析表明，我们的模型在识别持续时间短、幅度小的下降动作方面仍然存在局限性。此外，在远离相机的情况下，检测摔倒仍然是一个挑战，因为模型很难从这些例子中提取足够的线索。解决这两个局限性将是我们未来工作中有价值的研究方向。

在远离相机的情况下，检测摔倒仍然是一个挑战，因为模型很难从这些例子中提取足够的线索。。。transformer（zhi：课堂行为识别）

6.结论和未来工作

在本文中，我们首次提出了用于跌倒检测的无监督模态自适应(UMA)，扩展了无监督域自适应(UDA)的概念，以适应特定的应用需求。我们生成了一个包含RGB和深度数据的双模态跌倒检测数据集，包含2979个样本，超过了现有大多数双模态序列跌倒检测数据集的规模。这个数据集是基于公共的Kinetics-700数据库和现成的深度估计算法创建的。为了提高未带标签的深度数据的分类精度，我们将一系列UDA方法应用到UMA场景中，实现场景适配。在单任务多任务丢失的场景中，手动调整每个损失的权重费时费力，且不太可能产生最佳结果。为了解决这个问题，我们设计了一个权重自适应网络，自动学习每个权重的值。通过整合这些优化方法，我们显著提高了模型的性能，在生成的kinetics-700数据集上，分类精度从73%(基线)提高到78.5%，证明了跨模态无监督自适应学习的可行性。

在未来的工作中，我们的目标是进一步改进我们的模型，因为目前的交叉模态精度与监督目标方法仍然有相当大的差距。这可能涉及开发新技术，以进一步减轻模式之间的特征差异，或增强模型探测远距离或小目标的能力。此外，我们计划探索UMA在其他场景中的应用，研究跨RGB、深度和其他数据模式(如点云数据)的无监督模态自适应，以解决现实中存在的跨模态无监督自适应学习问题。