2024-AAAI-SCD_Net:时空解耦网络用于自监督行为识别-论文解读+代码复现_scd-net: spatiotemporal clues disentanglement netw-CSDN博客

本文链接：https://blog.csdn.net/weixin_45595504/article/details/138603752

2024年人工智能顶会AAAI会议论文复现
SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-Supervised Skeleton-Based Action Recognition(时空解耦网络用于自监督行为识别)

>>源码及详细部署视频戳这里！

SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition

- >>源码及详细部署视频戳这里！
引言
1.论文概述
2.核心创新点
3.项目部署
4.bug修改

引言

自监督骨架行为识别是一种利用未标记的骨架数据进行行为识别的方法。传统的行为识别方法通常需要大量标记好的数据进行训练，但标记数据的获取成本高昂。自监督学习通过设计自动生成标签的任务，可以在缺乏标记数据的情况下进行训练。
在这里插入图片描述

在自监督骨架行为识别中，骨架数据可以通过传感器或深度摄像头等设备获取。这些数据包含了人体关节的位置和运动信息。自监督学习任务的关键是设计一种能够从未标记的骨架数据中自动生成标签的方法。

在训练过程中，使用未标记的骨架数据进行自监督学习，生成伪标签。然后，将生成的伪标签用于监督骨架行为识别模型的训练。通过这种方式，自监督学习可以在缺乏标记数据的情况下，提供一种有效的方法进行骨架行为识别。

那么目前自监督骨架行为还面临哪些挑战呢？

挑战1. 时空信息的混淆

编码器负责将输入映射到可以进行对比的潜在空间。而之前的大多数方法专注于通过常用的时空建模网络获得统一的信息。他们的设计导致了时间、空间信息的纠缠，无法为随后的对比措施提供明确的指示。

挑战2.数据增强的局限性

此外，现有技术往往局限于规模转换(常见的增强策略，比如裁剪、旋转)，这导致无法充分利用数据增强的潜力。

挑战3. 未考虑方法的可迁移性

优化过程中，大多数方法都专注于在相同的表示水平上构建对比对;忽略域之间的差距(同一任务下或数据集中)。

1.论文概述

SCD-NET(SCD-Net: Spatio temporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition AAAI2024)引入了一种新的对比学习框架，即时空线索解耦网络(SCD-Net)。
具体来说，将解耦模块与特征提取器相结合，分别从空间和时间域获得明确的线索。对于SCD-Net的训练，构建了一个全局锚点，鼓励锚点与提取的线索相互作用。此外，本文提出了一种具有结构约束的新的掩码策略，以加强上下文关联，利用掩码图像建模到所提出的SCD-Net。
从实验结果来看，在NTU-RGB+D(60&120)和PKUMMD (I&II)数据集进行了广泛的评估，涵盖了各种下游任务，如动作识别、动作检索、迁移学习和半监督学习。实验结果证明了该方法的有效性，显著优于现有的最先进(SOTA)方法。

2.核心创新点

为了解决自监督在面临的三个挑战，该文分别提出三种方法分别应对。首先在时空信息混淆的问题上，作者提出双向接口编码器；数据增强方面，分别在时间、空间上分设置不同的数据增强策略；方法的可迁移性方面设置了跨越对比损失，详细架构可见下文。
SCD-NET整体架构如下所示：骨架数据->数据增强(data augmentation)后，分别送入编码器层(encoder)以及动量编码器层(Momentum encoder).每个编码器都使用了双向解耦编码器，在经过特征抽取器(feature extractor)后，分别对空间解耦(spatial decoupling)、时间解耦(temporal decouplin