Abstract
Human activity recognition (HAR) is a key enabling technology for a wide range of emerging applications. Although multimodal sensing systems are essential for capturing complex and dynamic human activities in real-world settings, they bring several new challenges including limited labeled multimodal data. In this paper, we propose Cosmo, a new system for contrastive fusion learning with small data in multimodal HAR applications. Cosmo features a novel two-stage training strategy that leverages both unlabeled data on the cloud and limited labeled data on the edge. By integrating novel fusion-based contrastive learning and quality-guided attention mechanisms, Cosmo can effectively extract both consistent and complementary information across different modalities for efficient fusion. Our evaluation on a cloud-edge testbed using two public datasets and a new multimodal HAR dataset shows that Cosmo delivers significant improvement over state-of-the-art baselines in both recognition accuracy and convergence delay.
背景
人类活动识别(HAR)具有广泛的应用,例如虚拟/增强现实(VR/AR),智能家居和智能健康。在现实世界的场景中,人类的活动通常是高度复杂和动态的,其中大部分只使用一个单一的传感器模态是很难捕捉到的。此外,由于日益增加的隐私问题,诸如RGB相机的某些传感器在许多应用中可能不是可选项。为了解决这些问题,已经提出了几种新的多模态感测系统来利用最近出现的多个隐私保护传感器模态,例如,深度相机和雷达,用于HAR应用。
挑战
-
不同类型的传感器通常产生关于相同事件/活动的高度异质的信息。例如,惯性测量和深度图像不仅具有显著不同的维度和模式,而且在时域中可能不同步,使得融合具有挑战性。
-
通常存在非常有限数量的标记数据,因为在现实世界设置中难以标记多模态数据。例如,许多传感器(如IMU和毫米波雷达)的数据对人类来说并不直观,这使得注释是一种劳动密集型工作。
-
HAR应用中的传感器数据通常本质上是隐私敏感的,并且不能被传输到云上。
-
活动识别模型需要针对个人进行定制,因为个人的活动可能会随着时间的推移而产生动态特征,这就需要使用连续的多模态数据进行设备上的训练。
动机
之前的大多数努力都集中在一对特定的传感器模式上,无法扩展到其他异构传感器模式的融合。也有基于深度学习的通用多模态融合框架。不过,这些框架都是基于完全监督学习方法,需要通过大量有标签的多模态数据进行训练,因此不适合现实世界中只有有限数据标签的 HAR 应用。
最近,有人在自监督表示学习领域提出了对比学习,以应对有限标签数据的挑战。然而,这些方法要么是针对单一模态的 HAR 任务开发的,要么是针对其他领域中两种相似模态的任务设计的(例如视觉任务中图像的不同通道) ,无法应用于多模态 HAR 应用中深度图像和惯性测量等显著异构的数据模态 。最后,用于多模态融合的传统监督学习模型由于计算开销大且需要大量训练数据,通常在云端进行训练。
为了解决这些问题,作者提出了一种用于小样本对比融合学习的新系统——Cosmo。Cosmo采用一种新的两阶段训练策略,使用来自多个异构传感器的未标记和(有限)标记数据。
方法
Cosmo采用两阶段的训练策略:
-
第一阶段
Cosmo采用了一种新颖的基于融合的对比学习方法,使用未标记的数据来训练特征编码器。Cosmo可以提取出一致的信息,这些信息代表不同模态之间共享的共同知识。
-
第二阶段
设计了一种新的质量引导注意力机制,使分类器能够根据有限的标注数据来捕捉不同模态的优势,从而探索不同模态的互补信息。
然后作者提出了一种新颖的迭代融合学习算法,它既提高了系统的准确性,又改善了系统的收敛性能。
第一阶段在云上使用来自多名用户或公开数据集的未标注数据进行训练,第二阶段在本地使用标注数据进行训练。
动机
作者比较了三种监督学习方法,包括单模态学习方法和两种最先进的融合方法Deepsense 和 Attnsense。
DeepSense将不同模态的特征连接到一起进行融合。
AttnSense使用基于注意力的模块动态地学习连接不同传感器特征的权重。
作者使用来自USC公共数据集的14个受试者的多模态数据来评估上述三种监督学习方法。该任务使用加速度计和陀螺仪数据对12中人类活动进行分类。其中十个受试者的数据进行训练,其他四个受试者的数据进行测试。深度学习模型包括五个CNN层、两个GRU层和一个全连接层,每个实验重复五次。
通过计算两种融合方法提取的不同特征之间的距离,作者得出结论:DeepSense更能捕捉模态之间的一致信息,而AttnSense结合了来自不同模态的一致和互补信息。
作者研究了上述三种监督学习方法在不同标注样本数量下的性能。在实验中,训练数据以均衡的类别分布随机减少。
首先,所有方法的准确率都随着样本数量的减少而下降。其次,Deepsense在样本数量充足的情况下才能获得比SingleModual高的活动识别性能。特别是样本数量比较少的时候,Deepsense的准确率甚至比仅使用Acc还要低。这意味着只获取一致信息不足以提升融合性能。在这种情况下,Attnsense通过为输入数据分配动态调整的融合权重来提升性能。这也就表明了,将不同模态的一致性和互补性两者结合起来是有益的。然而,与单模态相比,Attnsense的准确度提高仍然有限,因为有限的标记数据不足以学习稳健的融合策略。