CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

最新推荐文章于 2025-04-09 14:27:33 发布

朝阳区靓仔_James

最新推荐文章于 2025-04-09 14:27:33 发布

阅读量2.4k

点赞数 19

文章标签：人工智能深度学习机器学习 AIGC 产品经理

本文链接：https://blog.csdn.net/weixin_58753619/article/details/142830512

版权

论文链接: https://openaccess.thecvf.com/content/CVPR2024/papers/Gao_Embracing_Unimodal_Aleatoric_Uncertainty_for_Robust_Multimodal_Fusion_CVPR_2024_paper.pdf
代码链接: -

简介

作为多模态学习的一个基本问题，多模态融合旨在弥补单一模态的固有局限性。多模态融合的一项挑战是，其独特嵌入空间中的单模态数据大多包含潜在的噪声，这会导致跨模态交互的损坏。然而，本文表明单模态数据中的潜在噪声可以很好地量化，并通过对比学习进一步用于增强更稳定的单模态嵌入。具体来说，文中提出了一种新的通用且鲁棒的多模态融合策略，称为拥抱任意不确定性（Embracing Aleatoric Uncertainty, EAU），该策略简单且可以应用于各种模态。它由两个关键步骤组成：（1）稳定单模态特征增强（SUFA），通过将任意不确定性纳入自监督对比学习中来学习稳定的单模态表示。（2）鲁棒多模态特征集成（RMFI）利用信息论策略来学习鲁棒紧凑联合表示。实验表明，EAU在多个多模态数据集上实现了最先进的表现，并展示了强大的抗噪性能。

研究动机

图 1. 多模态数据集中的任意不确定性和分布表示的说明：(a) 由于语义不明确，多模态数据容易引入噪声数据。(b)我们采用多元高斯分布来表示噪声潜在空间中的模糊语义。

随着多模态数据不确定性的挑战不断出现，作者提出了第一个基本问题：我们能否量化多模态数据的不确定性？ 受概率分布表示的启发，我们自然地采用高斯分布来解决这个问题。假设每个实例都可以表示为多元正态分布，其中方差可以视为内在的任意不确定性。有了量化的不确定性，我们就可以更仔细地审视多模态融合，并提出第二个问题：完全放弃内在的不确定性是否合适？ 从图1（a）的例子中，可以观察到，即使图像-文本对揭示了相似的语义，由于域转移、额外描述或图像质量等原因，任意不确定性仍然是不可避免的。为此，如图1（b）所示，我们认为考虑任意不确定性的多元正态分布可以被视为语义的模糊表示，其中语义相关的数据处于相似的分布内，即使它们处于不同的模态。

在这两个假设的推动下，作者提出了一种新的多模态融合策略，即拥抱任意不确定性（EAU）。

论文贡献

提出了一种新的多模态融合方法，称为拥抱任意不确定性（EAU），量化了内在的任意不确定性，并利用它来学习稳定和鲁棒的联合表示。
设计了稳定单模态特征增强模块（SUFA），通过自监督对比学习，学习稳定的单模态嵌入。
设计了鲁棒多模态特征集成模块（RMFI），通过信息论策略学习紧凑的联合特征表示，减少冗余信息。

多模态融合方法

EAU由两个关键步骤组成：

稳定单模态特征增强（SUFA）：通过高斯分布量化各模态的内在不确定性，学习出一致且稳定的单模态特征嵌入。SUFA利用自监督对比学习，确保每个模态的表示保持语义一致性。
鲁棒多模态特征集成（RMFI）：在集成阶段，RMFI通过注意力机制根据模态的量化不确定性动态调整融合权重。此外，RMFI采用变分信息瓶颈（VIB）策略，确保生成的联合特征表示紧凑且冗余最小。

SUFA

由于不同模态的数据在其各自的模态空间中包含独特的噪声，首先提出稳定单模态特征增强（SUFA）模块来量化其内在的任意不确定性。根据不确定性归因于语义的模糊表示的论点，通过自监督对比学习进一步利用任意不确定性。

单模态分布表示。 给定多模态样本其中 M 是包括图像、音频、文本等的模态集，学习分布表示来量化每种模态中的任意不确定性。根据方程中列出的偏差。从图1可以看出，如果不考虑认知不确定性，深度学习模型可以直接将任意不确定性预测为方差。为此，我们首先使用相应的特征提取器来学习每种模态的初步嵌入，然后部署两个额外的全连接层来学习均值向量和方差向量。进一步，将每个样本在潜在空间中的表示定义为具有 d 变量的多元高斯分布，可以表示为：

不确定性量化公式：

图 2. 单模态分布表示过程的图示。为了清楚起见，将仅包含两个变量的多元高斯分布可视化。

图 2 中用双模态输入说明了单模态分布表示过程。可以观察到会将具有相似语义的两个多模态分布表示推得更近。这样，每个多模态样本的表示不限于确定性点嵌入，而是在几个多元高斯分布上一致的模糊表示。特别是，方差揭示了 m 模态的任意不确定性，而平均值是相应的稳定表示。

基于不确定性的表示增强。 有了量化的任意不确定性，考虑在前文中提出的第二个问题：我们是否应该放弃多模态数据中的任意不确定性？直观上，由于语义的自然模糊性，多模态数据中的任意不确定性是不可避免的。然而，这也导致了不同模态的单模态数据的多样性。为此，文中利用任意不确定性来生成未见过的样本，使得学习到的单峰表示对具有相似语义的不同单模态输入不敏感。

图 3.基于不确定性的表示增强过程的图示。仅为了清楚起见而显示图像模态的分布表示。

以图像模态为例，图3中说明了基于不确定性的表示增强过程。具体来说，给定单模态分布表示，首先从多元高斯分布中随机采样一个锚点和一个增强点作为匹配对。此外，从其他分布表示中随机采样一组负点，并设计一种自监督对比学习机制，如下所示：

RMFI

通过 SUFA，获得了具有一致语义的稳定单峰表示。然而，只考虑每种模态的一致性，而忽略了重复表示造成的冗余。为此，文中提出了鲁棒多模态特征集成（RMFI）模块。RMFI 模块的概述如图 4 所示。

图 4. RMFI 模块的图示。分别为基于分类和基于回归的下游任务提供 CrossEntropy 损失和 L1 损失。

动态多模态集成。受动态多模态融合的启发，作者假设不同的模态对观察到的标签空间的联合表示有不同的贡献。首先应用基于注意力机制的动态多模态集成策略。具体来说，给定稳定的单模态表示，根据量化的不确定性计算跨模态分布表示中的注意权重，并将其应用于多模态积分：

其中 , 表示 m 模态的多元高斯分布的集成联合表示和平均方差。通过这种方式，初步将稳定的单模态表示集成到联合表示中，其中动态估计不同模态的贡献。

联合表示压缩。 在SUFA模块中，充分考虑了不同模态语义的一致性，以避免单模态数据中的噪声。然而，由于不同模态之间具有相似的多元高斯分布，冗余的重复信息将被引入联合表示中。因此，文中设计了一种带有变分信息瓶颈（VIB）的联合表示压缩。具体来说，给定标签空间中的初步联合表示和目标观测值 y，学习潜在空间中的压缩联合表示：

最终压缩联合表示采用重新参数化技巧:

由于所提出的方法可以应用于不同的下游任务，因此这里为联合表示压缩提供了两个训练目标。具体来说，将交叉熵用于基于分类的任务：

其中代表softmax函数，是用于分类的深度学习模型，λ是超参数。对于基于回归的任务，采用均方误差作为训练目标：

实验结果

本文在五个多模态基准数据集（如CMU-MOSI、CMU-MOSEI、MVSA-Single等）上进行评估，验证了EAU方法在多模态情感分析和图像分类任务中的有效性。实验结果表明，EAU在所有任务中均优于现有的最先进方法，尤其在面对噪声数据时表现出更强的鲁棒性。此外，消融实验表明，SUFA和RMFI模块在提升模型性能和稳定性方面发挥了重要作用。

表 1. 在 MSA 和 MIC 任务上与最先进的多模态融合方法的比较。CMU-MOSI 和 CMU-MOSEI 数据集包含视频、音频和文本。MVSA-Single 和 Food-101 数据集由文本和 RGB 图像组成。NYU Depth v2 包含 RGB 和深度图像。请注意，CMU-MOSI 和 CMU-MOSEI 用于基于回归的 MSA 任务，而其他用于基于分类的 MSA 或 MIC 任务。

图 5. 在不同噪声数据下经过 10 次以上随机实验评估的稳健性分析。

图 6. 训练过程中训练收敛和性能波动的分析。

图 7. t-SNE 在 MVSA-Single 数据集上的联合表示可视化。这里我们采用 Concat 作为没有 RMFI 的消融模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述