多视图学习&多模态学习
文章平均质量分 95
量子-Alex
这个作者很懒,什么都没留下…
展开
-
【多视图聚类】【ICCV 2023】基于交叉视图拓扑一致互补信息的深度多视图聚类
在多视图ZvZv的表示中,ZZ1Z2⋅⋅⋅ZVZZ1Z2,⋅⋅⋅,ZV被认为是一致的当且仅当IZ1;Z2;⋅⋅⋅;Zi;⋅⋅⋅;ZV≥IZ1;Z2;⋅⋅⋅;Zi;⋅⋅⋅;ZV· · ·;· · ·;· · ·;· · ·;IZ1;Z2;⋅⋅⋅;Zi;⋅⋅⋅;ZV≥IZ1;Z2;⋅⋅⋅;Zi;⋅⋅⋅;ZV,对于iiiZi∈Ω。原创 2024-10-22 12:33:13 · 967 阅读 · 0 评论 -
【多视图聚类】【MFLVC】Multi-level Feature Learning for Contrastive Multi-view Clustering
多视图聚类可以从多个视图中探索共同的语义,受到越来越多的关注。然而,现有的工作惩罚了同一特征空间中的多个目标,它们忽略了学习一致的公共语义和重建不一致的视图私有信息之间的冲突。在本文中,我们提出了一种新的多级特征学习框架,用于对比多视图聚类来解决上述问题。我们的方法以无融合的方式从原始特征中学习不同层次的特征,包括低级特征、高级特征和语义标签/特征,从而可以有效地实现不同特征空间中的重建目标和一致性目标。具体地,重建目标是在低级特征上进行的。基于对比学习的两个一致性目标分别在高级特征和语义标签上进行。原创 2024-10-08 21:12:43 · 927 阅读 · 0 评论 -
【多视图学习】基于多视图信息瓶颈的鲁棒表示学习
信息瓶颈原理为表示学习提供了一种信息论方法,通过训练编码器来保留与预测标签相关的所有信息,同时最小化表示中的其他过量信息的量。然而,原始配方需要标记数据来识别多余的信息。在这项工作中,我们将这种能力扩展到多视图无监督设置,其中提供了同一底层实体的两个视图,但标签是未知的。这使我们能够将多余的信息识别为两个视图不共享的信息。理论分析导致了一种新的多视图模型的定义,该模型在MIR-Flickr数据集的粗略数据集和标签有限版本上产生最先进的结果。原创 2024-09-18 17:00:47 · 1208 阅读 · 0 评论 -
【多模态融合】【NeurIPS 2021】Attention Bottlenecks for Multimodal Fusion
人类通过同时处理和融合来自视觉和音频等多种模态的高维输入来感知世界。与之形成鲜明对比的是,机器感知模型通常是模态特定的,并且针对单模态基准进行了优化,因此来自每个模态的最终表示或预测的后期融合(“后期融合”)仍然是多模态视频分类的主导范例。相反,我们引入了一种新颖的基于Transformer model的架构,该架构使用“融合瓶颈”进行多层模态融合。与传统的成对自我注意相比,我们的模型迫使不同模态之间的信息通过少量的瓶颈潜伏,要求模型整理和浓缩每个模态中的相关信息,并分享必要的信息。原创 2024-09-18 10:43:23 · 1179 阅读 · 0 评论 -
【缺失多视图聚类】Subgraph Propagation and Contrastive Calibration for Incomplete Multiview Data Cluste
多视图原始数据挖掘的成功依赖于属性的完整性。然而,每个视图都面临各种噪声和收集失败,这导致属性仅部分可用的情况。更糟糕的是,多视图原始数据中的属性由多种形式组成,这使得数据的结构探索变得更加困难,尤其是在多视图聚类任务中。由于部分视图中存在缺失数据,不完整多视图数据上的聚类任务面临以下挑战,即:1)挖掘多视图中缺失数据的拓扑结构是亟待解决的问题;2)大多数方法没有用多视图的公共信息校准互补表示;3)我们发现从不完全视图获得的聚类分布在潜在空间中存在聚类分布不对齐问题(CDUP)。原创 2024-09-12 22:37:12 · 616 阅读 · 0 评论 -
【缺失多模态】【论文翻译】Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Ap
摘要——多模态网络比单模态网络表现出显著的性能改进。现有的多模态网络是以多分支方式设计的,由于对融合策略的依赖,如果缺少一个或多个模态,则表现出恶化的性能。在这项工作中,我们提出了一种模态不变的多模态学习方法,它不太容易受到缺失模态的影响。它由跨多个模态共享权重的单分支网络组成,以学习模态间表示,从而最大化性能以及对缺失模态的鲁棒性。在四个具有挑战性的数据集上进行了广泛的实验,包括文本视觉(UPMC Food-101, Hateful Memes, Ferramenta)和视听模态(VoxCeleb1)。原创 2024-09-12 16:38:12 · 1341 阅读 · 0 评论 -
【最新顶刊综述】【多模态学习】Vision + X:A Survey on Multimodal Learning in the Light of Data
摘要——我们以多感官的方式感知世界并与世界交流,不同的信息源由人脑的不同部分复杂地处理和解释,构成一个复杂但和谐统一的感知系统。为了赋予机器真正的智能,近年来随着新兴技术的进步,结合各种来源数据的多模态机器学习已经成为越来越受欢迎的研究领域。在本文中,我们从一个新的角度对多模态机器学习进行了综述,不仅考虑了纯粹的技术方面,还考虑了不同数据模态的内在本质。我们分析了每种数据格式的共性和独特性,主要包括视觉、音频、文本和运动,然后介绍了通过数据模态组合(如视觉+文本)分类的方法进步,稍微强调视觉数据。原创 2024-09-11 23:59:29 · 1639 阅读 · 0 评论 -
【缺失多模态】【论文翻译】Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling
多模态模型需要解决的模态缺失问题是关键的,但也不是微不足道的。目前旨在处理多模态任务中缺失模态问题的方法,要么仅在评估期间处理缺失模态,要么训练单独的模型来处理特定的缺失模态设置。此外,这些模型是为特定任务设计的,因此,例如,分类模型不容易适应分割任务,反之亦然。在本文中,我们提出了共享特定特征建模(ShaSpec)方法,该方法比解决上述问题的竞争方法更简单、更有效。ShaSpec旨在通过学习共享和特定的特征来更好地表示输入数据,从而在训练和评估期间利用所有可用的输入模态。原创 2024-09-11 16:25:25 · 1662 阅读 · 0 评论 -
【多视图聚类】SMILE:Semantic Invariant Multi-view Clustering with Fully Incomplete Information
由于通常影响现实世界多视图应用的不完全对应和不完全实例等问题,具有不完全信息的鲁棒多视图学习受到了极大的关注。现有方法严重依赖配对样本来重新对齐或估算有缺陷的样本,但由于数据收集和传输的复杂性,这种先决条件在实践中并不总是得到满足。为了解决这个问题,我们提出了一个新的框架,称为语义不变性学习(SMILE),用于不完整信息的多视图聚类,不需要任何配对样本。具体来说,我们发现不同视图之间存在不变语义分布,这使得SMILE能够缓解跨视图差异,以学习共识语义,而不需要任何配对样本。原创 2024-06-10 01:32:19 · 803 阅读 · 0 评论 -
【多视图聚类】Reconsidering Representation Alignment for Multi-view Clustering
对齐视图表示的分布是当今用于深度多视图聚类的最先进模型的核心组件。然而,我们发现了nävely对齐表示分布的几个缺点。我们证明了这些缺点既导致表示空间中可分离的聚类更少,又抑制了模型对视图进行优先排序的能力。基于这些观察,我们开发了一个简单的深度多视图聚类基线模型。我们的基线模型完全避免了表示对齐,同时表现类似于或优于当前技术水平。我们还通过添加对比学习组件来扩展我们的基线模型。这引入了选择性对齐过程,保留了模型对视图进行优先排序的能力。原创 2024-08-29 11:05:39 · 1342 阅读 · 0 评论