Paper1 Guided Slot Attention for Unsupervised Video Object Segmentation
摘要小结: 这段话的中文翻译如下:
无监督视频对象分割旨在分割视频序列中最突出的对象。然而,复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题,我们提出了一种引导式槽注意力网络,以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景槽根据与模板信息的交互进行迭代优化。此外,为了提高槽-模板交互,并有效地融合目标帧和参考帧的全局和局部特征,引入了K最近邻过滤和一个特征聚合变压器。所提出的模型在两个流行的数据集上取得了最先进的性能。此外,我们通过各种比较实验证明了在具有挑战性的场景中提出模型的鲁棒性。
主要内容概述:
这段话讨论了无监督视频对象分割的任务,这是一个具有挑战性的工作,因为复杂背景和多个前景对象的存在。为了应对挑战,作者提出了一个引导式槽注意力网络,这个网络能够加强空间结构信息,实现更好的前景-背景分离。网络中的前景和背景槽通过查询引导初始化,并通过与模板信息的交互进行优化。同时,使用了K最近邻过滤和特征聚合变压器来提升交互和融合特征。该模型在两个数据集上表现出色,并且在挑战性场景中展示了鲁棒性。
Paper2 Unsupervised Blind Image Deblurring Based on Self-Enhancement
摘要小结: 通过深度学习方法,特别是在配对合成数据上具有卓越性能的监督模型,图像去模糊取得了重大进展。然而,现实世界的质量退化比合成数据集更为复杂,且在现实场景中获取配对数据构成了重大挑战。为了解决这些挑战,我们提出了一种新颖的基于自我增强的无监督图像去模糊框架。该框架在不需真实配对数据集的情况下,逐步生成改进的伪锐利和模糊图像对,且生成的质量更高的图像对可用于提高重建器的性能。为确保生成的模糊图像更接近真实模糊图像,我们提出了一种新的再退化主成分一致性损失,它使得生成低质量图像的主成分与从原始锐利图像再退化图像的主成分相似。此外,我们引入了自我增强策略,显著提高了去模糊性能,而不会在推理过程中增加网络的计算复杂性。通过在多个真实模糊数据集上的广泛实验,我们证明了我们方法优于其他最先进的无监督方法。
概述主要内容:
这段话主要讨论了图像去模糊的进展,特别是提出了一种新的无监督图像去模糊框架。这个框架能够生成伪锐利和模糊图像对,并且引入了新的损失策略以及自我增强策略来提高性能。该方法在真实世界数据集上展示了优越性。
Paper3 Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation
摘要小结: 这段话的中文翻译如下:
大型视觉-语言模型(VLMs),如CLIP,在无监督领域适应任务中展示了良好的零样本学习性能。然而,大多数针对VLMs的迁移方法要么关注语言分支,要么关注视觉分支,忽视了两种模态之间微妙的相互作用。在这项工作中,我们引入了一个统一模态分离(UniMoS)框架用于无监督领域适应。利用模态间隙研究的洞察,我们设计了一个灵活的模态分离网络,能够清晰地分解CLIP的特征为与语言相关和与视觉相关的组件。我们提出的模态集成训练(MET)方法促进了模态无关信息的交换,同时保持了模态特定的细微差别。我们使用模态判别器对跨领域的特征进行对齐。在三个基准上的全面评估显示,我们的方法以最小的计算成本设定了新的最先进水平。代码:https://github.com/TL-UESTC/UniMoS…
主要内容概述:
这段话介绍了一种名为统一模态分离(UniMoS)的框架,用于无监督领域适应。该框架利用模态间隙研究,能够有效地将CLIP模型的特征分解为与语言和视觉相关的组件。同时,提出了一种模态集成训练(MET)方法,促进模态无关信息的交换,同时保持模态特定的细节。该方法在三个基准测试中取得了最先进的成绩,且计算成本较低。
Paper4 Bridging the Synthetic-to-Authentic Gap: Distortion-Guided Unsupervised Domain Adaptation for Blind Image Quality Assessment
摘要小结: 这段话的中文翻译是:
盲图像质量评估(BIQA)的注释工作既费时又费力,尤其是对于真实图像来说。期望在合成数据上训练能够带来好处,但合成数据训练的模型往往由于领域差距而在真实领域表现出较差的泛化能力。在这项工作中,我们有一个关键观察,即向合成数据集中引入更多失真类型可能不会改善甚至可能对真实图像质量评估的泛化有害。为了解决这一挑战,我们提出了用于BIQA的失真引导的无监督领域适应(DGQA),这是一个新颖的框架,它利用从失真中的先验知识进行自适应多领域选择,以匹配源领域和目标领域之间的数据分布,从而减少来自异常源领域的负转移。在两种跨领域设置(合成失真到真实失真以及合成失真到算法失真)上的大量实验已经证明了我们提出的DGQA的有效性。此外,DGQA与现有的基于模型的BIQA方法是正交的,并且可以与这些模型结合使用,以在较少的训练数据下提高性能。
主要内容概述:
这段话主要讨论了盲图像质量评估(BIQA)中的一个难题,即真实图像的质量评估注释工作非常耗时耗力。现有的在合成数据上训练模型的方法由于领域差异而泛化能力不足。文章提出了一个新的框架,称为失真引导的无监督领域适应(DGQA),它可以通过匹配源领域和目标领域的数据分布来改善模型的泛化能力,减少负转移的影响。通过在两种不同设置下的实验,证明了DGQA的有效性,并且指出DGQA可以与现有的BIQA模型结合使用,以提高性能。
Paper5 Unsupervised Occupancy Learning from Sparse Point Cloud
摘要小结: 隐式神经表示法作为一种强大的框架,已经在捕捉复杂的数据模态方面取得了显著地位,这些数据模态范围广泛,从3D形状到图像和音频。在3D形状表示领域,神经符号距离函数(SDF)在精确编码复杂形状几何方面显示出巨大的潜力。然而,在缺乏真实监督的情况下,从3D点云中学习SDF仍然是一项非常具有挑战性的任务。在本文中,我们提出了一种方法,推断占用场而不是SDF,因为它们更容易从稀疏输入中学习。我们利用基于边际的不确定性度量来可微分地从占用函数的决策边界中采样,并使用输入点云监督采样的边界点。我们还通过在训练早期阶段将占用函数偏向于最小熵场,同时在输入点云处最大化其熵,来稳定优化过程。通过广泛的实验和评估,我们展示了我们提出方法的有效性,强调其在使用合成和真实数据方面改进隐式形状推断的能力。
概述主要内容:
这段话介绍了隐式神经表示法在3D形状表示中的重要性,特别是神经符号距离函数(SDF)。然而,从3D点云中学习SDF存在挑战。因此,文章提出了一种新方法,即推断占用场,这是更容易学习的。此外,文中还描述了如何使用不确定性度量和监督方法来改进这一过程,并通过实验证明了该方法的有效性。
Paper6 Blur2Blur: Blur Conversion for Unsupervised Image Deblurring on Unknown Domains
摘要小结: 本文介绍了一种创新框架,用于训练一种针对特定相机设备的图像去模糊算法。该算法通过将难以去模糊的模糊输入图像转换为更易于去模糊的模糊图像来工作。这种从一种模糊状态转换到另一种模糊状态的过程利用了由目标相机设备捕获的清晰和模糊图像组成的未配对数据。学习这种模糊到模糊的转换本质上比直接模糊到清晰的转换简单,因为它主要涉及修改模糊模式,而不是重建精细图像细节的复杂任务。所提出方法的的有效性已通过在各种基准测试上的全面实验得到证明,它在定量和定性方面都显著优于现有技术。我们的代码和数据可在 https://github.com/VinAIResearch/Blur2Blur 获得。
主要内容概述:
本文介绍了一种针对特定相机设备的图像去模糊框架,该框架通过转换模糊图像来提高去模糊效果。该方法使用未配对数据进行训练,并展示了在多个基准测试上的优越性能。
Paper7 NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models
摘要小结: 这段话的中文翻译如下:
生成模型在近年来因其图像生成能力而非常受欢迎。基于GAN的模型因其解耦的潜在空间而受到高度评价,这一关键特性有助于它们在受控图像编辑方面的成功。另一方面,扩散模型作为生成高质量图像的强大工具而出现。然而,扩散模型的潜在空间并没有被彻底探索或理解。现有旨在探索扩散模型潜在空间的方法通常依赖于文本提示来精确指定特定语义。然而,在艺术、时尚或医学等特定领域,可能无法获得或容易构思合适的文本提示,这种做法可能具有限制性,从而限制了现有工作范围。在本文中,我们提出了一种无需依赖文本提示的无监督方法,用于在文本到图像的扩散模型中发现潜在语义。我们的方法采用一组来自特定领域(如人脸或猫)的未标记图像和一个预训练的扩散模型,并使用对比学习目标以无监督的方式发现多样的语义。此外,学习的方向可以同时应用在同一领域(如各种面部编辑类型)或不同领域(如在同一图像中应用猫和面部编辑)而不会相互干扰。我们的广泛实验表明,我们的方法实现了高度解耦的编辑,超过了现有的基于扩散和基于GAN的潜在空间编辑方法。
主要内容概述:
这段话主要讨论了生成模型,特别是GAN和扩散模型在图像生成方面的应用。它指出了扩散模型潜在空间探索的不足,并提出了一种新的无监督方法来发现这些模型中的潜在语义,无需依赖文本提示。该方法能够发现多样语义,并在实验中展示了其优越性,超过了现有方法。
Paper8 HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes
摘要小结: 这段话的中文翻译如下:
以人为中心的三维场景理解最近因其对机器人学的关键影响而受到越来越多的关注。然而,以人为中心的现实生活场景极其多样化和复杂,人类具有复杂的动作和交互。由于标记数据有限,监督方法难以推广到一般场景,阻碍了现实生活的应用。模仿人类智能,我们提出了一种针对以人为中心场景的无监督3D检测方法,通过将合成人体实例的知识转移到真实场景中。为了弥合合成模型与真实点云在数据表示和特征分布上的差异,我们引入了新颖的模块,用于有效的实例到场景表示转移和合成到真实特征对齐。值得注意的是,与当前最先进的技术相比,我们的方法表现出更优越的性能,在HuCenLife数据集上mAP提高了87.8%,且接近完全监督方法的性能(62.15 mAP vs. 69.02 mAP)。
主要内容概述:
这段话主要讨论了以人为中心的三维场景理解的挑战,并提出了一种新的无监督3D检测方法。由于现实生活场景的复杂性和多样性,监督方法难以广泛应用。因此,研究者提出了一种方法,通过知识转移来处理这个问题。他们还介绍了用于特征对齐和表示转移的新模块,并且该方法在性能上显著提升,接近完全监督方法。
Paper9 Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos
摘要小结: 类别级别的3D姿态估计是计算机视觉和机器人领域一个非常重要的问题,例如对于具体化的代理或训练3D生成模型。然而,到目前为止,估计类别级别对象姿态的方法要么需要大量的人工标注、CAD模型,要么需要来自RGB-D传感器的输入。与之相反,我们解决了仅从随意拍摄的对象中心视频中无人工监督地学习估计类别级别3D姿态的问题。以下是翻译:
翻译:
类别级别的3D姿态估计在计算机视觉和机器人领域是一个根本性的重要问题,例如对于具体化的代理或用于训练3D生成模型。然而,到目前为止,估计类别级别对象姿态的方法需要大量的人类注释、CAD模型或来自RGB-D传感器的输入。相比之下,我们解决了仅从随意拍摄的对象中心视频中无人工监督地学习估计类别级别3D姿态的问题。我们提出了一个两步流程:首先,我们引入了一个多视图对齐程序,该程序通过新颖且稳健的循环距离公式确定跨视频的规范摄像机姿态,用于几何和外观匹配,使用重建的粗略网格和DINOv2特征。在第二步中,规范姿态和重建网格使我们能够训练一个从单张图像进行3D姿态估计的模型。
主要内容概述:
这段话主要讨论了以下内容:
- 类别级别的3D姿态估计的重要性。
- 目前方法的需求,如人工注释、CAD模型或RGB-D传感器输入。
- 提出了一种新方法,即从随意拍摄的对象中心视频中无监督地学习估计类别级别的3D姿态。
- 描述了一个两步流程,包括多视图对齐程序和一个从单张图像进行3D姿态估计的模型。
- 方法在Pascal3D+和ObjectNet3D数据集上提供了可靠且鲁棒的预测,并且优于所有基线。
Paper10 UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes
摘要小结: 3D实例分割是理解我们周围世界几何形状的基础。现有的3D场景实例分割方法依赖于昂贵的手动3D注释的监督。我们提出了UnScene3D,这是第一个完全无监督的3D学习方法,用于室内扫描的类不可知3D实例分割。UnScene3D首先通过利用自监督的颜色和几何特征来寻找潜在的对象区域,生成伪掩码。我们在3D段基元的基础上进行操作,实现了对高分辨率3D数据的高效表示和学习。然后通过在预测上自我训练我们的模型,细化粗略的提案。我们的方法将无监督3D实例分割的准确率提高了超过300%的平均精度分数,即使在具有挑战性的杂乱3D场景中也展示了有效的实例分割。
主要内容概述:
这段话介绍了UnScene3D,这是一种无监督的3D学习方法,用于室内扫描的3D实例分割。该方法通过自我监督的方式生成伪掩码,并在3D段基元上操作,最终通过自我训练进行细化。该方法在无监督3D实例分割上取得了显著改进。
Paper11 HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved Diffusion Models
摘要小结: 高光谱图像(HSI)恢复旨在从退化的观测中恢复出干净的图像,在后续任务中起着至关重要的作用。现有的基于模型的方法在准确建模复杂图像特性方面存在局限性,而基于深度学习的方法则普遍存在泛化能力不足的问题。为缓解这些问题,本文提出了一个带有预训练扩散模型(HIR-Diff)的无监督HSI恢复框架,该框架通过恢复两个低秩成分的乘积,即减小的图像和系数矩阵,来恢复干净的HSIs。具体来说,减小图像具有较低的光谱维度,位于图像域中,可以通过我们改进的扩散模型进行推断,在该模型中设计了一个新的引导函数,包含总变异(TV)先验,以确保减小图像能够被良好采样。系数矩阵可以根据奇异值分解(SVD)和秩揭示性QR(RRQR)分解有效地进行预估计。此外,提出了一种新颖的指数噪声调度策略,以加速恢复过程(去噪时加速约5倍),且性能下降很小。大量的实验结果验证了在多种HSI恢复任务上,包括HSI去噪、含噪HSI超分辨率和含噪HSI修复,我们的方法在性能和速度上的优越性。代码可在https://github.com/LiPang/HIRDiff获取。
主要内容概述:本文介绍了一种新的无监督高光谱图像恢复方法(HIR-Diff),该方法使用预训练的扩散模型来恢复退化的高光谱图像。该方法有效结合了低秩分解和改进的扩散模型,并通过新颖的指数噪声调度策略加速了恢复过程。实验表明,该方法在多个HSI恢复任务上均优于现有方法。
Paper12 MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation Based on 3D Masked Autoencoding and Pseudo-Labeling
摘要小结: 强健的分割对于从大规模多中心和纵向医学扫描中获取定量测量至关重要。然而,手动标注医学扫描既昂贵又耗时,且并非在所有领域都可用。无监督域自适应(UDA)是一种研究成熟的技巧,可以通过利用另一个领域的可用标签来缓解这种标签稀缺问题。在这项研究中,我们介绍了掩膜自编码和伪标签分割(MAPSeg),这是一个具有极高通用性和优越性能的统一UDA框架,用于异质和体积医学图像分割。据我们所知,这是第一个系统回顾并开发一个框架以应对医学图像分割中的四种不同域转移的研究。更重要的是,MAPSeg是第一个可以在集中式、联邦式和测试时UDA中应用并保持相当性能的框架。我们在一个私有的婴儿大脑MRI数据集和一个公共心脏CT-MRI数据集上比较了MAPSeg与之前的最先进方法,MAPSeg大幅超过了其他方法(私有MRI数据集上提高了10.5 Dice得分,公共CT-MRI数据集上提高了5.7)。
以下是主要内容概述:
翻译和概述:
稳健的分割对于从大规模医学扫描中获取定量测量至关重要。手动标注成本高昂,MAPSeg是一种UDA框架,具有优越性能。这是首次研究针对医学图像分割的四种域转移,并且MAPSeg是首个在多种UDA情况下应用并保持性能的框架。它在数据集上的表现显著优于之前的方法。
主要内容:
- 强调了稳健分割的重要性。
- 提出了MAPSeg这一UDA框架。
- 研究是首个针对医学图像分割域转移的系统研究。
- MAPSeg在多个数据集上展示了优异的性能。
Paper13 SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations
摘要小结: 本文介绍了一种名为SfmCAD的新型无监督网络,该网络通过学习现代CAD工作流程中常用的基于草图的特征建模操作来重建3D形状。给定一个以体素表示的3D形状,SfmCAD无需监督就能学习一种神经类型的草图+路径参数化表示,包括特征原语的2D草图及其3D扫描路径,以推断基于特征的三维CAD程序。SfmCAD使用2D草图表示局部细节,用3D路径捕捉整体结构,实现了形状细节和结构的清晰分离。这种转换为参数形式使用户能够无缝调整形状的几何和结构特征,从而提高可解释性和用户控制。以下是主要内容概述:
翻译:
这篇论文介绍了一个名为SfmCAD的无监督网络,它能通过学习现代CAD流程中的草图特征建模操作来重建3D形状。
概述:
- SfmCAD能够学习参数化表示,包括2D草图和3D路径。
- 它使用2D草图和3D路径来分离细节和结构。
- 用户可以无缝调整形状特征。
- 文章通过多种对象展示了方法的有效性。
- 与替代方案相比,SfmCAD生成了更优质的三维重建。
以下是主要内容:
这段话的主要内容是:
- 介绍了一种新的无监督网络SfmCAD。
- SfmCAD能够重建3D形状。
- 它通过学习参数化表示来实现这一点。
- 方法在多种对象上进行了验证,并显示出优越的质量。以下是代码的发布位置。
Paper14 ExMap: Leveraging Explainability Heatmaps for Unsupervised Group Robustness to Spurious Correlations
摘要小结: 这段话的中文翻译是:
群体稳健性策略旨在减轻深度学习模型中由于训练数据集中存在的虚假相关性而产生的学习偏差。然而,大多数现有方法依赖于获取群体的标签分布,这是耗时且昂贵的。因此,正在寻求无监督的群体稳健性策略。基于这样的洞见:可以根据可解释性热图准确推断出训练有素的模型的分类策略,我们引入了ExMap,这是一种无监督的两阶段机制,旨在增强传统分类器中的群体稳健性。ExMap利用聚类模块根据模型的解释性热图推断伪标签,然后这些伪标签在训练中代替实际标签使用。我们的实证研究表明ExMap的有效性——我们证明它缩小了与监督对应物的性能差距,并且优于现有的部分监督和无监督方法。此外,ExMap可以无缝地与现有的群体稳健性学习策略集成。最后,我们展示了它在应对多种捷径缓解这一新兴问题上的潜力。
主要内容概述:
本文讨论了群体稳健性策略在减轻深度学习模型中的偏差问题,并提出了一种名为ExMap的无监督方法。该方法不需要获取群体的标签分布,而是通过模型的可解释性热图来推断伪标签,以增强模型的群体稳健性。研究表明,ExMap能够有效提高模型性能,与监督方法相比表现良好,并且可以与现有的群体稳健性策略相结合使用,还能应对多种捷径问题。
Paper15 A Dynamic Kernel Prior Model for Unsupervised Blind Image Super-Resolution
摘要小结: 这段话的中文翻译如下:
深度学习方法在解决盲超分辨率(BSR)问题方面取得了显著的成功。然而,其中大多数方法需要对标记数据集进行监督预训练。本文提出了一种名为动态内核先验(DKP)的无监督内核估计模型,以实现一种无监督且无需预训练的学习型算法来解决BSR问题。DKP能够自适应地学习动态内核先验,以实现实时内核估计,从而实现更优的高分辨率图像恢复性能。这是通过对随机内核分布进行马尔可夫链蒙特卡洛采样过程实现的。然后,将学习的内核先验分配给优化模糊内核估计网络,该网络包含基于网络的朗之动力学优化策略。这两种技术确保了内核估计的准确性。DKP可以轻松地替代现有方法中的内核估计模型,如Double-DIP和FKP-DIP,或者添加到现成的图像恢复模型中,如扩散模型。在本文中,我们将我们的DKP模型与DIP和扩散模型结合,分别称为DIP-DKP和Diff-DKP进行验证。在高斯和运动内核场景的广泛模拟中,提出的DKP模型显著提高了内核估计,且运行时间和内存使用相当,达到了最先进的BSR结果。代码可在https://github.com/XYLGroup/DKP获取。
主要内容概述:
这段话主要介绍了作者提出的一种名为动态内核先验(DKP)的无监督内核估计模型,用于解决盲超分辨率问题。DKP模型无需监督预训练,能够自适应学习动态内核先验,并通过马尔可夫链蒙特卡洛采样过程实现实时内核估计。该方法提高了高分辨率图像恢复的性能,并且可以轻松集成到现有方法中。通过模拟验证,DKP模型在内核估计方面取得了显著改进,达到了最先进的BSR结果。
Paper16 Dual Prototype Attention for Unsupervised Video Object Segmentation
摘要小结: 这段话的中文翻译如下:
无监督视频对象分割(VOS)的目标是检测并分割视频中最显著的对象。无监督VOS中使用的主要技术包括:1)外观和运动信息的协作;2)不同帧之间的时间融合。本文提出了两种新颖的基于原型的注意力机制——跨模态注意力(IMA)和跨帧注意力(IFA),通过在不同模态和帧之间进行密集传播来融合这些技术。IMA基于相互精化密集地整合来自不同模态的上下文信息。IFA将视频的全局上下文注入到查询帧中,使得能够充分利用多个帧的有用属性。在公共基准数据集上的实验结果表明,我们提出的方法大幅优于所有现有方法。所提出的两个组成部分也通过消融研究得到了彻底验证。
主要内容概述:
这段话主要讨论了无监督视频对象分割(VOS)的目标和技术,并提出了一种新的方法。该方法包括两种基于原型的注意力机制——IMA和IFA,用于整合外观、运动信息以及不同帧之间的时间融合。实验证明,这种方法优于现有方法,并且两个组成部分也通过研究得到了验证。
Paper17 Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation
摘要小结: 我们提出了一种针对长未剪辑视频的动作分割任务的新方法,该方法基于解决最优传输问题。通过将时间一致性先验编码到Gromov-Wasserstein问题中,我们能够从视频帧与动作类别之间的噪声亲和力/匹配成本矩阵中解码出时间上一致的动作分割。与之前的方法不同,我们的方法不需要知道视频中的动作顺序就能达到时间一致性。此外,我们的(融合的)Gromov-Wasserstein问题可以使用少量迭代的项目镜像下降法在GPU上高效求解。我们在无监督学习环境中展示了方法的有效性,其中我们的方法用于生成伪标签以进行自我训练。我们评估了我们的分割方法和无监督学习流程,在Breakfast 50-Salads YouTube Instructions和Desktop Assembly数据集上取得了先进的结果。
概述:
这段话主要内容是介绍了一种新的动作分割方法,该方法适用于长未剪辑视频。该方法通过解决最优传输问题来实现,并且不需要知道动作顺序即可保持时间一致性。此外,该方法在无监督学习设置中表现有效,并在多个数据集上取得了先进结果。