WACV2024 分割相关论文摘要小结速览
Paper1 Robust Source-Free Domain Adaptation for Fundus Image Segmentation
摘要小结: 无监督域自适应(UDA)是一种学习技术,它将源域中从标记训练数据学习到的知识转移到只有未标记数据的目标域。这对医学图像分割具有重要意义,因为通常缺乏标记训练数据。尽管已经付出了大量努力来优化UDA技术以提高目标域中分割模型的准确性,但很少有研究关注这些模型在UDA下的鲁棒性。在本文中,我们提出了一种两阶段的训练策略,用于鲁棒的域自适应。在源域训练阶段,我们利用对抗性样本增强来提高源模型的鲁棒性和泛化能力。在目标域训练阶段,我们提出了一种新颖的鲁棒伪标签和伪边界(PLPB)方法,该方法有效地利用未标记的目标数据生成伪标签和伪边界,使模型能够自我适应,而无需源数据。跨域眼底图像分割的广泛实验结果证实了该方法的有效性和通用性。本研究源代码公开可访问,地址为 https://github.com/LinGrayy/PLPB.
主要内容概述:
本文讨论了无监督域自适应(UDA)在医学图像分割中的重要性,并提出了一种两阶段的训练策略来提高模型的鲁棒性。该方法包括在源域训练阶段的对抗性样本增强,以及在目标域训练阶段的新型PLPB方法,以生成伪标签和边界。实验结果证明了该方法的有效性。
Paper2 FOSSIL: Free Open-Vocabulary Semantic Segmentation Through Synthetic References Retrieval
摘要小结: 无监督开放词汇语义分割旨在将图像分割成指代任意一组由文本描述的概念的区域,而不依赖于仅针对类别子集可用的密集注释。先前的工作依赖于通过对大量的图像-标题对进行对比训练,在多模态空间中诱导像素级对齐。然而,仅通过文本嵌入来表示语义类别不足以涵盖与该类别相关的图像在视觉外观上的广泛变异性。在本文中,我们提出了FOSSIL,一个流程,使自监督骨干能够仅依赖视觉模态执行开放词汇分割。特别是,我们将任务分解为两个部分:(1)我们利用文本条件扩散模型从一组标题生成大量的视觉嵌入。在推理时,这些可以检索以获得文本概念集的参考支持集。此外,(2)我们利用自监督密集特征将图像分割成语义连贯的区域。
概述主要内容:
这段话主要介绍了无监督开放词汇语义分割的研究内容。该方法旨在对图像进行分割,而不依赖于密集的注释。之前的工作存在限制,本文提出了FOSSIL流程,该流程允许自监督骨干仅依赖视觉模态进行开放词汇分割。任务分为两个部分:使用文本条件扩散模型生成视觉嵌入,以及在图像上利用自监督密集特征进行语义连贯区域的分割。研究显示,该方法在不同语义分割数据集上表现良好,无需额外训练。
Paper3 Pixel Matching Network for Cross-Domain Few-Shot Segmentation
摘要小结: 快速分割(FSS)的目标是使用少量注释样本对新颖类别图像进行分割。过去,许多研究集中在跨类别任务上,其中训练集和测试集来自同一数据集,而这些方法在领域转移场景中面临重大困难。为了更好地应对跨领域任务,我们提出了一种像素匹配网络(PMNet),用于提取领域无关的像素级亲和力匹配,并使用冻结骨干捕捉每个支持-查询对中的像素到像素和像素到块的关系,使用双向3D卷积。与现有方法不同,我们设计了一个滞后空间滤波模块(HSFM),以过滤与背景相关的查询特征,并在支持背景的协助下保留与前景相关的查询特征,这有助于消除查询背景中的干扰对象。我们在跨类别、跨数据集和跨领域FSS任务的十个基准上全面评估了我们的PMNet。实验结果表明,PMNet在不同设置下仅用0.68M参数表现非常出色,特别是在跨领域FSS任务中,显示了其有效性和效率。
概述主要内容:
这段话介绍了Few-Shot Segmentation(FSS)的一个新方法,即像素匹配网络(PMNet)。该方法旨在应对跨领域任务,并提出了几个关键点:
- PMNet用于提取领域无关的像素级亲和力匹配。
- 使用了一个滞后空间滤波模块(HSFM)来处理背景问题。
-该方法在多个基准上进行了评估,尤其在跨领域FSS任务中表现出色。
Paper4 Amodal Intra-Class Instance Segmentation: Synthetic Datasets and Benchmark
摘要小结:
现实场景的图像通常包含相互之间严重遮挡的同类对象,这使得需要解析对象遮挡部分的全局感知任务变得具有挑战性。虽然这对于下游任务(如机器人抓取系统)很重要,但缺乏大规模的全局数据集以及详细的注释使得难以显式地建模同类对象之间的遮挡。本文介绍了两个新的全局数据集,用于图像全局补全任务,其中包含了总共超过267,000张同类遮挡场景的图像,用多个掩模、全局边界框、双重顺序关系以及实例和背景的完整外观进行注释。我们还提出了一种针对同类遮挡场景的全局实例分割的点监督方案,该方案带有层先验。实验表明,我们的弱监督方法优于现有的SOTA完全监督方法,而我们的层先验设计在合成图像和真实图像的同类遮挡情况下表现出显著的性能提升。
主要内容概述:
这段话主要讨论了现实场景中同类对象之间的遮挡问题,并指出这给全局感知任务带来了挑战。文章介绍了两个新的全局数据集,用于图像全局补全任务,并包含详细的注释。此外,提出了一种针对同类遮挡场景的全球实例分割的点监督方案。实验结果显示,该方法在性能上优于现有的监督方法,尤其是在同类遮挡情况下。
Paper5 Prototypical Contrastive Network for Imbalanced Aerial Image Segmentation
摘要小结: 二值分割是支撑多种遥感应用的主要任务,这些应用特别关注识别和监测特定的类别/对象。尽管这一任务极其重要,但它存在几个挑战,包括背景的大类内差异和数据不平衡等问题。此外,大多数处理这一任务的工作要么部分忽略,要么完全忽视这些挑战及其发展。在本文中,我们提出了一种基于深度网络、原型和对比损失进行遥感图像不平衡二值分割的新方法。所提出的方法使模型能够专注于学习前景类别,同时通过关注最困难的背景示例来缓解类别不平衡问题。结果表明,与现有技术相比,提出的方法在遥感图像的不平衡二值分割上表现更佳,同时训练时间大大减少。
概述主要内容:
这段话主要介绍了二值分割在遥感应用中的重要性,以及面临的挑战,如背景的大类内差异和数据不平衡。作者提出了一种新的方法来处理这些问题,并说明了该方法在性能和训练时间上的优势。
Paper6 dacl10k: Benchmark for Semantic Bridge Damage Segmentation
摘要小结: 这段话的中文翻译是:可靠地识别钢筋混凝土缺陷(RCDs)在评估混凝土桥梁的结构完整性、交通安全和长期耐久性方面起着至关重要的作用,混凝土桥梁是世界上最常见的桥梁类型。然而,目前用于识别RCDs的数据集在大小和类别多样性方面都很小,这使它们在实际场景中的可用性以及作为基准的作用受到质疑。我们对这个问题的贡献是“dacl10k”,这是一个异常多样化的RCD数据集,用于多标签语义分割,包含来自实际桥梁检查的9,920张图片。dacl10k区分了12个损伤类别以及6个在建筑物评估和推荐行动(如修复工作、交通荷载限制或桥梁关闭)中发挥关键作用的桥梁组件。此外,我们还研究了dacl10k的基线模型,并对其进行了评估。最佳模型在测试集上实现了0.42的平均交并比。dacl10k以及我们的基线模型将公开提供给研究人员和实践者,是目前在桥梁检查领域用于语义分割的图像数量和类别多样性最大的数据集。
主要内容概述:这段话介绍了钢筋混凝土缺陷(RCDs)识别的重要性,并指出现有数据集存在大小和类别多样性不足的问题。作者提出了一个新的名为“dacl10k”的数据集,包含9,920张真实的桥梁检查图片,能够区分12个损伤类别和6个桥梁组件。此外,作者还评估了该数据集的基线模型,并公开提供了数据集和模型,这对于桥梁检查领域的语义分割任务来说是一个重要的资源。
Paper7 What’s Outside the Intersection? Fine-Grained Error Analysis for Semantic Segmentation Beyond IoU
摘要小结: 语义分割是计算机视觉中的基本任务,具有各种应用领域,如自动驾驶、医学成像或遥感。目前,平均交并比(mIoU)是评估和比较语义分割模型的黄金标准。然而,尽管mIoU作为一个有价值的基准,但它并未提供关于模型产生的错误类型的洞察。此外,不同类型的错误可能对下游应用产生不同的影响。为了解决这一问题,我们提出了一种直观的方法,用于对错误进行系统的分类,从而能够对语义分割模型进行细粒度分析。由于我们将每个错误像素精确地分配给一个错误类型,我们的方法无缝扩展了基于IoU的流行评估,从而更深入地了解假阳性和假阴性的预测。我们的方法是模型和数据处理无关的,因为它不依赖于预测和真实分割掩膜之外的额外信息。在实验中,我们证明了我们的方法可以定量准确地评估模型的优点和弱点,从而减少对耗时定性模型检查的依赖。
以下主要内容概述:
翻译内容:
语义分割在计算机视觉中是一项基础任务,应用领域广泛,包括自动驾驶、医学成像和远程遥感等。评估和比较语义分割模型时,目前采用的是平均交并比(mIoU)作为标准。但mIoU并不能揭示模型犯的具体错误类型,不同错误可能对后续应用产生不同影响。本文提出了一种直观的错误分类方法,以便对模型进行细致分析。方法将每个错误像素精确归类,扩展了IoU评估,更详细地展示了误判。该方法与模型和数据集无关,实验显示它能准确评估模型优劣,减少了对定性检查的依赖。
概述:
- 提出了一种新的错误分类方法,用于语义分割模型评估。
- 方法可以定量分析模型的优缺点。
- 该方法与模型和数据集无关。
- 实验分析了多种先进模型,展示了系统差异。
- 通过结合两种互补的模型,展示了mIoU的持续改进。
- 提供了一个工具包,用于评估方法。
Paper8 Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic Segmentation
摘要小结:
使用多种空间模态已被证明有助于提高语义分割的性能。然而,还有一些现实世界的挑战尚未解决:(a)提高标签效率和(b)在现实场景中增强鲁棒性,这些场景中在测试时会出现模态缺失。为了解决这些挑战,我们首先提出了一种简单而高效的多模态融合机制——线性融合,即使在有限的监督下,它的表现也优于现有的多模态模型。其次,我们提出了M3L:用于遮蔽模态学习的多模态教师,这是一个半监督框架,它不仅提高了多模态性能,而且使用未标记数据使模型对现实缺失模态场景具有鲁棒性。我们创建了第一个半监督多模态语义分割的基准,并报告了对缺失模态的鲁棒性。我们的提案在稳健的mIoU上比最具有竞争力的基线提高了高达5%的绝对改进。我们的项目页面位于 https://harshm121.github.io/projects/m3l.html。
主要内容概述:
这段话主要讨论了作者提出的一种新的多模态语义分割方法。作者提出了线性融合机制,即使在监督有限的情况下也能提高性能。此外,他们还提出了M3L框架,用于处理现实世界中的模态缺失问题。他们还创建了首个半监督多模态语义分割的基准,并展示了其方法在提高鲁棒性方面的优势。
Paper9 Learning to Detour: Shortcut Mitigating Augmentation for Weakly Supervised Semantic Segmentation
摘要小结:
使用弱标签形式的弱监督语义分割(WSSS)已被积极研究,以减轻获取像素级标签的注释成本。然而,在偏向性数据集上训练的分类器往往利用捷径特征,并根据某些背景和对象之间的虚假相关性进行预测,导致泛化性能差。在本文中,我们提出了针对WSSS的捷径缓解增强(SMA),它生成在训练数据中未见过的对象-背景组合的合成表示,以减少对捷径特征的使用。我们的方法将对象相关和背景特征分离。然后我们打乱并组合这些分离的表示,以创建多样化的对象-背景组合的合成特征。SMA训练的分类器在预测时对上下文的依赖性较小,更专注于目标对象。此外,我们使用基于归因方法的标准分析了应用我们的增强后分类器在捷径使用上的行为。所提出的方法在PASCAL VOC 2012和MS COCO 2014数据集上提高了语义分割结果的性能。
主要内容概述:
这段话主要讨论了弱监督语义分割(WSSS)的一个问题,即分类器可能会利用捷径特征,导致泛化性能差。为了解决这个问题,作者提出了一个名为捷径缓解增强(SMA)的方法。这个方法通过生成合成的对象-背景组合特征,减少对捷径特征的使用。该方法还能让分类器更专注于目标对象,而不是上下文。最后,作者在两个数据集上展示了该方法提高语义分割性能的结果。
Paper10 Guided Distillation for Semi-Supervised Instance Segmentation
摘要小结: 尽管实例分割方法已经取得了长足的进步,但主流的方法还是依赖于完全标注的训练图像,而这些图像的获取过程既繁琐又耗时。为了减轻这种依赖并提高结果,半监督方法利用未标注的数据作为额外的训练信号,以限制对标注样本的过拟合。在这种情况下,我们提出了新的设计选择,以显著提高教师-学生蒸馏模型的性能。特别是,我们(i)通过引入一种新的“引导预热”阶段来改进蒸馏方法,以及(ii)评估不同的实例分割架构、骨干网络和预训练策略。与之前只在学生的预热阶段使用监督数据的工作不同,我们还利用教师模型的指导在预热阶段利用未标注的数据。我们改进的蒸馏方法使得结果大幅优于之前的最先进技术。例如,在Cityscapes数据集上,当使用10%的图像标签时,我们将mask-AP从23.7提高到了33.9;在COCO数据集上,当仅使用1%的训练数据标签时,我们将mask-AP从18.3提高到了34.1。
主要内容概述:
本文提出了一种改进的半监督学习蒸馏方法,用于实例分割任务,以减少对完全标注数据的依赖。研究引入了“引导预热”阶段,并评估了多种架构和策略。新方法在Cityscapes和COCO数据集上显著提高了分割性能。
Paper11 BPKD: Boundary Privileged Knowledge Distillation for Semantic Segmentation
摘要小结: 当前在语义分割方面的知识蒸馏方法往往采用一种整体方法,对所有空间位置一视同仁。然而,对于密集预测,由于边缘区域存在上下文信息泄露,学生的预测在这些区域具有很高的不确定性,因此相较于中心区域,需要更高空间敏感度的知识。为应对这一挑战,本文提出了一种新颖的方法,称为边界优先知识蒸馏(BPKD)。该方法将教师模型中的中心和边缘知识分别提炼到紧凑的学生模型中。具体来说,我们采用了两个不同的损失函数:(i)边缘损失,旨在区分边缘区域像素级别上的模糊类别;(ii)中心损失,利用形状约束并选择性地关注内部语义区域。实验证明,所提出的BPKD方法为边缘和中心区域提供了广泛的优化和整合。此外,该方法在三个流行的基准数据集上取得了语义分割的最先进蒸馏性能,突显了其有效性和泛化能力。BPKD在各种轻量级分割结构上显示了一致的改进,包括卷积神经网络(CNNs)和变换器,强调了其与架构无关的适应性。
主要内容概述:本文针对语义分割中的知识蒸馏问题,提出了一种新的边界优先知识蒸馏方法(BPKD)。该方法能够区分对待边缘和中心区域,采用不同的损失函数进行优化。实验结果显示,BPKD在多个数据集上达到了最先进的性能,并具有广泛的适用性和改进效果。
Paper12 Uncertainty-Weighted Loss Functions for Improved Adversarial Attacks on Semantic Segmentation
摘要小结: 最新的深度神经网络在诸如语义分割等各种感知任务中已被证明非常强大。然而,这些网络容易受到输入的对抗性干扰,这些干扰对人类来说是不可感知的,但会导致错误的预测。将图像分割视为像素级分类的总和,研究表明,为分类模型开发的对抗性攻击也适用于分割模型。在这项工作中,我们提出了针对这些攻击的简单基于不确定性的加权方案,这些方案包括:(i)对更容易受到干扰的像素分类赋予更高的权重,(ii)将那些已经确定被错误分类的像素的像素级损失置零。这些加权方案可以轻松地集成到多种知名对抗攻击者的损失函数中,且额外计算开销最小,但能显著提高干扰性能,我们在多个数据集和模型的实证分析中证明了这一点。
概述主要内容:
这段话主要讨论了深度神经网络在对抗性攻击方面的脆弱性,特别是针对图像分割任务。作者提出了一种基于不确定性的加权方案,用于提高对抗性攻击的效率。这些方案能够提高性能,并且易于集成到现有的攻击模型中。
Paper13 Towards Accurate Disease Segmentation in Plant Images: A Comprehensive Dataset Creation and Network Evaluation
摘要小结:
在植物图像中的自动病害分割对于识别和减轻植物病害对农业生产力的影响起着至关重要的作用。在这项研究中,我们解决了玉米植株中北方叶枯病(NLB)病害分割的问题。我们提供了一个包含1000张植物图像的综合数据集,这些图像用NLB病害区域进行了注释。我们采用Mask R-CNN和级联Mask R-CNN模型以及不同的骨干架构来执行NLB病害分割。实验结果表明,这些模型在准确描绘NLB病害区域方面是有效的。特别是,ResNet Strikes Back-50骨干架构取得了最高的平均精度(mAP)分数,表明其能够捕捉到NLB病斑的复杂细节。此外,与单阶段Mask R-CNN模型相比,级联方法提高了分割精度。我们的研究为不同骨干架构的性能提供了有价值的见解,并为植物图像中自动NLB病害分割方法的发展做出了贡献。生成的数据集和实验结果为植物病害分割和管理进一步研究提供了资源。
主要内容概述:
这段话主要讨论了一项关于玉米植株中北方叶枯病(NLB)病害分割的研究。研究提供了一个包含1000张注有NLB病害区域的植物图像数据集,并使用了不同的模型和骨干架构进行病害分割。实验结果显示了这些模型的有效性,特别是ResNet Strikes Back-50架构表现出色。此外,级联方法提高了分割精度。这项研究为植物图像中的病害分割提供了有价值的见解和资源。
Paper14 Classifying Cable Tendency With Semantic Segmentation by Utilizing Real and Simulated RGB Data
摘要小结:
电缆趋势是在操纵电缆时可能具有的潜在形状或特征,其中一些被认为是错误的,应在自动操纵过程中的异常检测部分进行识别。本研究探讨了深度学习模型学习电缆趋势的能力,这与多对象场景的典型分类任务不同,其目的是区分同一对象(在本例中为电缆)可展示的多种状态。通过使用不同组合的自收集的现实世界数据和自生成的模拟数据训练多个模型,进行了一项比较研究,以比较每种方法的性能。总之,实验证明了检测电缆的三种异常状态和形状以及使用模拟数据的有效性。
主要内容概述:
这段话主要讨论了一项研究,该研究旨在探索深度学习模型在学习电缆趋势方面的能力。研究重点在于区分电缆可能展示的不同状态,并使用现实世界数据和模拟数据进行训练模型。通过比较研究,实验证明了检测电缆异常状态和形状的有效性。
Paper15 Permutation-Aware Activity Segmentation via Unsupervised Frame-To-Segment Alignment
摘要小结: 本文提出了一种基于无监督变换器框架的时间活动分割方法,该方法不仅利用了帧级线索,还利用了段级线索。这与之前的方法形成对比,之前的方法通常只依赖帧级信息。我们的方法从帧级预测模块开始,该模块通过变换器编码器估计帧级的动作类别。帧级预测模块通过时间最优传输以无监督的方式进行训练。为了利用段级信息,我们使用了段级预测模块和帧到段对齐模块。前者包括一个变换器解码器,用于估计视频转录本,而后者将帧级特征与段级特征匹配,产生考虑排列的分割结果。此外,受时间最优传输的启发,我们引入了简单而有效的伪标签,用于上述模块的无监督训练。我们在四个公共数据集上的实验,即50 Salads、YouTube Instructions、Breakfast和Desktop Assembly,显示我们的方法在无监督活动分割中取得了与之前方法相当或更好的性能。
概述主要内容:
这段话介绍了论文中提出的一种无监督的时间活动分割框架,该框架利用变换器技术,同时考虑帧级和段级线索。它通过无监督训练和引入伪标签来提高性能,并在多个数据集上展示了其优越的性能。
Paper16 PrivObfNet: A Weakly Supervised Semantic Segmentation Model for Data Protection
摘要小结:
社交媒体的使用使得通过互联网进行通信和分享信息变得容易。然而,这也带来了数据隐私泄露等问题,恶意接收者可能会利用这些问题损害发送者。在本文中,我们提出了一种深度神经网络,用于分析用户的图像,以识别隐私敏感内容,并自动定位敏感区域进行模糊处理。我们的方法仅依赖于图像级别的注释,并学会在给定的输入图像中(a)预测总体隐私分数,(b)检测敏感属性和(c)标出需要进行模糊处理的敏感区域。我们在三个大型数据集VISPR、PASCAL VOC 2012和MS COCO 2014上验证了我们提出方法的性能,包括隐私分数、属性预测和模糊处理性能。
主要内容概述:
这段话主要讨论了社交媒体使用中隐私泄露的问题,并提出了一种解决方案。解决方案是一个深度神经网络,它能够分析图像中的隐私敏感内容,并自动识别敏感区域进行模糊处理。该方法在三个大型数据集上进行了验证,并且在性能上超过了之前的 方法。以下是几个关键点:
- 提出了深度神经网络进行隐私敏感内容分析。
- 网络能够预测隐私分数、检测敏感属性并标出敏感区域。
- 在数据集上的表现优异,超过了之前的方法。
Paper17 Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation
摘要小结: 当模型(例如语义分割模型)应用于与训练数据截然不同的图像时,性能会显著下降。领域自适应方法试图克服这个问题,但需要目标域的样本。然而,由于各种原因,这可能并不总是可行的,因此领域泛化方法很有用,因为它们不需要任何目标数据。我们提出了一种新的基于扩散的领域扩展(DIDEX)方法,并使用扩散模型生成具有多样文本提示的伪目标域。与现有方法相比,这允许控制生成图像的样式和内容,并引入高多样性。在第二步中,我们通过适应这个伪目标域来训练一个泛化模型。我们在不使用任何真实数据的情况下,在各种数据集和架构上大幅度优于先前的方法。对于GTA5的泛化,我们平均将最先进的mIoU性能提高了3.8%(绝对值),对于SYNTHIA则提高了11.8%(绝对值),这在这些基准测试上的泛化性能迈出了重要一步。代码可在 https://github.com/JNiemeijer/DIDEX 获得。
概述主要内容:
这段话介绍了作者提出的一种新的领域扩展方法DIDEX,该方法使用扩散模型生成伪目标域,以此来提高模型在无需目标数据情况下的泛化能力。该方法能够有效控制生成图像的样式和内容,并在多个数据集上取得了显著的性能提升。
Paper18 Residual Graph Convolutional Network for Bird’s-Eye-View Semantic Segmentation
摘要小结: 检索空间信息并理解周围环境的语义信息对于鸟瞰图(BEV)语义分割非常重要。在自动驾驶的应用中,自动驾驶车辆需要了解周围环境以安全驾驶。然而,当前的BEV语义分割技术,如深度卷积神经网络(CNNs)和变换器,在有效获取周围环境的全局语义关系方面存在困难。在本文中,我们提出在深度CNNs中引入一种新颖的残差图卷积(RGC)模块,以获取多视角图像域中的全局信息和区域级语义关系。具体来说,RGC模块采用非重叠图空间投影,有效地将完整的BEV信息投影到图空间。然后构建相互连接的空间和通道图,以提取每个节点之间的空间信息和每个节点内的通道信息(即提取全局特征的关系)。此外,它使用下采样残差过程来增强坐标特征的重用,以保持全局信息。分割数据增强和对齐模块有助于同时增强和对齐BEV特征和地面真实值,以几何上保持其对齐,从而实现更好的分割结果。
概述内容:
这段话主要讨论了BEV语义分割的重要性,尤其是在自动驾驶中的应用。当前技术面临挑战,因此文中提出了一个新的RGC模块,用于在深度CNNs中获取全局和区域级语义关系。RGC模块的具体工作方式以及如何提升分割结果被详细说明。实验结果表明,RGC网络在多个指标上优于现有技术,并将发布代码和模型。
Paper19 Mining and Unifying Heterogeneous Contrastive Relations for Weakly-Supervised Actor-Action Segmentation
摘要小结: 我们介绍了一种新颖的弱监督视频演员-动作分割(VAAS)框架,其中只有视频级别的标签可用。之前的VAAS方法遵循一种合成和精炼方案,即它们首先合成伪分割,然后递归地精炼分割。然而,这个过程需要大量的时间成本,并且严重依赖于初始分割的质量。与现有工作不同,我们的方法分层挖掘对比关系,以相互补充,学习一个视觉上合理的分割模型。具体来说,从像素级别和帧级别抽象出三种对比关系,即低级边缘感知、类激活图感知和语义标签感知关系。然后,将发现的对比关系统一到一个通用目标中,用于训练分割模型,不受它们异质性的影响。此外,我们还引入了运动线索和未标记样本,以提高分割模型的判别力和鲁棒性。大量实验表明,我们提出的方法产生了合理的分割。
概述主要内容:
这段话介绍了一种新的弱监督视频演员-动作分割框架。该方法不需要过多的标签信息,仅使用视频级别标签。它不同于传统方法,通过分层挖掘对比关系来学习分割模型,包括三种对比关系。此外,还利用了运动线索和未标记样本来提升模型性能。实验证明,这种方法能够产生合理的分割结果。
Paper20 Rethinking Knowledge Distillation With Raw Features for Semantic Segmentation
摘要小结: 现有的用于语义分割的知识蒸馏方法大多专注于从原始特征中提取各种复杂知识。然而,这类知识通常是手动设计的,并且像传统特征工程一样依赖于先验知识。在本文中,我们旨在提出一种简单且有效的使用原始特征的特征蒸馏方法。为此,我们回顾了特征蒸馏的先驱工作FitNets,它仅通过最小化教师和学生特征之间的均方误差(MSE)损失。我们的实验表明,这种简单方法取得了良好结果,甚至在某些情况下超过了某些精心设计的方法。但是,它需要仔细调整蒸馏损失的权重。
以下是翻译和主要内容概述:
大多数现有的语义分割知识蒸馏方法专注于从原始特征中提取各种复杂知识。然而,这种知识通常是手动设计的,并且依赖于传统特征工程中的先验知识。在本文中,我们提出了一种简单且有效的利用原始特征的特征蒸馏方法。为了实现这一点,我们重新审视了特征蒸馏的开创性工作FitNets,它仅仅通过最小化教师和学生特征之间的均方误差(MSE)损失。我们的实验显示,这种简单的方法取得了很好的效果,甚至在某些情况下超过了某些精心设计的方法。但是,它需要仔细调整蒸馏损失的权重。
主要内容概述:
- 文章讨论了语义分割中的知识蒸馏方法。
- 现有方法通常手动设计知识,依赖先验知识。
- 作者提出了一种简单有效的特征蒸馏方法。
- 方法基于FitNets,通过最小化MSE损失。
- 实验结果显示该方法效果良好,但需要调整损失权重。
- 作者进一步探讨了损失函数的分解,并提出了角度蒸馏方法。
-该方法在语义分割上展示了出色的性能和鲁棒性。
Paper21 Interactive Segmentation for Diverse Gesture Types Without Context
摘要小结: 互动分割涉及人类标记图像以指导模型如何创建或编辑分割。我们的工作解决了现有方法的局限性:它们要么只支持一种标记图像的手势类型(例如,点击或涂鸦),要么需要了解正在使用的手势类型,并需要指定标记区域在最终分割中是被包含还是被排除。相反,我们提出了一个简化的互动分割任务,用户只需标记图像,输入可以是任何手势类型,而无需指定手势类型。我们通过引入第一个具有多种手势类型的互动分割数据集以及一个新的评估指标来支持这一新任务,该指标能够全面评估互动分割算法。然后我们分析了许多互动分割算法,包括为我们的新任务适配的算法。虽然我们整体观察到了有希望的性能,但也强调了未来改进的领域。为了促进这项工作的进一步扩展,我们公开分享了我们的新数据集,地址为:https://github.com/joshmyersdean/dig…
概述主要内容:
这段话主要讲述了作者们针对现有互动分割方法的局限性提出了一种新的简化的互动分割任务。这个任务允许用户使用任何手势类型来标记图像,而无需指定手势类型。同时,他们引入了首个多种手势类型的互动分割数据集和新评估指标,并分析了多种互动分割算法的性能,指出了未来的改进领域,并公开分享了数据集。
Paper22 Location-Aware Self-Supervised Transformers for Semantic Segmentation
摘要小结:
像素级标签的获取尤其昂贵。因此,预训练是提高模型在语义分割等任务上表现的关键步骤。然而,目前用于预训练神经网络的著名算法通常使用图像级目标,例如图像分类、类似于CLIP的图像-文本对齐或自监督对比学习。这些目标没有建模空间信息,当在具有空间推理的下游任务上进行微调时可能不是最优的。在这项工作中,我们使用一种位置感知(LOCA)的自监督方法来预训练网络,该方法促进了强健的密集特征的出现。具体来说,我们使用了一种斑块级别的聚类方案来挖掘密集的伪标签,并使用一个相对位置预测任务来鼓励学习对象部分及其空间排列。我们的实验表明,LOCA预训练使得表示能够竞争性地转移到具有挑战性和多样化的语义分割数据集上。
主要内容概述:
这段话讨论了像素级标签获取的高成本,并强调了预训练在提高语义分割任务模型性能中的重要性。它指出现有预训练方法主要使用图像级目标,这些方法不涉及空间信息,可能不是最佳选择。文中提出了一种名为LOCA的位置感知自监督预训练方法,该方法通过斑块级别聚类和相对位置预测任务来促进密集特征的学习。实验结果显示,LOCA预训练能够有效地转移到多种语义分割数据集上。
Paper23 IDD-AW: A Benchmark for Safe and Robust Segmentation of Drive Scenes in Unstructured Traffic and Adverse Weather
摘要小结:
大规模部署完全自动驾驶车辆需要对非结构化交通和天气条件具有非常高的鲁棒性,并应防止不安全的不良预测。虽然有几个数据集和基准专注于驾驶场景的分割,但它们并未特别关注安全和鲁棒性问题。我们引入了IDD-AW数据集,该数据集提供了5000对高质量图像与像素级注释,这些图像是在非结构化驾驶条件下在雨、雾、低光和雪中捕获的。与其他恶劣天气数据集相比,我们提供了以下内容:i.) 更多注释图像,ii.) 每帧都配对的近红外(NIR)图像,iii.) 更大的标签集,具有4级标签层次结构以捕捉非结构化交通条件。我们在IDD-AW中对语义分割的最先进模型进行了基准测试。我们还为分层数据集提出了一种新的度量标准,称为“安全平均交并比(Safe mIoU)”,它对传统意义上的平均交并比(mIoU)未捕获的危险不良预测进行惩罚。结果显示,IDD-AW是迄今为止这些任务中最具挑战性的数据集之一。数据集和代码将在此处提供:https://iddaw.github.io…
主要内容概述:
这段话介绍了IDD-AW数据集,该数据集专注于自动驾驶中的安全和鲁棒性问题。数据集包含5000对在恶劣天气和非结构化交通条件下捕获的高质量图像及其像素级注释。数据集的特点包括更多注释图像、配对的近红外图像以及更大的标签集。此外,还提出了一种新的度量标准Safe mIoU,用于评估分层数据集。最后,作者指出IDD-AW是这些任务中最具挑战性的数据集之一。
Paper24 Foundation Model Assisted Weakly Supervised Semantic Segmentation
摘要小结:
本工作旨在利用预训练的基础模型,例如对比语言-图像预训练(CLIP)和分割任何模型(SAM),来解决使用图像级标签的弱监督语义分割(WSSS)。为此,我们提出了一种基于CLIP和SAM的从粗到细的框架,用于生成高质量的分割种子。具体来说,我们构建了一个图像分类任务和一个种子分割任务,这两个任务由具有冻结权重的CLIP和两组可学习的特定任务提示共同完成。设计了一个基于SAM的播种(SAMS)模块,并将其应用于每个任务以生成粗糙或精细的种子图。此外,我们设计了一个由图像级标签监督的多标签对比损失和一个由生成的粗糙种子图监督的CAM激活损失。这些损失用于学习提示,提示是我们框架中唯一需要学习的部分。一旦提示被学习,我们将每张图像与学习到的特定于分割的提示一起输入到CLIP和SAMS模块,以产生高质量的分割种子。这些种子作为伪标签,用于训练现成的分割网络,就像其他两阶段WSSS方法一样。
主要内容概述:
这段话介绍了一项研究工作,该工作利用了预训练的模型来处理弱监督语义分割问题。研究提出了一个基于CLIP和SAM的框架,该框架能够生成高质量的分割种子。通过设计特殊的任务和损失函数,研究实现了对提示的学习,这些提示是框架中唯一需要学习的部分。最终,生成的分割种子用于训练分割网络,实验结果显示该方法在PASCAL VOC 2012上达到了最先进性能,并在MS COCO 2014上取得了有竞争力的结果。
Paper25 Image Labels Are All You Need for Coarse Seagrass Segmentation
摘要小结: 海洋草甸是关键的碳汇,但要估算它们储存的碳量需要了解存在的海草种类。配备有机器学习算法的水下和水面车辆可以帮助准确估算海草草甸的组成和范围。然而,之前的海草检测和分类方法需要从斑块级别的标签进行监督。在本文中,我们将海草分类重新定义为一种弱监督的粗分割问题,在训练过程中使用图像级别的标签(比斑块级别标签少25倍),并在推理时获得斑块级别的输出。为此,我们引入了SeaFeats架构,它使用无监督的对比预训练和特征相似性,以及SeaCLIP模型,该模型展示了大型语言模型作为领域特定应用中的监督信号的有效性。我们证明,SeaFeats和SeaCLIP的集合可以带来高度稳健的性能。
以下是主要内容概述:
翻译内容:
海草草甸作为关键的碳汇,但估算它们储存的碳量需要了解当前的海草种类。配备机器学习算法的水下和水面车辆能够大规模准确估计海草草甸的组成和范围。本文中,我们将海草分类视为一个弱监督的粗分割问题,使用图像级别标签进行训练,并在推理时获得斑块级别输出。我们介绍了SeaFeats架构和SeaCLIP模型,结果显示以下:
主要内容:
- 文章将海草分类重新定义,减少了标签需求。
- SeaFeats和SeaCLIP模型被引入,展示了性能。
- 方法在两个数据集上超越了之前的斑块级别标签方法。
- 两个现实世界的案例研究被提出,包括异常检测和自主表面车辆的应用。以下是具体数字:
- 在 ‘DeepSeagrass’ 数据集上,性能提高了6.8%。
- 在 ‘Global Wetlands’ 数据集上,性能提高了12.1%。
Paper26 FAKD: Feature Augmented Knowledge Distillation for Semantic Segmentation
摘要小结: 在这项工作中,我们探讨了在语义分割上进行知识蒸馏的数据增强方法。由于容量差距,小型学生网络难以发现由强大的教师学习到的判别性特征空间。图像级增强通过提供额外的输出来帮助学生更好地模仿教师。然而,现有的蒸馏框架仅增强有限数量的样本,这限制了学生的学习。受到最近关于特征空间语义方向的进展的启发,本研究提出了一种特征级增强知识蒸馏(FAKD),它沿着语义方向无限增强特征以实现最佳知识传递。此外,我们引入了新颖的替代损失函数,以从无限数量的样本中提取教师的知识。替代损失是无限增强样本上的预期蒸馏损失的上界。在四个语义分割基准上的大量实验表明,所提出的方法在不带来任何显著开销的情况下提升了现有知识蒸馏方法的性能。代码将在FAKD上发布。
主要内容概述:
这段话主要介绍了作者们在语义分割领域对知识蒸馏的数据增强方法的研究。他们提出了特征级增强知识蒸馏(FAKD),这种方法能够无限增强特征以优化知识传递。同时,他们还引入了新的替代损失函数,以处理无限样本的蒸馏。实验结果显示,这种方法提升了知识蒸馏的性能,且没有显著开销。
Paper27 MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation
摘要小结: 近年来,基于变压器的模型在全景分割领域占据主导地位,这要归功于它们强大的建模能力和将语义类和实例类统一表示为全局二值掩模的能力。在本文中,我们重新审视了纯卷积模型,并提出了一种名为MaskConver的新型全景架构。MaskConver提出通过预测它们的中心来完全统一事物和材料的表示。为此,它创建了一个轻量级的类别嵌入模块,可以在同一位置存在多个中心时打破它们的关联。此外,我们的研究表明,解码器设计对于确保模型具有准确检测和分割所需的足够上下文至关重要。我们引入了一个强大的ConvNeXt-UNet解码器,它缩小了基于卷积和基于变压器的模型之间的性能差距。使用ResNet50骨干网络,我们的MaskConver在COCO全景验证集上达到了53.6%的PQ,超过了现代基于卷积的模型Panoptic FCN 9.3%,以及基于变压器的模型如Mask2Former(+1.7% PQ)和kMaX-DeepLab(+0.6% PQ)。此外,使用MobileNet骨干网络的MaskConver达到了37.2%的PQ,在相同的FLOPs/延迟约束下,比Panoptic-DeepLab提高了6.4%。MaskConver的进一步优化版本在移动设备上实时运行时,达到了29.7%的PQ。代码和模型权重将公开提供。
主要内容概述:本文介绍了一种新的全景分割架构MaskConver,它采用纯卷积模型,通过预测中心点来统一表示事物和材料。作者还引入了一个强大的解码器ConvNeXt-UNet,以缩小基于卷积和基于变压器的模型之间的性能差距。实验结果显示,MaskConver在COCO数据集上的表现优于现有模型,且具有实时性能。
Paper28 Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation
摘要小结:
医学图像分割在采用变压器模型后取得了显著改进,这些模型擅长把握远距离的上下文和全局情境信息。然而,这些模型的计算需求不断增加,与令牌数量的平方成正比,这限制了其深度和分辨率能力。大多数当前方法逐片处理D体积图像数据(称为伪3D),忽略了关键的切片间信息,从而降低了模型的总体性能。为了应对这些挑战,我们引入了可变形大核注意力(D-LKA注意力)的概念,这是一种简化的注意力机制,利用大卷积核来充分理解体积上下文。该机制在类似于自注意的感受野内操作,同时避免了计算开销。此外,我们提出的注意力机制得益于可变形卷积,可以灵活地扭曲采样网格,使模型能够适当地适应不同的数据模式。我们设计了D-LKA注意力的2D和3D版本,后者在跨深度数据理解方面表现出色。这些组件共同构成了我们新颖的分层视觉变压器架构——D-LKA网。我们模型在与领先方法在流行的医学分割数据集(Synapse、NIH胰腺和皮肤病变)上的评估显示了其卓越的性能。
主要内容概述:
这段话主要讨论了医学图像分割领域的改进,特别是使用了变压器模型。然而,这些模型面临计算需求增加的挑战。为了解决这一问题,作者介绍了D-LKA注意力的概念,这是一种新的注意力机制,能够更好地理解体积上下文。此外,该机制还包括了可变形卷积,提高了模型的适应性。作者还设计了2D和3D版本的D-LKA注意力,并在多个医学分割数据集上展示了模型的优越性能。
Paper29 SCUNet++: Swin-UNet and CNN Bottleneck Hybrid Architecture With Multi-Fusion Dense Skip Connection for Pulmonary Embolism CT Image Segmentation
摘要小结: 肺栓塞(PE)是一种常见的肺部疾病,严重情况下可能导致右心室肥厚和衰竭,其严重性仅次于心肌梗死和猝死。肺动脉CT血管造影(CTPA)是诊断PE的常用方法。然而,由于成像技术的局限性,PE检测在临床实践中存在挑战。CTPA可能会产生类似于PE的噪音,使得确认其存在既耗时又容易过度诊断。然而,传统的PE分割方法无法充分考虑PE CT图像的特征层次结构、局部和全局空间特征。本文提出了一个自动PE分割方法,称为SCUNet++(Swin Conv UNet++)。以下是主要内容概述:
肺栓塞(PE)是一种普遍的肺部疾病,严重情况下会导致右心室肥厚和衰竭,其严重性仅次于心肌梗死和猝死。肺动脉CT血管造影(CTPA)是PE的一种广泛使用的诊断方法。然而,由于成像技术的限制,PE检测在临床实践中具有挑战性。CTPA可能产生类似于PE的噪音,使得确认其存在既耗时又容易过度诊断。尽管如此,传统的PE分割方法无法完全考虑PE CT图像的特征层次结构以及局部和全局空间特征。
概述:
- 文章提出了SCUNet++(Swin Conv UNet++)自动PE分割方法。
-该方法在编码器和解码器之间采用了多个融合密集跳跃连接,并使用Swin Transformer作为编码器。 - 在解码器子网络中融合不同尺度的特征,以补偿Swin-UNet或其他先进方法中不可避免的降采样造成的空间信息损失。
- 文章详细分析了这种方法,并在公开的PE CT图像数据集FUMPE和CAD-PE上进行了验证。
- 实验结果显示,该方法在分割任务上表现出色,可能提高了自动分割PE的准确性。
以下是具体结果:
- 在FUMPE数据集上,提出的 方法达到了83.47%的Dice相似系数(DSC)和3.83的Hausdorff距离95百分位数(HD95)。
- 在CAD-PE数据集上,达到了83.42%的DSC和5.10的HD95。
源代码和新FUMPE数据集的链接已提供。
Paper30 G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D Medical Image Segmentation
摘要小结: 在这篇文章中,我们首次提出了一种新的基于图卷积的解码器,名为级联图卷积注意力解码器(G-CASCADE),用于2D医学图像分割。G-CASCADE通过一个高效的图卷积块逐步细化由层次变压器编码器生成的多阶段特征图。编码器利用自注意力机制捕捉长距离依赖关系,而解码器则通过图卷积块的全球感受野,细化特征图并保留长距离信息。我们在五个医学图像分割任务(即腹部器官、心脏器官、息肉病变、皮肤病变和视网膜血管)上对多个变压器编码器进行了严格的评估,结果显示我们的模型优于其他现有最佳方法。此外,我们还证明我们的解码器在参数减少80.8%和FLOPs减少82.3%的情况下,取得了比SOTA CASCADE解码器更好的DICE分数。我们的解码器可以轻松地与其他层次编码器配合使用,用于通用语义和医学图像分割任务。
以下主要内容概述:
- 提出了一种新的解码器G-CASCADE。
- 用于2D医学图像分割。
- 解码器能够通过图卷积块细化特征图。
- 在多个任务上优于现有最佳方法。
- 解码器在参数和FLOPs减少的情况下表现更好。
- 可与其他编码器配合使用。
Paper31 Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical Volumetric Segmentation
摘要小结: 最新研究显示,基于切片复杂性的动态推理可以显著提高3D医学影像(如CT和MRI)分割的计算效率。作为一项开创性工作,一种用于医学体积分割的动态架构网络(即Med-DANet)通过从预定义的模型库中为不同切片动态选择合适的2D候选模型,实现了良好的准确性和效率平衡。然而,Med-DANet中的数据分析不完整、训练成本高以及两阶段流水线问题需要进一步改进。本文主要以下内容:
翻译如下:
最近的工作表明,通过基于切片复杂度的动态推理,可以显著提高3D医学图像(如CT和MRI)分割的计算效率。作为一个开创性的工作,医学体积分割的动态架构网络(即Med-DANet)通过为不同的切片动态选择一个合适的2D候选模型,实现了良好的准确性和效率权衡。然而,Med-DANet中的不完整数据分析、高训练成本以及两阶段管道问题需要进一步改进。
主要内容概述:
以下是概述:
- 文章讨论了如何改进以下内容:
- 从数据和模型结构的角度进一步探索动态推理框架的统一公式。
- 对于输入体积的每个切片,提出的方法基于决策网络和裁剪位置网络生成的策略动态选择一个重要的前景区域进行分割。
- 提出在所使用的分割模型(如U-Net)中插入一个阶段式量化选择器,用于动态架构适应。
- 实验结果:
- 在BraTS 2019和2020上的大量实验表明,该方法在模型复杂度大大降低的情况下,性能与之前的最先进方法相当或更好。
- 与之前的Med-DANet和TransBTS方法相比,该框架提高了模型效率,最高可达4.1和17.3倍,同时分割结果相当。
- 代码可用性:
- 代码将可在https://github.com/Rubics-Xuan/Med-DANet上找到。
Paper32 A One-Shot Learning Approach To Document Layout Segmentation of Ancient Arabic Manuscripts
摘要小结: 文档布局分割是一项具有挑战性的任务,这是由于文档布局的变异性和复杂性。特别是古代手稿通常因年代久远而损坏,具有非常不规则的布局,其特点是不同作者在长时间范围内进行逐步编辑。所有这些因素使得对特定区域(如正文和边注)进行语义分割的过程变得非常困难。然而,这些手稿的研究对于历史学家和人文主义者来说是至关重要的,以至于近年来,对简化这些文档信息提取的机器学习方法的需求持续增加,使得文档布局分析成为越来越重要的研究领域。但是,为了使机器学习技术有效地应用于这项任务,需要大量正确且精确标记的图像用于训练。这显然是这个研究领域的限制,因为地面真相必须由专家人文主义者精确且手动制作,这使得它成为一个非常耗时的过程。在本文中,为了克服这一限制,我们提出了一种高效的文档布局分割框架,即使在每份手稿上仅训练一个标记页面的情况下,与在所有可用数据上训练的其他流行方法相比,它在具有挑战性的古代阿拉伯手稿数据集上的表现仍达到了最先进水平。
主要内容概述:
这段话讨论了文档布局分割任务的挑战性,特别是针对古代手稿,由于它们的损坏、不规则的布局以及长时间的逐步编辑,使得分割工作变得复杂。尽管如此,这些手稿的研究对历史和人文领域极为重要,导致对机器学习解决方案的需求增加,以简化和提高信息提取的效率。文章指出,为了训练机器学习模型,需要大量精确标记的图像,但这在现实中是一个限制,因为需要专家手工制作标签,非常耗时。最后,文章提出了一个高效的文档布局分割框架,能够在仅使用每份手稿上一个标记页面的情况下,达到与其他方法使用所有数据训练相媲美的性能。
Paper33 CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free
摘要小结: CLIP的出现为开放世界图像感知开辟了道路。模型的零样本分类能力令人印象深刻,但更难以用于像图像分割这样的密集任务。已有几种方法提出了不同的修改和学习方案以产生密集输出。然而,在这项工作中,我们提出了一种名为CLIP-DIY的开词汇语义分割方法,该方法不需要任何额外的训练或注释,而是利用现有的无监督对象定位方法。特别是,CLIP-DIY是一种多尺度方法,直接利用CLIP在不同大小斑块上的分类能力,并将决策聚合在单个地图上。我们还使用无监督对象定位方法获得的前景/背景分数来指导分割。通过我们的方法,我们在PASCAL VOC上获得了最先进的零样本语义分割结果,并在COCO上与最佳方法表现相当。
翻译内容概述:
这段话主要内容是介绍了CLIP-DIY,这是一种新的开词汇语义分割方法。该方法利用现有的无监督对象定位方法,不需要额外训练或注释。CLIP-DIY通过多尺度方法实现,并在PASCAL VOC和COCO上取得了显著的分割结果。
Paper34 ConeQuest: A Benchmark for Cone Segmentation on Mars
摘要小结: 多年来,空间科学家从卫星和火星车收集了数以太字节的火星数据。在火星轨道图像中识别出一组重要的特征,即凹坑圆锥,这些特征被认为是泥火山,形成于曾经被水饱和的区域(例如湖泊或海洋)。在火星上全球范围内识别凹坑圆锥将具有重大意义,但专家地质学家无法筛选大量轨道图像档案以识别所有实例。然而,这项任务非常适合计算机视觉。尽管已有几个用于各种与火星相关任务的计算机视觉数据集,但目前还没有用于圆锥检测/分割的开源数据集。此外,先前的研究使用来自单一区域的数据训练模型,这限制了它们在全球检测和测绘中的适用性。因此,我们引入了ConeQuest,这是第一个用于识别火星上圆锥的专家注释公开数据集。ConeQuest包含来自火星3个不同区域的超过13,000个样本。我们提出了两个使用ConeQuest的基准任务:(i)空间泛化和(ii)圆锥尺寸泛化。我们在两个基准任务上微调并评估了广泛使用的分割模型。结果表明,圆锥分割是一个具有挑战性的开放问题,现有分割模型无法解决,在任务(i)和(ii)的分布内数据上分别获得平均IoU为52.52%和42.55%。我们相信这个新的基准数据集将有助于开发更准确、更鲁棒的圆锥分割模型。数据和代码可在https://github.com/kerner-lab/ConeQuest获取。
主要内容概述:本文介绍了第一个用于识别火星上凹坑圆锥的专家注释公开数据集ConeQuest,包含来自火星3个不同区域的13,000多个样本。研究者提出了两个基准任务,并在现有分割模型上进行评估。结果表明,圆锥分割是一个具有挑战性的问题,目前模型的表现有限。这个新数据集有望推动更准确的圆锥分割模型的发展。
Paper35 High-Fidelity Pseudo-Labels for Boosting Weakly-Supervised Segmentation
摘要小结: 这段话的中文翻译是:图像级别的弱监督语义分割(WSSS)通过在训练过程中使用替代分割掩模来降低通常庞大的数据标注成本。典型的做法是使用全局平均池化(GAP)在卷积特征图上训练图像分类网络。这使得可以根据类激活图(CAMs)估计对象位置,CAMs能够识别图像区域的重要性。然后,利用CAMs生成伪标签,以分割掩模的形式,在缺少像素级真实标签的情况下监督分割模型。我们的工作基于两种改进CAMs的技术;重要性抽样,作为GAP的替代,以及特征相似性损失,它利用了一个启发式的方法,即对象轮廓几乎总是与图像中的颜色边缘对齐。然而,这两者都是基于多项式后验与softmax,并隐含地假设类别是互斥的,这在我们的实验中效果并不理想。因此,我们根据多个独立二进制问题的二项式后验重新构建了这两种技术。这有两个好处;它们的性能得到提升,并且它们变得更加通用,成为一种附加方法,可以提升几乎任何WSSS方法的性能。这在PASCAL VOC数据集上的多种基线上得到了验证,改进了所有实施的最先进方法的地域相似性和轮廓质量。在MS COCO数据集上的实验进一步表明,我们提出的附加组件非常适合大规模设置。我们的代码实现可在https://github.com/arvijj/hfpl获取。
主要内容概述是:本文讨论了图像级别的弱监督语义分割技术,并提出了一种改进现有方法的新技术。该方法通过改进类激活图(CAMs)来降低数据标注成本,具体包括使用重要性抽样和特征相似性损失两种技术。作者对这两种技术进行了重新构建,提高了它们的性能和适用性,并在多个数据集上验证了其有效性。
Paper36 FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image Segmentation
摘要小结: 研究界已经见证了自监督掩膜图像建模(MIM)的强大潜力,它使模型能够从未标记数据中学习视觉表示。在这篇文章中,为了同时融入对密集预测任务至关重要的全局结构信息和局部细节,我们将视角转向频域,并提出了一种新的基于MIM的自监督预训练框架,名为FreMIM,以更好地完成医学图像分割任务。基于观察,即详细的结构信息主要存在于高频成分中,而高级语义在低频成分中丰富,我们进一步融入多阶段监督来指导预训练阶段的表示学习。在三个基准数据集上的大量实验表明,我们的FreMIM优于之前的先进MIM方法。与各种从零开始训练的基线相比,我们的FreMIM可以持续提高模型性能。
主要内容概述:
- 文章讨论了自监督MIM的潜力。
- 提出了一个新的框架FreMIM,用于医学图像分割任务。
- FreMIM转向频域,以结合全局结构和局部细节。
- 使用多阶段监督进行预训练阶段的表示学习。
- 实验结果显示FreMIM优于现有MIM方法,并且代码将公开可用。
Paper37 Continual Atlas-Based Segmentation of Prostate MRI
摘要小结:
持续学习(CL)方法在自然图像分类中设计时,往往无法达到医学图像分割的基本质量标准。在医学成像中,基于图谱的分割是一种成熟的方法,它结合了感兴趣区域的领域知识,从而产生语义上一致的预测。这对于CL特别有前景,因为它允许我们利用结构信息,并在模型刚性与塑性之间随时间达到最佳平衡。当与保护隐私的原型结合使用时,这个过程提供了基于排练的CL的优点,而不会损害患者隐私。我们提出了Atlas Replay,这是一种基于图谱的分割方法,它使用原型通过图像配准生成高质量的分割掩模,即使训练分布发生变化也能保持一致性。我们探讨了与现有的最先进的CL方法相比,我们提出的方法在七个公开可用的前列腺分割数据集上的知识迁移性表现。前列腺分割在诊断前列腺癌中起着至关重要的作用,然而,由于显著的解剖变异、老年人群中的良性结构差异以及获取参数的波动,它带来了挑战。我们的结果显示,与端到端的分割方法不同,Atlas Replay既稳健又能很好地泛化到尚未看到的领域,同时能够保持知识。我们的代码库可在 https://github.com/MECLabTUDA/Atlas-Replay 下找到。
主要内容概述:
这段话主要讨论了持续学习(CL)在医学图像分割领域的应用问题。作者提出了一种名为Atlas Replay的方法,这是一种基于图谱的分割方法,能够生成高质量的分割掩模,并保持知识迁移性。该方法结合了保护隐私的原型,不会损害患者隐私。作者还对比了Atlas Replay与现有先进CL方法的表现,并在前列腺分割数据集上展示了其效果,表明该方法既稳健又能很好地泛化。
Paper38 Framework-Agnostic Semantically-Aware Global Reasoning for Segmentation
摘要小结: 最近的像素级任务(例如分割)的进展说明了基于区域的聚合表示之间的长距离交互可以增强局部特征的好处。然而,这种聚合表示,通常以注意力的形式,未能建模场景的底层语义(例如,单个对象以及它们之间的交互)。在这项工作中,我们通过提出一个组件来解决这个问题,该组件学习将图像特征投射到潜在表示,并使用变压器编码器在它们之间进行推理,以生成情境化和场景一致的表示,这些表示与原始图像特征融合。我们的设计鼓励潜在区域代表语义概念,确保激活区域在空间上是分隔的,并且这些区域的并集对应于一个连接的对象段。提出的语义全局推理(SGR)组件是端到端可训练的,并且可以轻松添加到各种骨干网络(CNN或基于变压器的)和分割头(逐像素或掩膜分类)中,以改善不同数据集上的分割结果。
以下是对主要内容概述:
翻译内容:
最近的进展表明,像素级任务(如分割)中,基于区域的聚合表示之间的长距离交互能增强局部特征。但这些表示常以注意力形式存在,未能建模场景的基本语义。本文提出一个组件,能将图像特征映射到潜在表示,并使用变压器编码器生成情境化表示。设计确保了区域的语义概念,且提出的语义全局推理组件可提高分割结果。
主要内容概述:
- 提出了一种新的组件来增强分割任务中的语义理解。
- 这个组件可以学习潜在表示并进行全局推理。
- 组件是可训练的,可以添加到多种网络中。
- 结果显示,它在不同的数据集上都能改善分割结果。
- 此外,它还提供了可解释且多样的潜在标记,对下游任务有性能提升。
Paper39 AFTer-SAM: Adapting SAM With Axial Fusion Transformer for Medical Imaging Segmentation
摘要小结: 分割任意模型(SAM)在各种分割任务中已证明其有效性。然而,将其应用于3D医疗数据时遇到了挑战,因为其固有的设计是针对2D和自然图像的。尽管已有尝试将SAM逐片应用于医学图像,但结果并不理想。在这项研究中,我们引入了AFTer-SAM,这是一种针对体积医学图像分割的SAM改编版本。通过整合轴向融合变压器,AFTer-SAM能够捕捉到片内细节和片间上下文信息,这对于精确的医学图像分割至关重要。考虑到训练这种增强模型的潜在计算挑战,我们利用低秩适应(LoRA)高效地微调轴向融合变压器的权重。这确保了训练过程的流畅,且不会影响性能。我们的结果表明,AFTer-SAM在体积医学图像分割方面提供了显著的改进,这为大型预训练模型在医学成像中的应用指出了一个有前景的方向。
概述主要内容:
这段话主要介绍了AFTer-SAM模型,这是一种针对3D医疗图像分割改编的SAM模型。AFTer-SAM通过轴向融合变压器来捕捉关键信息,并使用LoRA进行高效训练。研究结果显示,该模型在体积医学图像分割方面取得了显著改进。
Paper40 MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation
摘要小结: 高效的多边形分割在医疗保健中对于结直肠癌的早期诊断起着至关重要的作用。然而,多边形的分割存在许多挑战,包括背景的复杂分布、息肉大小和形状的变异以及边界不清。定义前景(即息肉本身)和背景(周围组织)之间的边界是困难的。为了缓解这些挑战,我们提出了一个专门针对结肠镜图像中息肉分割的多尺度边缘引导注意力网络(MEGANet)。这个网络灵感来自于将经典的边缘检测技术与注意力机制相结合。通过结合这些技术,MEGANet有效地保留了高频信息,尤其是边缘和边界,这些信息随着神经网络的深入往往会消失。以下是翻译内容:
在医疗保健中,高效的多边形分割对于结直肠癌的早期诊断具有至关重要的作用。然而,多边形的分割带来了众多挑战,包括背景的复杂分布、息肉大小和形状的变化以及模糊的边界。确定前景(即息肉本身)与背景(周围组织)之间的界限是困难的。为了减轻这些挑战,我们提出了针对结肠镜图像中息肉分割的多尺度边缘引导注意力网络(MEGANet)。该网络借鉴了经典边缘检测技术与注意力机制的融合。MEGANet有效保留了高频信息,尤其是边缘和边界。以下是主要内容:
概述:
这段话的主要内容是介绍了一种名为MEGANet的新网络,它专门用于结肠镜图像中的息肉分割。它面临分割挑战,并提出了一个解决方案,即结合边缘检测和注意力机制。MEGANet设计为端到端框架,包含三个关键模块,并在五个基准数据集上的实验表明其优于其他现有方法。以下是关键点:
- MEGANet用于早期诊断结直肠癌。
- 分割挑战包括复杂的背景和息肉的变异。
- MEGANet结合了边缘检测和注意力机制。
- 它保留了高频信息。
- MEGANet包含三个关键模块。
- 实验结果显示其性能优于其他方法。
Paper41 TransRadar: Adaptive-Directional Transformer for Real-Time Multi-View Radar Semantic Segmentation
摘要小结:
场景理解在实现自动驾驶和保持高性能与安全标准中扮演着至关重要的角色。为了应对这一任务,摄像头和激光扫描仪(LiDAR)已成为最常用的传感器,而雷达则不太受欢迎。尽管如此,雷达仍然是低成本、信息密集、快速感知的技术,能够抵抗恶劣天气条件。虽然之前已有多项基于雷达的场景语义分割工作,但雷达数据的本质特性仍然是一个挑战,这主要是因为其固有的噪声、稀疏性以及前景与背景之间的不成比例。在这项工作中,我们提出了一种新颖的方法,用于雷达场景的语义分割,该方法通过一种新颖架构和多输入融合的雷达数据以及为解决雷达感知缺点的定制损失函数。我们新颖的架构包括一个高效的注意力块,能够自适应地捕捉重要的特征信息。我们的方法,TransRadar,在CARRADA和RADIal数据集上优于现有最佳方法,同时具有更小的模型尺寸。
主要内容概述:
这段话主要讨论了场景理解在自动驾驶技术中的重要性,指出了雷达作为一种低成本、能在恶劣天气下工作的传感器,尽管不如摄像头和LiDAR受欢迎,但在某些方面具有优势。文中提出了一个新的方法——TransRadar,用于提高基于雷达数据的场景语义分割性能。该方法采用了一种新的架构和融合策略,并特别设计损失函数来应对雷达数据的噪声和稀疏性问题。实验结果显示,TransRadar在两个数据集上均优于当前最佳方法。
Paper42 OVeNet: Offset Vector Network for Semantic Segmentation
摘要小结: 语义分割是视觉场景理解中的基本任务。我们关注的是有监督的设置,其中可以获得真实的语义注释。基于对现实世界场景高规律性的了解,我们提出了一种方法,通过学习选择性地利用相邻像素的信息来改进类别预测。特别是,我们的方法基于这样一个先验:对于每个像素,在其邻近区域中有一个种子像素与前者具有相同的预测。受此先验启发,我们设计了一种新颖的双头网络,名为偏移向量网络(OVeNet),它生成标准的语义预测以及一个密集的2D偏移向量场,指示每个像素到各自种子像素的偏移量,该偏移量用于计算一种替代的、基于种子的语义预测。两种预测通过一个学习到的密集置信度图自适应地在每个像素处融合。我们通过优化基于种子的预测以及一种新颖的置信度图损失来间接监督偏移向量。
以下是对主要内容概述:
语义分割是视觉场景理解中的基本任务。我们专注于监督设定,其中可以获得地面真实语义注释。基于对现实世界场景高规律性的认识,我们提出了一种通过学习选择性地利用相邻像素信息来改进类别预测的方法。具体来说,我们的方法基于每个像素附近都有一个与其共享相同预测的种子像素的先验。基于此,我们设计了一种名为Offset Vector Network (OVeNet)的新颖双头网络,它生成两种预测,并进行了以下内容。
概述:
本文介绍了一种新的方法,通过OVeNet网络改进语义分割,该网络能够利用相邻像素信息来提高预测。该方法包括一个双头网络设计,能够提供显著的性能提升,并在三个主要基准上取得了成绩,包括Cityscapes、ACDC和ADE20K。代码可用。
Paper43 Joint Depth Prediction and Semantic Segmentation With Multi-View SAM
摘要小结: 对于单目图像,联合深度和分割预测的多任务方法已经得到了深入研究。然而,单视图的预测本质上是有限的,而在许多机器人应用中,多个视图是可用的。另一方面,基于视频和全3D方法需要大量帧来进行重建和分割。在本研究中,我们提出了一种多视图立体(MVS)技术,用于深度预测,该技术受益于Segment Anything Model (SAM)的丰富语义特征。这种增强的深度预测反过来又作为我们基于Transformer的语义分割解码器的提示。我们在ScanNet数据集上的定量和定性研究中报告了两个任务相互受益的情况。我们的方法始终优于单任务MVS和分割模型,以及多任务单目方法。
概述主要内容:
这段话介绍了作者提出的一种新的多视图立体技术,该技术利用SAM的语义特征进行深度预测。这种深度预测随后用于提高语义分割的效果。研究显示,这种方法在两个任务上都有相互促进的作用,并且在ScanNet数据集上的表现优于其他方法。
Paper44 Unsupervised Domain Adaptation for Semantic Segmentation With Pseudo Label Self-Refinement
摘要小结: 基于深度学习的语义分割解决方案在测试具有与训练时所用数据不同特性的数据时,会出现显著的性能下降。使用新领域的标注数据来调整模型并不总是实际的。无监督域自适应(UDA)方法在将这些模型部署在实际操作条件中至关重要。最新的最先进(SOTA)UDA方法采用了一种教师-学生自我训练方法,其中教师模型用于生成新数据的伪标签,进而指导学生模型的训练过程。尽管这种方法取得了很大成功,但它存在训练过程中噪声伪标签传播的问题。
主要内容概述:
这段话提到,以下内容是翻译和概述的关键点:
- 我们提出了一种基于以下问题的解决方案:当翻译到中文时,以下是内容:
基于深度学习的语义分割解决方案在测试与训练时所用数据特性不同的数据时,性能会大幅下降。使用新领域的标注数据来调整模型并不总是可行的。无监督域自适应(UDA)方法在将这些模型实际部署中至关重要。最近的SOTA UDA方法采用了一种教师-学生自我训练方法,以下是具体做法。
概述:
- 伪标签问题:伪标签在训练过程中传播的噪声问题。
- 解决方案:提出了一种辅助伪标签精炼网络(PRN),用于在线精炼伪标签,并定位可能存在噪声的预测标签的像素。
- 效果:PRN能够提高伪标签的质量,选择高度可靠的标签,帮助分割模型的自我训练对抗伪标签噪声传播。
以下是测试结果:
我们评估了三种不同域转移的基准数据集上的方法,并且我们的方法一致性地显著优于之前的先进方法。
Paper45 Interactive Network Perturbation Between Teacher and Students for Semi-Supervised Semantic Segmentation
摘要小结: 当前半监督语义分割的金标准是在未标记图像上生成并利用伪监督。然而,这种方法容易受到伪监督质量的影响——训练通常在早期阶段变得不稳定,并且倾向于错误的监督。为了解决这些问题,我们提出了一种新的半监督学习框架,称为指导性伪监督(GPS)。GPS包括三个网络,即一个教师网络和两个独立的学生网络。教师网络首先用少量标记数据训练,并为学生网络在未标记数据上提供稳定的初始伪监督。在教师的监督下,学生网络相互交互训练,一旦他们得到充分训练,他们就会向教师提供反馈监督,使教师在下一次迭代中得以改进。这种策略使得比之前的工作更稳定、收敛更快,因此,GPS在Pascal VOC 2012和Cityscapes数据集上在各种实验设置中均取得了最先进的性能。
概述主要内容:
这段话介绍了半监督语义分割的一种新方法——指导性伪监督(GPS)。该方法通过三个网络(一个教师和两个学生)的互动训练来解决伪监督质量的问题,提高了训练的稳定性和收敛速度,并在两个数据集上取得了先进性能。
Paper46 PointCT: Point Central Transformer Network for Weakly-Supervised Point Cloud Semantic Segmentation
摘要小结: 尽管点云分割在3D理解中具有主要作用,但为这项任务注释完整的大规模场景可能既费时又昂贵。为了解决这个问题,我们提出了点中心变压器(PointCT),这是一种新颖的端到端可训练变压器网络,用于弱监督点云语义分割。与先前的方法不同,我们的方法专门基于3D点通过中心化注意力解决有限点注释的挑战。通过采用两种嵌入过程,我们的注意力机制整合了邻域间的全局特征,从而有效地增强了未标记点的表示。同时,中心点与其不同邻域之间的相互联系是双向一致的。进一步应用位置编码来强化几何特征并提高整体性能。值得注意的是,PointCT在不同标记点设置下均取得了卓越的性能,且无需额外监督。在公共数据集S3DIS、ScanNet-V2和STPLS3D上的广泛实验表明,我们提出的方法优于其他现有先进方法。
概述主要内容:
这段话介绍了点云分割中的一个新方法——点中心变压器(PointCT),这是一种用于弱监督点云语义分割的端到端可训练变压器网络。该方法通过中心化注意力解决有限点注释问题,并且在不需要额外监督的情况下,在各种标记点设置下都表现出色。实验证明,它优于其他先进方法。
Paper47 Designing a Hybrid Neural System To Learn Real-World Crack Segmentation From Fractal-Based Simulation
摘要小结: 识别裂缝对于评估混凝土基础设施的结构完整性至关重要。然而,由于混凝土表面的多样外观、变化的光照和天气条件以及不同缺陷的叠加,稳健的裂缝分割对于计算机视觉系统来说仍然是一项具有挑战性的任务。特别是最近的数据驱动方法在数据的有限可用性、裂缝注释的精细和时间消耗性方面存在困难,并且在泛化到分布外样本时面临后续的困难。在这项工作中,我们以两种方式克服了这些挑战。我们引入了一个基于分形的高保真裂缝图形模拟器以及相应的完全注释的裂缝数据集。然后,我们通过利用逐点互信息估计以及自适应实例归一化作为归纳偏差,用从模拟中学习可泛化表示的系统来补充后者。最后,我们实证强调了不同设计选择如何在桥接模拟与真实差距方面共生,并最终证明我们引入的系统可以有效地处理现实世界的裂缝分割。
概述内容:这段话主要讨论了在混凝土基础设施中识别裂缝的重要性,并指出了计算机视觉系统在裂缝分割方面面临的挑战。作者提出了一种解决方法,包括引入一个基于分形的高保真裂缝图形模拟器和一个完全注释的裂缝数据集。此外,他们还使用了一种系统来学习可泛化的表示。最后,作者展示了他们的系统可以有效处理现实世界的裂缝分割问题。
Paper48 Uncertainty Estimation in Instance Segmentation With Star-Convex Shapes
摘要小结:
实例分割通过基于深度神经网络的算法取得了有希望的进展。然而,这些模型常常会表现出不正确的预测,并带有不合理的置信度。因此,评估预测不确定性对于明智的决策制定至关重要。现有方法主要关注于量化分类或回归任务中的不确定性,缺乏对实例分割的强调。我们的研究解决了估计与具有星凸形状的实例位置相关的空间确定性的挑战。评估了两种不同的聚类方法,它们通过蒙特卡洛退伙或深度集成技术使用的样本来计算每个实例的空间和分数确定性。我们的研究表明,结合空间和分数确定性得分可以获得比单个确定性得分更好的校准估计。值得注意的是,我们的实验结果表明,深度集成技术结合我们新颖的径向聚类方法证明是一种有效的策略。我们的发现强调了评估估计确定性的校准对于模型可靠性和决策制定的重要性。
主要内容概述:
这段话主要讨论了实例分割领域的一个研究,指出当前模型在预测时存在不确定性和不合理的置信度问题。因此,研究强调了评估预测不确定性的重要性。研究聚焦于估计实例位置的空间确定性,并采用了两种聚类方法来计算确定性。结果表明,结合空间和分数确定性得分的方法能够提高校准估计。此外,深度集成技术和新颖的径向聚类方法被证明是有效的策略。最后,研究强调了评估估计确定性的校准对模型可靠性和决策的重要性。
Paper49 Dynamic Token-Pass Transformers for Semantic Segmentation
摘要小结:
视觉变换器(ViT)通常通过从头到尾传递所有标记在自注意力层中提取特征。在本文中,我们介绍了动态标记传递视觉变换器(DoViT),用于语义分割,它可以根据图像的不同复杂度自适应地降低推理成本。DoViT逐渐停止部分简单标记的自注意力计算,并保持困难标记传递,直到满足停止条件。我们使用轻量级辅助头决定标记传递,并将标记分为保持/停止部分。通过标记分离计算,自注意力层在稀疏标记的加速下工作,并且仍然与硬件友好。构建了一个标记重建模块,以收集并将分组标记重置为其序列中的原始位置,这对于预测正确的语义掩码是必要的。我们在两个常见的语义分割任务上进行了大量实验,并证明我们的方法大大减少了约40%-60%的FLOPs,并且mIoU的下降在0.8%以内,针对各种分割变换器。
主要内容概述:
本文介绍了一种新的视觉变换器(DoViT),用于语义分割任务。DoViT能够根据图像的复杂性动态减少推理成本。它通过逐渐停止一些简单标记的自注意力计算来实现这一点,同时保持更复杂的标记。文章中还使用了轻量级辅助头来决定哪些标记应该停止。此外,通过标记重建模块确保了正确的语义掩码预测。实验结果显示,该方法能显著减少计算量,同时略微影响性能,并在某些情况下显著提高了推理速度。
Paper50 MIST: Medical Image Segmentation Transformer With Convolutional Attention Mixing (CAM) Decoder
摘要小结:
用于医学图像分割的一种常见且有前景的深度学习方法就是变压器(transformers),因为它们可以通过使用自注意力来捕捉像素之间的长距离依赖关系。尽管在医学图像分割中取得了成功,但变压器在捕捉多模态维度中像素的局部上下文方面存在局限性。我们提出了一种医学图像分割变压器(MIST),它融入了一种新颖的卷积注意力混合(CAM)解码器来解决这一问题。MIST有两个部分——使用预训练的多轴视觉变压器(MaxViT)作为编码器,将编码后的特征表示通过CAM解码器进行图像分割。在CAM解码器中,引入了一种注意力混合器,它结合了多头自注意力、空间注意力和压缩和激励注意力模块,以捕捉所有空间维度中的长距离依赖关系。此外,为了增强空间信息增益,分别使用深卷积和浅卷积进行特征提取和感受野扩展。通过跳接连接,可以整合来自不同网络阶段的低级和高级特征,使MIST能够抑制不必要的信息。实验表明,我们的MIST变压器与CAM解码器在ACDC和Synapse数据集上优于专门为医学图像分割设计的最新模型。我们的结果还表明,添加带有分层变压器的CAM解码器可以显著提高分割性能。我们的模型、数据和代码已在GitHub上公开。
主要内容概述:
这段话介绍了一种新的医学图像分割方法MIST,它使用了一种名为CAM解码器的新型结构来解决传统变压器在医学图像分割中的局限性。MIST利用预训练的多轴视觉变压器作为编码器,并通过CAM解码器进行图像分割。CAM解码器通过结合多种注意力机制来捕捉长距离依赖关系,并通过其他方法增强空间信息。实验证明,MIST在两个数据集上优于现有模型,并显著提高了分割性能。模型和相关资源已公开。
Paper51 Random Walks for Temporal Action Segmentation With Timestamp Supervision
摘要小结:
时间行为分割与高级视频理解相关,通常被表述为将未经修剪的视频按帧分类为预定义的行为。完全监督的深度学习方法需要密集的视频注释,这既耗时又耗资。此外,连续行为之间的时间边界通常没有明确定义,导致固有的模糊性和评分者之间的不一致。一种有前景的方法来弥补这些限制是时间戳监督,它只要求训练视频中的每个行为实例有一个标记帧。在这项工作中,我们将时间分割任务重新表述为具有弱标记顶点的图分割问题。我们引入了一种基于图上随机行走的有效分割方法,通过解决一个稀疏线性方程组获得。此外,所提出的技术可以以下列任何一种或多种形式使用:(1)作为独立解决方案,用于从时间戳生成密集的伪标签;(2)作为训练损失;(3)作为给定中间预测的平滑机制。通过对三个数据集(50Salads, Breakfast, GTEA)的广泛实验,表明我们的方法与现有技术水平相当,并允许识别行为边界周围的不确定性区域。
主要内容概述:
这段话主要讨论了时间行为分割的问题,指出了完全监督深度学习方法的局限性,并提出了使用时间戳监督的方法来改进。该方法将时间分割任务转化为图分割问题,并引入了一种基于图上随机行走的有效分割方法。此外,该方法可以在多种形式中使用,实验证明其效果与现有技术水平相当,并能识别行为边界周围的不确定性区域。
Paper52 Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation
摘要小结:
本研究介绍了一种有效的方法,即遮蔽协同对比(MCC),用以在弱监督语义分割中突出语义区域。MCC巧妙地从遮蔽图像建模和对比学习中汲取灵感,设计了一个新颖的框架,诱导关键点向语义区域收缩。与直接在输入图像中消除补丁区域的常见技术不同,我们通过探索考虑关键点在亲和矩阵上的遮蔽来仔细研究补丁标记的邻域关系。此外,我们通过利用遮蔽的局部输出并与全局输出进行对比,生成对比学习中的正样本和负样本。在常用数据集上的详细实验证明了所提出的MCC机制有效地对齐了图像内的全局和局部视角,取得了令人印象深刻的性能。源代码可在https://github.com/fwu11/MCC获取。
主要内容概述:
这段话主要介绍了一种名为遮蔽协同对比(MCC)的新方法,用于弱监督语义分割任务。该方法结合了遮蔽图像建模和对比学习的思想,通过一个新的框架来突出语义区域。它不是直接消除输入图像中的补丁区域,而是研究补丁标记的邻域关系。此外,它通过对比遮蔽的局部输出和全局输出来进行对比学习。实验证明,这种方法在常用数据集上取得了良好的性能。
Paper53 Annotation-Free Audio-Visual Segmentation
摘要小结: 音频-视觉分割(AVS)的目标是在视觉场景中定位发声对象,通过准确预测像素级的分割掩模。为了完成这项任务,需要全面考虑数据和模型两个方面。本文中,首先,我们提出了一个无需额外手动标注就能生成人工数据的新流程,用于AVS任务。我们利用现有的图像分割和音频数据集,通过分割数据集中的类别标签将图像掩模对与其相应的音频样本进行匹配,从而轻松地组成(图像,音频,掩模)三元组来训练AVS模型。该流程无需标注且可扩展,可覆盖大量类别。此外,我们引入了一个轻量级模型SAMA-AVS,它将预训练的分割任何模型(SAM)适配到AVS任务。通过引入少量的可训练参数,提出的模型可以在编码阶段有效实现足够的音频-视觉融合和交互,且大部分参数是固定的。
以下主要内容概述:
目标是将音频-视觉分割(AVS)中的发声对象在视觉场景中进行定位,通过精确预测像素级的分割掩模。为了应对这一任务,它涉及到对数据和模型方面的全面考虑。在本文中,首先,我们提出了一个新颖的流程,用于生成AVS任务的人工数据,而无需额外的手动标注。我们使用现有的图像分割和音频数据集,并通过分割数据集中的类别标签匹配图像掩模对及其相应的音频样本,使我们能够轻松地组成训练AVS模型的(图像,音频,掩模)三元组。该流程无需标注且可扩展。
概述:
- 文章介绍了一个新的流程,用于生成AVS任务的人工数据。
- 这个流程无需额外标注,且可以扩展到多个类别。
- 提出了一个轻量级模型SAMA-AVS,适用于AVS任务。
- 模型通过实验证明,显著优于其他竞争方法。
- 使用合成数据预训练的模型在真实数据上取得了进一步的性能提升。
以下是翻译的具体内容:
翻译段落:
音频-视觉分割(AVS)的目标是在视觉场景中定位发声对象,通过准确预测像素级的分割掩模。为了解决这个问题,它涉及到对数据和模型方面的全面考虑。在本文中,首先,我们提出了一个新颖的流程,用于在不需要额外手动标注的情况下生成AVS任务的人工数据。我们利用现有的图像分割和音频数据集,并通过分割数据集中的类别标签将图像掩模对与其相应的音频样本进行匹配,使我们能够轻松地组成(图像,音频,掩模)三元组来训练AVS模型。该流程无需标注且可扩展。
Paper54 MetaSeg: MetaFormer-Based Global Contexts-Aware Network for Efficient Semantic Segmentation
摘要小结: 除了Transformer之外,探索如何利用MetaFormer的能力非常重要,这是一种对Transformer性能提升至关重要的架构。以前的研究仅将其用于骨干网络。与之前的研究不同,我们更广泛地探索了Metaformer架构在语义分割任务中的能力。我们提出了一种强大的语义分割网络MetaSeg,它从骨干到解码器都利用了Metaformer架构。我们的MetaSeg显示,MetaFormer架构在捕捉对解码器和骨干都有用的情况中发挥着重要作用。此外,最近的分割方法表明,使用基于CNN的骨干提取空间信息和使用解码器提取全局信息,比使用基于变换器的骨干和基于CNN的解码器更有效。这促使我们采用基于MetaFormer块的CNN骨干,并设计我们的基于MetaFormer的解码器,其中包含一个新颖的自注意力模块来捕捉全局上下文。
以下是主要内容概述:
翻译内容:
超越Transformer,探索如何利用MetaFormer架构的能力至关重要,这对于Transformer的性能提升是基础的。以往的研究仅在骨干网络中利用了它。与以往的研究不同,我们在语义分割任务中更广泛地探索了Metaformer架构的能力。我们提出了MetaSeg,一个强大的语义分割网络,它从骨干到解码器都使用了Metaformer架构。以下是关键内容:
- MetaSeg证明了MetaFormer架构在捕获对解码器和骨干都有用的上下文中发挥重要作用。
- 采用基于CNN的骨干和设计基于MetaFormer的解码器。
- 提出了Channel Reduction Attention (CRA)模块,以考虑全局上下文提取和自注意的计算效率。
以下是重点:
- MetaSeg在计算成本上优于先前的最先进方法。
- 它在流行的语义分割和医学图像分割基准上表现良好,包括ADE20K、Cityscapes、COCO-stuff和Synapse。
Paper55 CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric Medical Image Segmentation
摘要小结: 这段话的中文翻译是:
大部分体积医学数据,尤其是磁共振成像(MRI)数据,都是各向异性的,因为切面分辨率通常远低于平面分辨率。无论是基于3D还是纯粹2D的深度学习分割方法,在处理这类体积数据时都存在不足,因为当面对各向异性数据时,3D方法的性能会受到影响,而2D方法则忽视了重要的体积信息。对于2.5D方法,相关工作做得不够,这种方法主要是用2D卷积与体积信息配合使用。这些模型专注于学习各切片之间的关系,但通常需要训练许多参数。我们提供了一个具有最少可训练参数的跨切片注意力模块(CSAM),它通过在多个尺度的深度特征图上应用语义、位置和切片注意力,捕捉体积中所有切片的信息。我们使用不同的网络架构和任务进行的广泛实验,证明了CSAM的有用性和通用性。相关代码可在https://github.com/aL3x-O-o-Hung/CSAM获取。
主要内容概述:
这段话讨论了医学数据中的各向异性问题,特别是MRI数据。它指出了3D和2D深度学习方法在处理这类数据时的局限性。随后,提到了2.5D方法在这方面的工作不足,并介绍了作者提出的解决方案——跨切片注意力模块(CSAM),它能有效捕捉体积数据中的切片间信息,同时需要的可训练参数较少。通过在不同网络架构和任务中的广泛实验,证明了CSAM的有效性和普遍适用性,并提供了代码的获取途径。
Paper56 UOW-Vessel: A Benchmark Dataset of High-Resolution Optical Satellite Images for Vessel Detection and Segmentation
摘要小结: 在这篇文章中,我们介绍了UOW-Vessel,这是一个用于舰船检测和分割的高分辨率光学卫星图像基准数据集。我们的数据集包含3500张图像,这些图像来自4大洲的14个国家。UOW-Vessel包含10个舰船类别的35,598个实例,是目前为止用于舰船识别的最大卫星图像数据集。此外,与现有仅提供边界框真值的公开数据集相比,我们新的数据集提供了更精确的舰船对象多边形注释。这个数据集预计将支持基于实例分割的方法,这是舰船监控中较少研究的领域。我们还报告了在新的基准数据集上对近期实例分割算法的广泛评估。
概述主要内容:
这篇文章介绍了UOW-Vessel数据集,这是一个新的高分辨率卫星图像基准数据集,用于舰船检测和分割。数据集规模庞大,包含多个国家和地区的图像。此外,数据集提供了更精确的注释,旨在支持实例分割方法。文章还对该数据集上的实例分割算法进行了评估。
Paper57 HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities
摘要小结: 事件相机通过检测每个像素点强度的变化来生成异步的“事件流”。与传统的相机相比,由于它们具有更高的时间分辨率和宽动态范围(HDR),因此在实时自主系统中准确获取语义地图具有巨大潜力。然而,现有基于事件分割的实现由于这些时间密集的事件仅测量视觉信号的变量部分,与帧相比,编码密集空间上下文的能力有限,因此存在次优性能的问题。为了解决这一问题,我们提出了一种混合端到端学习框架HALSIE,该框架利用三个关键概念,在保持类似性能的同时,将推理成本降低多达20倍:首先,一种简单有效的跨领域学习方案,从帧和事件中提取互补的时空嵌入;其次,一种特殊设计的双编码器方案,带有Spiking Neural Network(SNN)和Artificial Neural Network(ANN)分支,以最小化延迟,同时保持跨领域特征聚合;第三,一种多尺度线索混合器,用于建模融合嵌入的丰富表示。HALSIE的这些特性使其成为非常轻量级的架构,在DDD-17、MVSEC和DSEC-Semantic数据集上实现了最先进的分割性能,参数效率提高了33倍,推理成本有利(每周期17.9mJ)。我们的消融研究也为有效的设计选择提供了新的见解,这可能会对其他视觉任务的研究有所帮助。
主要内容概述:
本文介绍了一种名为HALSIE的混合端到端学习框架,旨在提高基于事件相机的图像分割性能。该框架通过三个关键概念降低推理成本并保持性能:跨领域学习方案、双编码器方案以及多尺度线索混合器。HALSIE在多个数据集上取得了最先进的分割性能,并显著提高了参数效率与降低了推理成本。此外,研究还提供了对有效设计选择的见解,对其他视觉任务的研究具有参考价值。
Paper58 SAM Fewshot Finetuning for Anatomical Segmentation in Medical Images
摘要小结: 我们提出了一种简单而高效的少样本微调策略,用于将Segment Anything (SAM) 应用于医学图像中的解剖分割任务。我们的新方法主要是重新构建SAM中的掩膜解码器,利用从有限的一组标记图像(少样本集)获得的少样本嵌入作为提示,查询图像嵌入中捕获的解剖对象。这种创新性的重新公式化大大减少了在线用户交互的时间消耗,例如无需逐片标记点和边界框来提供提示。使用我们的方法,用户可以离线手动分割少数2D切片,这些注释图像区域的嵌入作为在线分割任务的有效提示。我们的方法通过仅训练掩膜解码器并使用缓存机制,同时保持图像编码器不变,优先考虑微调过程的效率。重要的是,这种方法不仅限于体积医学图像,可以普遍应用于任何2D/3D分割任务。
以下概述主要内容:
翻译内容:
我们提出了一种简单但非常有效的少样本微调策略,用于将SAM适应于医学图像的解剖分割任务。
主要内容概述:
- 提出了一种新的微调策略。
- 重新构建了SAM中的掩膜解码器。
- 使用少样本嵌入来提高效率。
- 减少了在线用户交互的需求。
- 方法效率高,可以应用于多种分割任务。
- 通过四个数据集的广泛验证,显示了方法的有效性。
- 与SAM和其他方法相比,性能显著提升,且减少了标签数据的需求。
Paper59 Self-Sampling Meta SAM: Enhancing Few-Shot Medical Image Segmentation With Meta-Learning
摘要小结: 尽管Segment Anything Model(SAM)在通用图像的语义分割方面表现出色,但当应用于医学图像时,其性能会显著下降,这主要归因于其训练数据集中医学图像的代表性不足。然而,由于医学图像中常见的长尾问题,收集全面的 数据集并训练普遍适用的模型特别具有挑战性。为了解决这一差距,我们提出了一个用于少样本医学图像分割的自采样元SAM(SSM-SAM)框架。我们的创新之处在于设计了三个关键模块:1)一个在线快速梯度下降优化器,进一步由一个元学习器优化,确保快速、稳健地适应新任务;2)一个自采样模块,旨在提供对齐良好的视觉提示,以改善注意力分配;3)一个专为医学少样本学习设计的稳健注意力解码器,用于捕捉不同切片之间的关系。在一个人气很高的腹部CT数据集和一个MRI数据集上进行的大量实验表明,我们提出的方法在少样本分割方面显著优于现有最佳方法,DSC平均提高了10.21%和1.80%。总之,我们提出了一种新颖的方法,可以在交互式图像分割中进行快速在线适应,仅用0.83分钟就能适应新的器官。代码可在https://github.com/DragonDescentZerotsu/SSM-SAM获取。
主要内容概述:本文介绍了一种名为自采样元SAM(SSM-SAM)的框架,用于解决少样本医学图像分割问题。该框架设计了三个关键模块来提高对医学图像的分割性能。实验证明,该方法在少样本分割任务上优于现有最佳方法,且能快速适应新的器官。
Paper60 SynergyNet: Bridging the Gap Between Discrete and Continuous Representations for Precise Medical Image Segmentation
摘要小结: 近年来,为了提高性能,已提出连续潜在空间(CLS)和离散潜在空间(DLS)深度学习模型用于医学图像分析。然而,这些模型面临不同的挑战。CLS模型能够捕捉复杂的细节,但往往在结构表示的可解释性和稳健性方面存在不足,这是由于它们对低级特征的强调。相反,DLS模型提供了可解释性、稳健性以及捕捉粗粒度信息的能力,这要归功于它们结构化的潜在空间。但是,DLS模型在捕捉细粒度细节方面效果有限。为了解决DLS和CLS模型的局限性,我们提出了SynergyNet,这是一种新颖的瓶颈架构,旨在增强现有的编码器-解码器分割框架。SynergyNet无缝整合离散和连续表示,以利用互补信息,并成功保留了学习表示中的细粒度和粗粒度细节。我们在多器官分割和心脏数据集上的大量实验表明,SynergyNet优于其他最先进的方法,包括TransUNet:骰子分数提高了2.16%,Hausdorff分数提高了11.13%。在评估皮肤病变和脑肿瘤分割数据集时,我们发现皮肤病变分割的交并比分数提高了1.71%,脑肿瘤分割提高了8.58%。我们创新的方法为提高深度学习模型在医学图像分析这一关键领域的整体性能和能力铺平了道路。
主要内容概述:本文介绍了一种新型的深度学习模型SynergyNet,用于医学图像分析。SynergyNet旨在结合连续潜在空间(CLS)模型和离散潜在空间(DLS)模型的优点,提高医学图像分割的性能。实验结果显示,SynergyNet在多个医学图像分割任务上优于其他最先进的方法。
Paper61 CPSeg: Finer-Grained Image Semantic Segmentation via Chain-of-Thought Language Prompting
摘要小结:
自然场景分析和遥感图像为大规模语言引导的上下文感知数据利用的进展提供了巨大的潜力。这种潜力尤其在提高下游任务(如通过设计语言提示的对象检测和分割)的性能方面具有重要意义。鉴于此,我们介绍了CPSeg(用于更细粒度语义分割的链式思维语言提示),这是一种创新框架,旨在通过整合一种新颖的“链式思维”过程来增强图像分割性能,这一过程利用与图像相关的文本信息。这一开创性方法已经应用于洪水灾害场景。CPSeg编码从不同句子中获得的提示文本,以构建一个连贯的链式思维。我们使用了一个新的视觉-语言数据集FloodPrompt,其中包含图像、语义掩模和相应的文本信息。这不仅加强了对场景的语义理解,而且通过像素和文本匹配图的相互作用,有助于关键的语义分割任务。我们的定性和定量分析验证了CPSeg的有效性。
主要内容概述:
这段话介绍了一种名为CPSeg的创新框架,该框架通过整合一种新颖的“链式思维”过程来增强图像分割性能。这种方法利用与图像相关的文本信息,特别是在洪水灾害场景中进行了应用。CPSeg使用了一个新的数据集FloodPrompt,包含图像、语义掩模和文本信息,以加强场景的语义理解并帮助语义分割任务。定性和定量分析均验证了CPSeg的有效性。
Paper62 Learning To Generate Training Datasets for Robust Semantic Segmentation
摘要小结: 语义分割方法已经取得了显著的进展。然而,它们对现实世界干扰的鲁棒性以及对训练期间未见过的事物类型的处理仍然是一个挑战,特别是在安全关键的应用中。我们提出了一种新颖的方法,通过利用标签到图像生成器与图像到标签分割模型之间的协同作用来提高语义分割技术的鲁棒性。具体来说,我们设计了Robusta,这是一种新型的鲁棒条件生成对抗网络,用于生成真实且合理的干扰图像,这些图像可用于训练可靠的分割模型。我们对提出的生成模型进行了深入研究,评估了下游分割网络的性能和鲁棒性,并证明了我们的方法可以显著提高面对现实世界干扰、分布偏移和分布外样本的鲁棒性。我们的结果表明,这种方法在安全关键应用中可能非常有价值,在这些应用中,语义分割等感知模块的可靠性至关重要,并且在推理中伴随着有限的计算预算。
主要内容概述:
这段话讨论了语义分割方法的进展和挑战,特别是它们的鲁棒性问题。作者提出了一种新的方法,通过一种名为Robusta的生成对抗网络来提高鲁棒性。该方法能够生成用于训练的干扰图像,从而提高分割模型的效果。研究显示,这种方法可以显著增强鲁棒性,对于安全关键应用可能非常有用。此外,代码已经发布。
Paper63 Prompting Classes: Exploring the Power of Prompt Class Learning in Weakly Supervised Semantic Segmentation
摘要小结: 最近,基于CLIP的方法在泛化和少样本学习任务上表现出色,这得益于对比语言-视觉预训练的强大能力。特别是,提示调整作为一种有效策略出现,通过使用与任务相关的文本标记来适应预训练的语言-视觉模型以进行下游任务。受此进展的启发,在这项工作中,我们质疑其他基本问题,如弱监督语义分割(WSSS)是否可以从提示调整中受益。我们的研究揭示了两个有趣的观察,这些观察揭示了提示调整对WSSS的影响。首先,仅修改文本提示的类标记对类激活图(CAM)的影响要大于优化上下文的更复杂策略。其次,与图像地面真相相关联的类标记不一定对应于产生最佳CAM的类别。基于这些观察,我们引入了一种基于PrOmpt cLass lEarning(POLE)策略的新方法。通过大量实验,我们证明了我们简单但有效的方法在知名的WSSS基准测试中达到了SOTA性能。
以下是主要内容概述:
- 翻译内容讨论了基于CLIP的方法在泛化和少样本学习任务上的表现。
- 提示调整被视为一种有效策略,用于WSSS等问题。
- 研究发现提示调整对WSSS有显著影响,包括类标记的修改对CAM的影响。
- 提出了一种新的方法POLE,并在WSSS基准测试中展示了SOTA性能。
最近,基于CLIP的方法在泛化和少样本学习任务上表现出色,这得益于对比语言-视觉预训练的强大能力。特别是,提示调整已成为一种有效策略,通过使用与任务相关的文本标记来适应预训练的语言-视觉模型以进行下游任务。受此进展的启发,在这项工作中,我们质疑是否其他基本问题,如弱监督语义分割(WSSS),可以从提示调整中受益。我们的发现揭示了两个有趣的观察,这些观察为提示调整对WSSS的影响提供了启示。首先,仅修改文本提示的类标记对类激活图(CAM)的影响要大于优化上下文的更复杂策略。其次,与图像地面真相相关联的类标记并不一定对应于产生最佳CAM的类别。基于这些观察,我们引入了一种基于POLE策略的新方法。通过大量实验,我们证明了我们简单但有效的方法在知名的WSSS基准测试中达到了最先进性能。这些结果不仅突显了语言-视觉模型在WSSS中的优势,也展示了提示学习对此问题的潜力。代码可在以下地址获取:https://anonymous.4open.science/r/WSS_POLE-DB45/README.md。
Paper64 From Denoising Training To Test-Time Adaptation: Enhancing Domain Generalization for Medical Image Segmentation
摘要小结: 在医学图像分割中,领域泛化是一个重大挑战,这是由于数据采集设备的变体和其他因素导致的领域偏移。这些偏移在最常见的情景中尤其明显,即由于隐私问题,通常只有单一来源领域的数据。为了解决这一问题,我们从自我监督学习范式中获得灵感,该范式有效地阻止了对源领域的过度拟合。我们提出了去噪Y-Net(DeY-Net),这是一种新颖的方法,它将辅助去噪解码器整合到基本的U-Net架构中。辅助解码器旨在进行去噪训练,增强领域不变性表示,从而促进领域泛化。此外,这种范式具有利用未标记数据的潜力。在去噪训练的基础上,我们提出了去噪测试时间自适应(DeTTA),该技术进一步:(i)以样本方式适应目标领域,(ii)适应噪声干扰的输入。在广泛采用的肝脏分割基准上进行的大量实验表明,与我们的基线和现有技术结果相比,领域泛化有了显著改进。代码可在 https://github.com/WenRuxue/DeTTA 获得。
概述主要内容:
这段话主要讨论了医学图像分割中的领域泛化问题,提出了一种名为DeY-Net的新方法,通过整合辅助去噪解码器来提高领域泛化。此外,还提出了DeTTA技术,用于进一步适应目标领域和噪声干扰的输入。实验结果显示了该方法在领域泛化方面的显著改进。
Paper65 Unsupervised Co-Generation of Foreground-Background Segmentation From Text-to-Image Synthesis
摘要小结: 文本到图像(T2I)合成是一项具有挑战性的任务,需要同时建模文本和图像领域及其之间的关系。近期研究在图像质量上的显著提升为众多应用铺平了道路,如辅助语言图像编辑、计算机辅助设计、基于文本的图像检索以及训练数据增强等。在这项工作中,我们提出了一个简单的问题:在生成逼真图像的同时,我们能否以无监督的方式获得有用的副产品(例如,前景/背景或多类分割掩模、检测标签),这些副产品也将有益于其他计算机视觉任务和应用?为了回答这个问题,我们尝试从给定的文本中生成逼真图像及其对应的前景/背景分割掩模。为实现这一目标,我们尝试将共分割概念与生成对抗网络(GAN)相结合。具体来说,我们提出了一个名为共分割启发生成对抗网络(COS-GAN)的新型GAN架构,它可以从不同的噪声向量同时生成两个或更多图像,并利用图像特征之间的空间共注意力机制为每个生成的图像产生逼真的分割掩模。这种架构的优势有两方面:1)生成的分割掩模可以用来专门关注前景和背景,从而提高生成图像的质量;2)分割掩模可以作为其他任务(如对象定位和分割)的训练目标。在CUB、Oxford-102和COCO数据集上进行的广泛实验表明,COS-GAN能够提高视觉质量,并为生成的图像产生可靠的前景/背景掩模。
主要内容概述:这段话介绍了文本到图像(T2I)合成任务,并提出了一种新型的生成对抗网络(COS-GAN)架构。COS-GAN能够同时生成逼真图像及其前景/背景分割掩模,以无监督的方式产生有用的副产品,有助于提高图像质量和为其他计算机视觉任务提供训练目标。实验证明,COS-GAN在多个数据集上均取得了良好的效果。
Paper66 MarsLS-Net: Martian Landslides Segmentation Network and Benchmark Dataset
摘要小结: 火星滑坡分割是一项比地球上相同任务更具挑战性的任务。其中一个原因是地球上滑坡区域的植被通常消失或显著少于周围地区。相比之下,火星是一个沙漠行星,没有植被可以帮助滑坡检测和分割。最近的工作表明,基于视觉变换器(ViT)的深度学习模型在各种计算机视觉任务中表现出色。受到ViT中的多头注意力机制的启发,该机制可以建模输入图像中局部区域之间的全局长距离空间相关性,我们假设自注意力机制可以有效捕捉与火星滑坡分割任务相关的上下文信息。此外,考虑到参数效率或模型大小是深度学习算法的另一个重要因素,我们构建了一个新的特征表示块,即逐步扩展神经元注意力(PEN-Attention),以使用显著更少的可训练参数提取更多相关特征。总的来说,我们将我们的深度学习架构称为火星滑坡分割网络(MarsLS-Net)。以下是主要内容概述:
翻译内容:
火星滑坡分割与地球上的同类任务相比更具挑战性。原因是地球滑坡区域的植被通常较少或显著低于周边。火星是一个沙漠行星,没有植被帮助检测和分割。ViT的深度学习模型在视觉任务中表现良好。我们假设自注意力机制对火星滑坡分割任务有帮助。我们还构建了PEN-Attention以提取特征。我们称之为MarsLS-Net。此外,我们首次引入了一个新的多模态火星滑坡分割数据集。
主要内容概述:
这段话讨论了火星滑坡分割的挑战,并提出了一个新的深度学习架构(MarsLS-Net)以及一个新的数据集,旨在通过自注意力机制和PEN-Attention来提高分割效果。
Paper67 PatchRefineNet: Improving Binary Segmentation by Incorporating Signals From Optimal Patch-Wise Binarization
摘要小结: 二值分割模型的目的在于确定哪些像素属于感兴趣的对象(例如,图像中哪些像素属于道路)。模型为每个像素分配一个logit分数(即概率),并通过阈值处理将这些分数转换为预测(即,每个logit分数>=t的像素都被预测为道路的一部分)。然而,在当前和之前的 state-of-the-art 分割模型中,存在一种常见现象,即空间偏差——在某些图块中,logit分数持续偏高,而在其他图块中则持续偏低。这些偏差导致最终预测中出现假阳性和假阴性。本文提出了PatchRefineNet(PRN),这是一个小型网络,位于基础分割模型之上,并学习纠正其特定的图块偏差。
以下是翻译和主要内容概述:
二值分割模型的目标是确定哪些像素属于感兴趣的对象(例如,图像中哪些像素是道路的一部分)。模型给每个像素分配一个logit分数(即概率),通过阈值化(即,每个logit分数>=t的像素都被预测为道路的一部分)转换为预测。然而,在现有和之前的顶尖分割模型中,一个常见的现象是空间偏差——在某些图块中,logit分数持续向上偏差,而在其他图块中则持续向下偏差。这些偏差导致最终预测中的假阳性和假阴性。在本文中,我们提出了PatchRefineNet(PRN),这是一个位于基础分割模型之上,用于纠正特定图块偏差的小型网络。
主要内容概述:
- 文章讨论了二值分割模型的目的。
- 提出了空间偏差问题,这是当前模型面临的一个挑战。
- 介绍了PatchRefineNet(PRN),用于改进基础分割模型。
- PRN能够在多种基础模型上,一致性地提高mIoU 2-3%。
- PRN背后的关键想法是训练期间添加了一种新的监督信号。
- 文章还展示了PRN如何扩展到其他领域,如显著性检测和少量分割。
- 提供了源代码的链接。
文章重点在于介绍PRN如何帮助改进分割模型的准确性和减少偏差。