【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(12 月 1 日论文合集)(上)

一、分割|语义相关(17篇)

1.1 Exploiting Diffusion Prior for Generalizable Pixel-Level Semantic Prediction

基于扩散先验的广义像素级语义预测

https://arxiv.org/abs/2311.18832

由于不可缓解的领域差距,最近先进的文本到图像(T2I)扩散模型生成的内容有时过于富有想象力,以至于现有现成的属性语义预测器无法估计。 我们引入了 DMP,这是一种利用预训练 T2I 模型作为像素级语义预测任务先验的管道。 为了解决确定性预测任务和随机 T2I 模型之间的不一致问题,我们通过一系列插值重新制定扩散过程,在输入 RGB 图像和输出预测分布之间建立确定性映射。 为了保持通用性,我们使用低秩适应来微调预训练模型。 涵盖 3D 属性估计、语义分割和本征图像分解等五项任务的广泛实验展示了该方法的有效性。 尽管训练数据域有限,但该方法仍能对任意图像进行忠实的估计,超越了现有的最先进算法。

1.2 Semi-supervised Semantic Segmentation via Boosting Uncertainty on Unlabeled Data

基于提高未标注数据不确定性的半监督语义分割

https://arxiv.org/abs/2311.18758

我们通过对训练数据集中的标记和未标记分布进行分析,为半监督语义分割带来了新的视角。 我们首先发现标记数据集和未标记数据集之间的分布差距不能被忽略,即使这两个数据集是从相同的分布中采样的。 为了解决这个问题,我们从理论上分析并通过实验证明,适当提高未标记数据的不确定性有助于最小化分布差距,这有利于模型的泛化。 我们提出了两种策略并设计了一种不确定性增强算法,专门用于半监督语义分割。 基于这些理论进行了大量的实验,结果证实了算法和策略的有效性。 我们的即插即用不确定性增强器体积小、高效且对超参数具有鲁棒性,但可以显着提高性能。 与当前流行基准上的半监督语义分割方法相比,我们的方法在我们的实验中实现了最先进的性能:具有不同列车设置的 Cityscapes 和 PASCAL VOC 2012。

1.3 Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction

Seg2Reg:用于360房间布局重建的可微2D分割到1D回归渲染

https://arxiv.org/abs/2311.18695

最先进的单视图 360 度房间布局重建方法将该问题表述为高级 1D(每列)回归任务。 另一方面,传统的低级2D布局分割更容易学习并且可以表示遮挡区域,但它需要对目标布局多边形进行复杂的后处理并牺牲准确性。 我们提出了 Seg2Reg,以可微分和遮挡感知的方式从 2D 分割图渲染 1D 布局深度回归,结合了双方的优点。 具体来说,我们的模型预测输入等距柱状投影 360 度图像的平面图密度。 将 2D 布局表示形式表示为密度场使我们能够采用“扁平化”体积渲染来形成 1D 布局深度回归。 此外,我们提出了一种新颖的 3D 扭曲增强布局来提高泛化能力。 最后,我们将最新的房间布局重建方法重新实现到我们的代码库中以进行基准测试,并探索现代骨干和培训技术作为强大的基线。 我们的模型明显优于以前的技术。 该代码将在发布后提供。

1.4 Learning Part Segmentation from Synthetic Animals

从合成动物中学习部分分割

https://arxiv.org/abs/2311.18661

语义部分分割提供了对对象的复杂且可解释的理解,从而使许多下游任务受益。 然而,对详尽注释的需求阻碍了它在不同对象类型中的使用。 本文重点学习合成动物的部分分割,利用蒙皮多动物线性 (SMAL) 模型来扩展由计算机辅助设计 (CAD) 动物模型生成的现有合成数据。 与 CAD 模型相比,SMAL 模型生成的数据具有在现实场景中观察到的更广泛的姿势。 因此,我们的第一个贡献是构建一个具有更多姿势多样性的老虎和马的合成动物数据集,称为合成动物部位(SAP)。 然后,我们使用现有的语义分割域适应方法对从 SAP 到 PartImageNet 的 Syn-to-Real 动物部位分割(即 SynRealPart)进行基准测试,并进一步改进它们,作为我们的第二个贡献。 具体来说,我们研究了三种 Syn-to-Real 适应方法,但观察到由于两个任务之间的固有差异而导致相对性能下降。 为了解决这个问题,我们提出了一种简单而有效的方法,称为类平衡傅里叶数据混合(CB-FDM)。 傅里叶数据混合将合成图像的频谱幅度与真实图像对齐,从而使混合图像具有与真实图像更相似的频率内容。 我们进一步使用类平衡伪标签重新加权来缓解类分布不平衡。 我们证明了 CB-FDM 在 SynRealPart 上相对于以前的方法的功效,并具有显着的性能改进。 值得注意的是,我们的第三个贡献是揭示了从合成老虎和马中学到的部位可以在 PartImageNet 中的所有四足动物之间转移,进一步强调了动物部位分割的实用性和潜在应用。

1.5 Simple Semantic-Aided Few-Shot Learning

简单语义辅助的少样本学习

https://arxiv.org/abs/2311.18649

从有限数量的数据中学习,即少样本学习,是一项具有挑战性的计算机视觉任务。 一些工作利用语义并设计复杂的语义融合机制来补偿受限数据中罕见的代表性特征。 然而,依赖诸如类名之类的朴素语义会因其简洁而引入偏差,而从外部知识获取广泛的语义需要花费大量的时间和精力。 这种限制严重限制了语义在小样本学习中的潜力。 在本文中,我们设计了一种称为语义进化的自动方法来生成高质量的语义。 高质量语义的结合减轻了对先前工作中使用的复杂网络结构和学习算法的需求。 因此,我们采用一个简单的两层网络,称为语义对齐网络,将语义和视觉特征转换为具有丰富判别特征的鲁棒类原型,用于少样本分类。 实验结果表明,我们的框架在五个基准测试中优于以前的所有方法,证明具有高质量语义的简单网络可以在少样本分类任务上击败复杂的多模态模块。

1.6 A Lightweight Clustering Framework for Unsupervised Semantic Segmentation

一种轻量级的无监督语义分割聚类框架

https://arxiv.org/abs/2311.18628

无监督语义分割旨在在不使用注释数据的情况下将图像的每个像素标记到相应的类别。 这是一个广泛研究的领域,因为获取标记数据集的成本很高。 虽然该领域的先前工作证明了分割性能的逐渐提高,但其中大多数都需要神经网络训练。 这使得分割同样昂贵,尤其是在处理大规模数据集时。 因此,我们提出了一种用于无监督语义分割的轻量级聚类框架。 自监督视觉变换器的注意力特征表现出很强的前景-背景可区分性。 通过将这些特征聚类成少量的簇,我们可以将前景和背景图像块分成不同的组。 在我们的聚类框架中,我们首先从自监督视觉转换器中获取注意力特征。 然后,我们通过对同一数据集、类别和图像内的特征进行聚类来提取数据集级、类别级和图像级掩模。 我们进一步确保三个级别之间的多级聚类一致性,这使我们能够提取补丁级二进制伪掩码。 最后,对伪掩码进行上采样、细化,并根据对象区域的 CLS 标记执行类分配。 我们的框架在无监督语义分割方面展现了巨大的前景,并在 PASCAL VOC 和 MS COCO 数据集上取得了最先进的结果。

1.7 JPPF: Multi-task Fusion for Consistent Panoptic-Part Segmentation

JPPF:用于一致全景部分分割的多任务融合

https://arxiv.org/abs/2311.18618

部分感知全景分割是计算机视觉的一个问题,旨在提供多个粒度级别的场景语义理解。 更准确地说,语义区域、对象实例和语义部分是同时预测的。 在本文中,我们提出了联合全景部分融合(JPPF),它有效地结合了三个单独的分割以获得全景部分分割。 为此,有两个方面至关重要:首先,需要针对这三个问题建立一个统一的模型,以实现相互改进和一致的表示学习。 其次,平衡组合,以便在融合过程中对所有单独的结果给予同等的重视。 我们提出的 JPPF 是无参数的,并且动态平衡其输入。 该方法在 Cityscapes Panoptic Parts (CPP) 和 Pascal Panoptic Parts (PPP) 数据集上根据 PartPQ 和部分整体质量 (PWQ) 进行评估和比较。 在大量的实验中,我们验证了公平融合的重要性,强调了它对可以进一步分割成部分的区域最显着的影响,并展示了我们设计的泛化能力,而无需对 5 个额外的数据集进行微调。

1.8 Match me if you can: Semantic Correspondence Learning with Unpaired Images

匹配我,如果你能:语义对应学习与未配对的图像

https://arxiv.org/abs/2311.18540

最近的语义对应方法侧重于使用复杂的网络获得高质量的对应,细化模糊或有噪声的匹配点。 尽管性能有所提高,但由于昂贵的点级注释,它们仍然受到有限的训练对的限制。 本文提出了一种简单而有效的方法,使用未标记对进行训练,以补充有限图像对和稀疏点对,既不需要额外的标记关键点,也不需要可训练模块。 我们通过增加新的未注释对(最初不是在基准测试中作为训练对提供)从根本上扩展了数据数量和多样性。 使用简单的师生框架,我们通过机器监督向学生网络提供可靠的伪对应。 最后,通过所提出的迭代训练,我们的网络的性能稳步提高,将学生作为老师来生成精致的标签并反复训练新学生。 我们的模型优于里程碑基线,包括语义对应基准的最先进方法。

1.9 Accurate Segmentation of Optic Disc And Cup from Multiple Pseudo-labels by Noise-Aware Learning

利用噪声感知学习从多个伪标签中准确分割光盘和杯子

https://arxiv.org/abs/2311.18496

视盘和视杯分割在视神经青光眼的自动化筛查和诊断中发挥着至关重要的作用。 虽然数据驱动的卷积神经网络 (CNN) 在该领域显示出前景,但在视神经盘和视杯分割任务中分割对象和背景边界固有的模糊性会导致噪声注释,从而影响模型性能。 为了解决这个问题,我们提出了一种创新的多伪标签噪声感知网络(MPNN)标签去噪方法,用于准确的视神经盘和视杯分割。 具体来说,多伪标签生成和引导去噪(MPGGD)模块通过在真实标签上训练的多个不同的初始化网络生成伪标签,并且从这些伪标签中提取的像素级共识信息指导区分干净像素和噪声像素 。 MPNN 的训练框架由师生架构构建,用于学习干净像素和噪声像素的分割。 特别是,这样的框架巧妙地利用了(i)来自干净像素的可靠和基本的见解,以及(ii)通过基于多重扰动的无监督一致性在噪声像素内的补充知识。 与其他标签去噪方法相比,RIGA数据集上的综合实验结果证明了我们的方法具有优异的性能和显着的去噪能力。

  • 15
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值