【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(11 月 30 日论文合集)(上)

一、分割|语义相关(14篇)

1.1 A Simple Recipe for Language-guided Domain Generalized Segmentation

一种简单的语言制导领域泛化切分方法

https://arxiv.org/abs/2311.17922

泛化到训练过程中看不到的新领域是在现实世界应用中部署神经网络的长期目标和挑战之一。现有的泛化技术需要大量的数据增强,可能来自外部数据集,并旨在通过施加各种对齐约束来学习不变表示。大规模预训练最近显示出有希望的泛化能力,以及桥接不同模式的潜力。例如,像CLIP这样的视觉语言模型的出现为视觉模型打开了利用文本模态的大门。在本文中,我们引入了一个简单的框架,通过采用语言作为随机化的来源来概括语义分割网络。我们的配方包括三个关键成分:i)通过最小的微调来保持固有的CLIP鲁棒性,ii)语言驱动的局部风格增强,以及iii)在训练期间通过局部混合源和增强风格来进行随机化。广泛的实验报告国家的最先进的各种泛化基准的结果。代码将被提供。

1.2 Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

被注意力背叛:一种简单而有效的自监督视频对象分割方法

https://arxiv.org/abs/2311.17893

在本文中,我们提出了一个简单而有效的方法,自监督视频对象分割(VOS)。我们的关键见解是,DINO预训练的Transformers中存在的固有结构依赖性可以用来在视频中建立鲁棒的时空对应关系。此外,在此对应线索上的简单聚类足以产生有竞争力的分割结果。以往的自监督VOS技术主要依靠辅助模态或利用迭代槽注意来辅助对象发现,这限制了它们的普遍适用性,并提出了更高的计算要求。为了应对这些挑战,我们开发了一个简化的架构,该架构利用了DINO预训练的Transformers的新兴对象性,绕过了对额外模态或插槽注意力的需求。具体来说,我们首先引入一个单一的时空Transformer块来处理逐帧DINO特征,并以自注意力的形式建立时空依赖关系。随后,利用这些注意力地图,我们实现层次聚类生成对象分割掩模。为了以完全自监督的方式训练时空块,我们采用语义和动态运动一致性与熵归一化相结合。我们的方法在多个无监督VOS基准测试中展示了最先进的性能,特别是在复杂的现实世界多对象视频分割任务中表现出色,例如DAVIS-17-Unsupervised和YouTube-VIS-19。代码和模型检查点将在https://github.com/shvdiwnkozbw/SSL-UVOS上发布。

1.3 SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation

SAMPro3D:在3D中定位SAM提示进行Zero-Shot场景分割

https://arxiv.org/abs/2311.17707

我们引入SAMPro 3D用于zero-shot 3D室内场景分割。给定3D场景的3D点云和多个已设定的2D帧,我们的方法通过将预训练的分段任意模型(SAM)应用于2D帧来分割3D场景。我们的关键思想是将场景中的3D点定位为自然的3D提示,以跨帧对齐投影的像素提示,确保像素提示及其SAM预测的掩码的帧一致性。此外,我们建议根据所有2D帧的反馈过滤掉低质量的3D提示,以提高分割质量。我们还建议合并不同的3D提示,如果他们分割相同的对象,带来更全面的分割。值得注意的是,我们的方法不需要对特定领域的数据进行任何额外的训练,使我们能够保持SAM的zero-shot能力。大量的定性和定量结果表明,我们的方法始终实现更高的质量和更多样化的分割比以前的zero-shot或完全监督的方法,在许多情况下,甚至超过人类水平的注释。该项目的网页可在https://mutianxu.github.io/sampro3d/上查阅。

1.4 Spherical Frustum Sparse Convolution Network for LiDAR Point Cloud Semantic Segmentation

基于球果稀疏卷积网络的激光雷达点云语义分割

https://arxiv.org/abs/2311.17491

LiDAR点云语义分割使机器人能够获得周围环境的细粒度语义信息。近年来,许多工作将点云投影到二维图像上,并采用二维卷积神经网络(CNN)或Vision Transformer对LiDAR点云进行语义分割。然而,由于可以将多个点投影到同一2D位置上,但只能保留一个点,因此先前的基于2D图像的分割方法遭受不可避免的量化信息损失。为了避免量化信息的丢失,本文提出了一种新的球截头体结构。投影到相同2D位置的点保留在球形平截头体中。此外,我们提出了一个高效的内存哈希为基础的表示球形截头体。通过基于散列的表示,我们提出了球面锥台稀疏卷积(SFC)和锥台快速点采样(F2PS)分别卷积和采样存储在球面锥台上的点。最后,我们提出了球形截头体稀疏卷积网络(SFCNet),采用二维CNN进行LiDAR点云语义分割,而不会丢失量化信息。SemanticKITTI和nuScenes数据集上的大量实验表明,我们的SFCNet优于基于传统球面投影的基于2D图像的语义分割方法。源代码将在稍后发布。

1.5 Continual Learning for Image Segmentation with Dynamic Query

基于连续学习的动态查询图像分割算法

https://arxiv.org/abs/2311.17450

基于持续学习的图像分割表现出性能的临界下降,主要是由于灾难性的遗忘和背景移动,因为它们需要不断地合并新的类。在本文中,我们提出了一个简单的,但有效的连续图像分割方法与增量动态查询(CISDQ),它是并行的表示学习的旧的和新的知识与轻量级查询嵌入。CISDQ主要包括三个方面的贡献:1)我们定义了具有自适应背景类的动态查询,以自然地利用过去的知识和学习未来的类。2)CISDQ提出了一种类/实例感知的查询引导知识蒸馏策略,通过捕获类间多样性和类内身份来克服灾难性遗忘。3)除了语义分割之外,CISDQ还引入了实例分割的持续学习,其中考虑了实例标记和监督。在三个数据集上进行了两个任务的广泛实验(即,进行连续的语义和实例分割以证明CISDQ实现了最先进的性能,具体地,针对ADE 100-10(6步)设置和ADE 100-5(11步)设置获得了4.4%和2.9%的mIoU改进。

1.6 A natural language processing-based approach: mapping human perception by understanding deep semantic features in street view images

一种基于自然语言处理的街景图像深层语义映射方法

https://arxiv.org/abs/2311.17354

在过去的十年中,使用街景图像和机器学习来测量人类感知已经成为城市科学的主流研究方法。然而,这种方法只使用图像浅层信息,很难全面理解人类感知场景的深层语义特征。在这项研究中,我们提出了一个基于预训练自然语言模型的新框架,以理解人类感知和场景感之间的关系。首先,使用Place Pulse 2.0作为我们的基础数据集,其中包含各种人类感知标签,即美丽,安全,富裕,沮丧,无聊和活泼。利用图像字幕网络提取街景图像的描述信息。其次,对预训练的BERT模型进行微调,并添加了六个人类感知维度的回归函数。此外,我们比较了五个传统的回归方法与我们的方法的性能,并在香港进行了迁移实验。我们的研究结果表明,人类感知评分的深层语义特征表现优于以前的研究,机器学习方法与浅特征。深度场景语义特征的使用为后续的人类感知研究提供了新的思路,同时在面对空间异质性时也具有更好的解释力。

1.7 Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation

半监督医学图像分割的交替多样化教学

https://arxiv.org/abs/2311.17325

半监督医学图像分割研究在有限标记数据的训练模型中表现出了希望。然而,目前占主导地位的师生为本的方法可能会受到确认偏见。为了应对这一挑战,我们提出了AD-MT,一个替代的教师和学生的框架多样化的教学方法。它包括一个学生模型和两个不可训练的教师模型,这两个模型以交替的方式定期和随机地进行动量更新。为了消除不同监管带来的确认偏差,AD-MT的核心在于两个模块:随机周期交替(RPA)更新模块和抗干扰模块(CCM)。RPA计划交替不同的更新过程与互补的数据批次,不同的数据增强,和随机切换周期,以鼓励不同的推理从不同的教学角度。CCM采用基于熵的集成策略,鼓励模型从教师之间一致和冲突的预测中学习。实验结果表明,我们的AD-MT的有效性和优越性的2D和3D医学分割基准在各种半监督设置。

  • 18
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值