【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（12 月 7 日论文合集）

最新推荐文章于 2024-08-26 21:08:43 发布

旅途中的宽~

最新推荐文章于 2024-08-26 21:08:43 发布

阅读量1.1k

点赞数 20

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/134864391

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 136 订阅

订阅专栏

文章目录

一、分割|语义相关(8篇)

一、分割|语义相关(8篇)

1.1 Foundation Model Assisted Weakly Supervised Semantic Segmentation

基础模型辅助的弱监督语义分割

https://arxiv.org/abs/2312.03585

这项工作旨在利用预训练的基础模型，如对比语言图像预训练（CLIP）和分割任何模型（SAM），使用图像级标签来解决弱监督语义分割（WSSS）。为此，我们提出了一个由粗到细的框架，基于CLIP和SAM生成高质量的分割种子。具体来说，我们构建了一个图像分类任务和一个种子分割任务，这是由CLIP与冻结的权重和两组可学习的任务特定的提示联合执行。基于SAM的播种（SAMS）模块的设计和应用到每个任务，以产生粗或细种子地图。此外，我们设计了一个多标签对比度损失监督的图像级标签和CAM激活损失监督的粗种子地图。这些损失用于学习提示，这是我们框架中唯一需要学习的部分。一旦学习了提示，我们将每个图像与学习的特定于分割的提示一起输入CLIP和SAMS模块，以生成高质量的分割种子。这些种子作为伪标签来训练现成的分割网络，就像其他两阶段WSSS方法一样。实验表明，该方法在PASCAL VOC 2012上达到了最先进的性能，在MS COCO 2014上也取得了有竞争力的结果。

1.2 Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation

弱监督自适应改进分布漂移下分割基础模型的泛化

https://arxiv.org/abs/2312.03502

大型语言模型的成功启发了计算机视觉社区探索能够通过快速工程实现零/Few-Shot泛化的图像分割基础模型。其中，Segment-Anything（SAM）是最先进的图像分割基础模型，展示了强大的零/Few-Shot泛化能力。尽管取得了成功，但最近的研究揭示了SAM在强分布转移下的弱点。特别是，SAM执行笨拙损坏的自然图像，图像，医学图像等的动机的观察，我们的目标是开发一个自我训练为基础的战略，以适应SAM的目标分布。针对大数据源、高计算成本和不正确伪标签的独特挑战，本文提出了一种基于锚正则化和低秩微调的弱监督自训练结构，以提高自适应的鲁棒性和计算效率。我们验证了5种类型的下游分割任务的有效性，包括自然干净/损坏的图像，医学图像，图像和机器人图像。我们提出的方法本质上是任务不可知的，并且在几乎所有具有相同测试提示输入的下游任务上都优于预训练的SAM和最先进的域自适应方法。

1.3 ShareCMP: Polarization-Aware RGB-P Semantic Segmentation

ShareCMP：极化感知的RGB-P语义分割

https://arxiv.org/abs/2312.03430

多模态语义分割发展迅速，但RGB极化模态仍有待研究。为了深入研究这个问题，我们构建了一个UPLight RGB-P分割基准与12个典型的水下语义类，为自主水下航行器（AUV）执行特殊的感知任务提供数据支持。在这项工作中，我们设计了ShareCMP，一个RGB-P语义分割框架，具有共享的双分支架构，与以前的双分支模型相比，减少了约26-33%的参数数量。它包含一个偏振生成注意力（PGA）模块，旨在为编码器生成具有更丰富偏振特性的偏振模式图像。此外，我们还引入了类偏振感知损失（CPALoss），以提高编码器对偏振模式信息的学习和理解，并优化PGA模块。通过对总共三个RGB-P基准测试的广泛实验，我们的ShareCMP在UPLight（92.45%），ZJU（92.7%）和MCubeS（50.99%）数据集上以更少的参数在mIoU中实现了最先进的性能。该代码可在https://github.com/LEFTeyex/ShareCMP上获得。

1.4 DeepPyramid+: Medical Image Segmentation using Pyramid View Fusion and Deformable Pyramid Reception

深度金字塔+：基于金字塔视角融合和可变形金字塔接收的医学图像分割

https://arxiv.org/abs/2312.03409

语义分割在医学图像和视频分析的许多应用中起着举足轻重的作用。然而，由于相关类别的不同特征，包括异质性、可变形性、透明度、钝边界和各种失真，设计用于医学图像和手术视频分割的神经网络架构具有挑战性。我们提出了一个网络架构，DeepPyramid+，它解决了医学图像和手术视频分割中遇到的各种挑战。拟议的DeepPyramid+包含两个主要模块，即“金字塔视图融合”（PVF）和“可变形金字塔接收”（DPR），以解决上述挑战。PVF在神经网络中复制了一个推理过程，与人类视觉系统保持一致，从而增强了每个像素位置处相对信息的表示。作为补充，DPR引入了使用膨胀可变形卷积的形状和尺度自适应特征提取技术，提高了处理异构类和可变形形状的准确性和鲁棒性。在不同的数据集上进行了广泛的实验，包括子宫内膜异位症视频，MRI图像，OCT扫描以及白内障和腹腔镜视频，证明了DeepPyramid+在处理各种挑战方面的有效性，例如形状和尺度变化，反射和模糊退化。DeepPyramid+在分割性能方面表现出显著的改进，域内分割的Dice系数增加了3.65%，跨域分割的Dice系数增加了17%。DeepPyramid+在考虑不同骨干网络的各种模式下始终优于最先进的网络，展示了其多功能性。

1.5 Background Clustering Pre-training for Few-shot Segmentation

用于Few-Shot分割的背景聚类预训练

https://arxiv.org/abs/2312.03322

最近的Few-Shot分割（FSS）方法在元训练之前引入额外的预训练阶段以获得更强的骨干，这已经成为Few-Shot学习中的标准步骤。尽管有效，目前的预训练方案遭受合并的背景问题：只有基类被标记为前景，使得很难区分新类和实际背景。在本文中，我们提出了一种新的预训练方案，通过解耦的新类背景，称为背景聚类预训练（BCPT）。具体来说，我们采用在线聚类的像素嵌入合并的背景，探索潜在的语义结构，弥合预训练和适应新的类之间的差距。在聚类结果的基础上，进一步提出了背景挖掘损失和利用基类指导聚类过程，提高了聚类结果的质量和稳定性。在PASCAL-5i和COCO-20 i上的实验表明，BCPT具有较好的性能。代码将可用。

1.6 DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

DGInStyle：基于图像扩散模型和风格化语义控制的领域泛化语义分割

https://arxiv.org/abs/2312.03048

大型的预训练潜在扩散模型（LDM）已经证明了生成创造性内容的非凡能力，通过Few-Shot微调专门针对用户数据，并根据其他形式（如语义地图）调整其输出。然而，它们是否可用作大规模数据生成器，例如，来改进感知堆栈中的任务，比如语义分割？我们在自动驾驶的背景下调查这个问题，并以响亮的“是”回答它。我们提出了一个高效的数据生成管道称为DGInStyle。首先，我们研究了将预训练的LDM专门化为窄域中的语义控制生成的问题。其次，我们设计了一种多分辨率潜在融合技术，以克服对主导对象的LDM的偏见。第三，我们提出了一种风格交换技术，赋予丰富的生成先验与学习的语义控制。使用DGInStyle，我们生成了一个多样化的街道场景数据集，在其上训练了一个与领域无关的语义分割模型，并在多个流行的自动驾驶数据集上对模型进行了评估。我们的方法始终如一地提高了几种域泛化方法的性能，在某些情况下，与之前没有生成增强方案的最先进方法相比，提高了+2.5 mIoU。源代码和数据集可在https://dginstyle.github.io上获得。

1.7 PartSLIP++: Enhancing Low-Shot 3D Part Segmentation via Multi-View Instance Segmentation and Maximum Likelihood Estimation

PartSLIP++：基于多视点实例分割和最大似然估计的低镜头三维零件分割

https://arxiv.org/abs/2312.03015

开放世界3D零件分割在机器人和AR/VR等各种应用中至关重要。传统的监督方法通常难以处理有限的3D数据可用性，并且难以推广到不可见的对象类别。PartSLIP是最近的一项进步，在零镜头和Few-Shot 3D零件分割方面取得了重大进展。这是通过利用2D开放词汇检测模块GLIP的功能并引入启发式方法将多视图2D边界框预测转换和提升为3D分割掩码来实现的。在本文中，我们介绍PartSLIP++，旨在克服其前身的局限性的增强版本。我们的方法包括两个主要的改进。首先，我们利用预先训练的2D分割模型SAM来生成逐像素的2D分割，从而产生比PartSLIP中使用的2D边界框更精确和准确的注释。其次，PartSLIP++用创新的改进型期望最大化算法取代了启发式3D转换过程。该算法将3D实例分割概念化为不可观测的潜在变量，然后通过2D-3D匹配和梯度下降优化的交替过程迭代地细化它们。通过广泛的评估，我们表明，PartSLIP++表现出更好的性能比PartSLIP在低拍摄的3D语义和基于实例的对象部分分割任务。代码发布于https://github.com/zyc00/PartSLIP2。

1.8 Bottom-Up Instance Segmentation of Catheters for Chest X-Rays

胸部X光导管的自下而上实例分割

https://arxiv.org/abs/2312.03368

胸部X光检查（CXR）经常在急诊科和重症监护室使用，以验证中心线和导管的正确放置，并排除相关并发症。X光片读取过程的自动化可以成为非专业技术人员的宝贵支持工具，并最大限度地减少由于专家无法提供报告而造成的延误。虽然用于自动导管分割和错位检测的现有解决方案显示出有希望的结果，但是单个导管的解开仍然是一个开放的挑战，特别是在多个设备在X射线投影中叠加出现的复杂情况下。此外，传统的自上而下的实例分割方法在这种薄而长的设备上是无效的，这些设备通常贯穿整个图像。在本文中，我们提出了一种基于关联嵌入的深度学习方法，用于导管实例分割，能够克服这些限制并有效地处理设备交叉。