【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（9 月 19 日论文合集）

最新推荐文章于 2024-09-11 08:16:27 发布

旅途中的宽~

最新推荐文章于 2024-09-11 08:16:27 发布

阅读量282

点赞数 1

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/133049767

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 144 订阅

订阅专栏

文章目录

一、分割|语义相关(13篇)

一、分割|语义相关(13篇)

1.1 Scribble-based 3D Multiple Abdominal Organ Segmentation via Triple-branch Multi-dilated Network with Pixel- and Class-wise Consistency

基于像素和类一致性的三叉树多扩张网络腹部多器官分割

https://arxiv.org/abs/2309.09730

腹部CT图像中的多器官分割对于腹部病变的诊断和后续治疗计划具有重要意义。虽然基于深度学习的方法已经获得了很高的性能，但它们严重依赖于大规模的像素级注释，而这些注释既耗时又费力。由于弱监督分割对标注的依赖性较低，因此受到了广泛的关注。然而，目前的弱监督学习方法和完全监督学习之间仍存在很大的性能差距，留下了探索的空间。在这项工作中，我们提出了一种新的三维框架，具有两个一致性约束，用于手写监督的多个腹部器官分割CT。具体来说，我们采用了一个三分支多扩张网络（TDNet）与一个编码器和三个解码器，使用不同的扩张率，以捕捉功能，从不同的感受野是互补的，以产生高品质的软伪标签。为了更稳定的无监督学习，我们使用体素不确定性来纠正软伪标签，然后监督每个解码器的输出。为了进一步正则化网络，通过鼓励所生成的类亲和矩阵在多视图投影下跨不同解码器是一致的来利用类关系信息。在公开的WORD数据集上的实验表明，我们的方法优于五个现有的涂鸦监督方法。

1.2 DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

DFormer：用于语义分割的RGBD表示学习的再思考

https://arxiv.org/abs/2309.09668

我们提出了一个新的RGB-D预训练框架，学习可转移的表示RGB-D分割任务。DFormer有两个新的关键创新：1）与旨在编码RGB特征的先前作品不同，DFormer包括RGB-D块序列，其被定制用于通过新颖的构建块设计来编码RGB和深度信息; 2）我们使用来自ImageNet-1 K的图像深度对预训练骨干网，因此DFormer被赋予编码RGB-D表示的能力。它避免了RGB预训练骨干对深度图中的3D几何关系的不匹配编码，这广泛存在于现有方法中但尚未解决。我们在两个流行的RGB-D任务上微调预训练的DFormer，即，RGB-D语义分割和RGB-D显著对象检测，具有轻量级解码器头。实验结果表明，我们的DOFormer在这两个任务上实现了新的国家的最先进的性能，在两个RGB-D分割数据集和五个RGB-D显着性数据集上的计算成本不到一半。我们的代码可从以下网址获得：https://github.com/VCIP-RGBD/DFormer。

1.3 Designing a Hybrid Neural System to Learn Real-world Crack Segmentation from Fractal-based Simulation

设计混合神经系统从基于分形的模拟中学习真实世界中的裂纹分割

https://arxiv.org/abs/2309.09637

裂缝的识别对于评估混凝土基础设施的结构完整性至关重要。然而，鲁棒的裂缝分割仍然是计算机视觉系统的一项具有挑战性的任务，由于混凝土表面的多样性，可变的光照和天气条件，以及不同缺陷的重叠。特别是，最近的数据驱动的方法斗争与有限的可用性的数据，细粒度和耗时的性质的裂缝注释，并面临后续的困难，推广到分布外的样本。在这项工作中，我们以双重方式克服这些挑战。我们介绍了一个高保真的裂纹图形模拟器的基础上分形和相应的完全注释的裂纹数据集。然后，我们补充后者的系统，学习广义的表示从模拟，通过利用点式互信息估计与自适应实例归一化作为归纳偏差。最后，我们从经验上强调了不同的设计选择是如何共生的桥梁模拟到真实的差距，并最终证明，我们介绍的系统可以有效地处理现实世界的裂缝分割。

1.4 Decompose Semantic Shifts for Composed Image Retrieval

分解语义转移的合成图像检索方法

https://arxiv.org/abs/2309.09531

合成图像检索是一种类型的图像检索任务，其中用户提供参考图像作为起始点，并指定关于如何从起始点转移到期望的目标图像的文本。然而，大多数现有的方法集中在文本和参考图像的组成学习和过度简化的文本作为一个描述，忽略了文本的内在结构和用户的转移意图。因此，这些方法通常采取忽略参考图像的视觉提示的捷径。为了解决这个问题，我们将文本重新考虑为指令，并提出了一个语义转换网络（SSN），该网络将语义转换明确地分解为两个步骤：从参考图像到视觉原型以及从视觉原型到目标图像。具体而言，SSN显式地将指令分解为两个部分：降级和升级，其中降级用于从参考图像描绘视觉原型，而升级用于将视觉原型丰富到最终表示中以检索期望的目标图像。实验结果表明，所提出的SSN表现出显着的改进，CIRR和FashionIQ数据集，分别为5.42%和1.37%，并建立了一个新的国家的最先进的性能。代码将公开提供。

1.5 Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation

用于音视频分割的音频查询发现发声对象

https://arxiv.org/abs/2309.09501

视听分割（AVS）的目的是分割给定视频的每个帧的发声对象。要区分有声和无声的对象，视听语义对应和时间的相互作用。先前的方法应用多帧跨模态注意，同时进行多帧音频特征和视觉特征之间的像素级交互，这是冗余和隐含的。在本文中，我们提出了一个音频查询Transformer架构，AQFormer，我们定义了一组对象查询的音频信息条件下，并将他们中的每一个特定的发声对象。通过用预定义的音频查询从视觉特征收集对象信息，建立音频和视觉模态之间的显式对象级语义对应。此外，提出了一个音频桥接的时间交互模块，以音频特征为桥梁，在多个帧之间交换发声对象相关信息。在两个AVS基准测试上进行了大量的实验，结果表明，我们的方法达到了最先进的性能，特别是7.1%的M_J和7.6%的M_F增益MS3设置。

1.6 Active Learning for Semantic Segmentation with Multi-class Label Query

基于主动学习的多类标签查询语义分割

https://arxiv.org/abs/2309.09319

提出了一种新的主动学习语义切分方法。我们的方法的核心在于一个新的注释查询设计。它对信息性局部图像区域（例如，超像素），并且对于这样的区域中的每一个，向oracle请求指示存在于该区域中的所有类的多热向量。在每次点击的注释时间方面，这种多类标记策略比现有的策略（如分割、多边形，甚至主导类标记）更有效。然而，它在训练中引入了类模糊性问题，因为它分配了部分标签（即，一组候选类）到各个像素。因此，我们提出了一个新的算法，学习语义分割，同时消除歧义的部分标签在两个阶段。在第一阶段，它通过两个新的损失函数直接用部分标签学习和多实例学习激励的部分标签训练分割模型。在第二阶段，它通过生成逐像素伪标签来消除部分标签的歧义，这些标签用于模型的监督学习。配备了一个新的采集功能，专门用于多类标签，我们的方法优于以前的工作，城市景观和PASCAL VOC 2012，同时花费更少的注释成本。

1.7 LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation

LivelySpeaker：面向语义感知的协同语音手势生成

https://arxiv.org/abs/2309.09294

手势是一种非语言但重要的伴随着人们的言语行为。虽然先前的方法能够生成语音节奏同步的手势，但是手势中通常缺乏语音的语义上下文。虽然语义手势在人类语音中并不经常出现，但它们确实是受众在更沉浸式的环境中理解语音上下文的关键。因此，我们介绍了LivelySpeaker，一个框架，实现语义感知的共语音手势生成，并提供了几个控制句柄。特别是，我们的方法将任务解耦为两个阶段：基于脚本的手势生成和音频引导的节奏细化。具体地，基于脚本的手势生成利用预先训练的CLIP文本嵌入作为用于生成与脚本高度语义对准的手势的指导。然后，我们设计了一个简单但有效的基于扩散的手势生成骨干，简单地使用纯MLP，这是仅以音频信号为条件，并学会与现实的运动手势。我们利用这样强大的先验来押韵脚本引导的手势与音频信号，特别是在zero-shot设置。我们的新的两阶段生成框架还实现了几个应用程序，如改变手势风格，编辑通过文本提示的共同语音手势，并控制语义意识和节奏对齐引导扩散。大量的实验表明，所提出的框架比竞争方法的优势。此外，我们的核心基于扩散的生成模型在两个基准测试中也达到了最先进的性能。该代码和模型将被发布，以便于未来的研究。

1.8 CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual Servoing Control with CLIP-driven Referring Expression Segmentation

CLIPUNetr：利用片段驱动的指代表情分割技术辅助人机接口实现无标定视觉伺服控制

https://arxiv.org/abs/2309.09183

基于图像的视觉伺服（UIBVS）的经典人机界面依赖于人类注释或分类标签的语义分割。这两种方法都无法匹配自然人类通信，并在操作任务中传达丰富的语义作为自然语言表达有效。在本文中，我们解决了这个问题，通过使用参考表情分割，这是一种基于提示的方法，为机器人的感知提供更深入的信息。为了生成高质量的分割预测，我们提出了CLIPUNetr -一个新的CLIP驱动的参考表达式分割网络。CLIPUNetr利用CLIP强大的视觉语言表示从引用表达式中分割区域，同时利用其“U形”编码器-解码器架构生成具有更清晰边界和更精细结构的预测。此外，我们提出了一个新的管道集成CLIPUNetr到UIBVS，并应用它控制在现实世界的环境中的机器人。在实验中，我们的方法提高了平均120%的边界和结构测量，并可以成功地协助现实世界的UIBVS控制在非结构化的操纵环境。

1.9 GCL: Gradient-Guided Contrastive Learning for Medical Image Segmentation with Multi-Perspective Meta Labels

GCL：梯度引导的多视角元标记医学图像分割对比学习

https://arxiv.org/abs/2309.08888

由于注释用于分割任务的医学图像通常招致昂贵的成本，因此非常期望设计一种注释高效的方法来减轻注释负担。最近，对比学习在学习鲁棒表示以提高具有有限标签的下游任务方面表现出了巨大的潜力。在医学成像场景中，现成的Meta标签（即，医学图像的特定属性信息）内在地揭示了图像之间的语义关系，在先前的工作中，这些语义关系已经被用于定义正对。然而，不同的Meta标签所揭示的多视角语义通常是不兼容的，并且在组合不同的元标签时会产生难以解决的“语义矛盾”。在本文中，我们使用我们提出的梯度缓和器方法以梯度引导的方式解决“语义矛盾”问题，该方法系统地统一了多视角Meta标签，使预训练模型能够获得更好的高级语义识别能力。此外，我们强调，细粒度的歧视能力是至关重要的分割为导向的预训练，并开发了一种新的方法，称为梯度过滤器，动态筛选像素对的基础上的梯度的大小最有鉴别力。在四个医学图像分割数据集上的综合实验验证了我们的新方法GCL：（1）学习信息丰富的图像表示，并大大提高了有限标签的分割性能，（2）在分布外的数据集上显示出有希望的泛化能力。

1.10 MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image Segmentation

MA-SAM：一种用于三维医学图像分割的通道无关SAM自适应算法

https://arxiv.org/abs/2309.08842

SegmentAnything Model（SAM）是一般图像分割的基础模型，在许多自然图像分割任务中表现出令人印象深刻的zero-shot性能。然而，SAM的性能显着下降时应用于医学图像，主要是由于自然和医学图像域之间的实质性差异。为了有效地使SAM适应于医学图像，重要的是并入关键的三维信息，即，体积或时间知识，在微调期间。同时，我们的目标是在其原始的2D骨干中充分利用SAM的预训练权重。在本文中，我们介绍了一个模态不可知的SAM适应框架，命名为MA-SAM，适用于各种体积和视频医疗数据。我们的方法根源于参数有效的微调策略，仅更新一小部分权重增量，同时保留SAM的大部分预训练权重。通过注入一系列的3D适配器到图像编码器的Transformer块，我们的方法使预先训练的2D骨干从输入数据中提取三维信息。我们的方法的有效性已经全面评估了四个医学图像分割任务，通过使用10个公共数据集跨CT，MRI和手术视频数据。值得注意的是，在不使用任何提示的情况下，我们的方法始终优于各种最先进的3D方法，在Dice中，CT多器官分割、MRI前列腺分割和手术场景分割分别超过nnU-Net 0.9%、2.6%和9.9%。我们的模型还表现出很强的泛化能力，并且在使用提示时，在具有挑战性的肿瘤分割方面表现出色。我们的代码可从以下网址获得：https://github.com/cchen-cc/MA-SAM。

1.11 Segmentation of Tubular Structures Using Iterative Training with Tailored Samples

基于定制样本迭代训练的管状结构分割

https://arxiv.org/abs/2309.08727

我们提出了一个最小路径方法，同时计算分割掩模和提取管状结构的中心线与线拓扑。最小路径方法通常用于管状结构的分割在各种各样的应用。最近的方法使用CNN提取的特征，并且通常优于使用手动调整特征的方法。然而，对于基于CNN的方法，用于训练的样本可能被不适当地生成，使得它们可能与推断期间遇到的样本非常不同。我们通过引入一种新的迭代训练方案，这使得生成更好的训练样本，专门为最小路径方法量身定制，而不改变现有的注释来接近这种差异。在我们的方法中，分割掩模和中心线不是通过后处理一个之后确定的，而是使用相同的步骤获得。我们的方法只需要非常少的注释训练图像。与以前的七种方法的三个公共数据集，包括卫星图像和医学图像的比较，表明我们的方法实现了国家的最先进的分割掩模和中心线的结果。

1.12 Self-supervised TransUNet for Ultrasound regional segmentation of the distal radius in children

自主式TUNET在儿童桡骨远端超声区域分割中的应用

https://arxiv.org/abs/2309.09490

监督式深度学习为从分割到诊断的医学图像自动分析提供了巨大的希望。然而，它们的性能高度依赖于数据注释的质量和数量。同时，为医学图像策展大型注释数据集需要高水平的专业知识，这是耗时且昂贵的。最近，为了满足对具有高质量注释的大数据集的需求，使用未标记的特定领域数据的自监督学习（SSL）方法引起了人们的关注。因此，设计一种依赖于最小数量的标记数据的SSL方法在医学图像中具有深远的意义。本文探讨了部署的TransUNet的SSL（SSL-MAE）的掩蔽自动编码器，从儿童的手腕超声扫描分割骨区域的可行性。我们发现，与原始SSL-MAE相比，改变SSL-MAE中的嵌入和损失函数可以产生更好的下游结果。此外，我们确定，只有预训练TransUNet嵌入和编码器与SSL-MAE不工作，以及TransUNet没有SSL-MAE预训练的下游分割任务。

1.13 An Accurate and Efficient Neural Network for OCTA Vessel Segmentation and a New Dataset

一种准确高效的OCTA血管分割神经网络及新的数据集

https://arxiv.org/abs/2309.09483

光学相干断层扫描血管造影（OCTA）是一种无创成像技术，可以显示高分辨率的视网膜血管。在这项工作中，我们提出了一个准确和有效的神经网络的视网膜血管分割OCTA图像。所提出的网络实现了与其他SOTA方法相当的精度，同时具有更少的参数和更快的推理速度（例如，比U-Net轻110倍，速度快1.3倍），非常适合工业应用。这是通过将修改后的Recurrent ConvNeXt Block应用于全分辨率卷积网络来实现的。此外，我们创建了一个新的数据集，包含918 OCTA图像及其相应的血管注释。数据集采用分段任意模型（SAM）进行半自动标注，大大提高了标注速度。为了社区的利益，我们的代码和数据集可以从https://github.com/nhjydywd/OCTA-FRNet获得。