【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 25 日论文合集）

旅途中的宽~

已于 2023-09-06 14:20:42 修改

阅读量487

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

于 2023-09-06 14:16:41 首次发布

本文链接：https://blog.csdn.net/wzk4869/article/details/132714211

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 140 订阅

订阅专栏

文章目录

一、分割|语义相关(12篇)

一、分割|语义相关(12篇)

1.1 Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via Training-free Networks

少即是多：基于无训练网络的高效Few-Shot3D语义分割

https://arxiv.org/abs/2308.12961

为了减少对大规模数据集的依赖，最近的3D分割工作采用了Few-Shot学习。当前的3D Few-Shot语义分割方法首先在“看不见的”类上预训练模型，然后在“看不见的”类上评估其泛化性能。然而，先前的预训练阶段不仅引入了过多的时间开销，而且在“看不见的”类上产生了显著的域间隙。为了解决这些问题，我们提出了一个高效的免训练Few-Shot 3D分割网络TFS 3D和一个基于训练的变体TFS 3D-T。在没有任何可学习参数的情况下，TFS 3D通过三角位置编码提取密集表示，并实现了与以前基于训练的方法相当的性能。由于消除了预训练，TFS 3D可以缓解域间隙问题并节省大量时间。在TFS 3D的基础上，TFS 3D-T只需要训练一个轻量级的查询支持转移注意力（QUEST），这增强了Few-Shot查询和支持数据之间的交互。实验表明，TFS 3D-T在S3 DIS和ScanNet上分别将先前最先进的方法提高了+6.93%和+17.96%mIoU，同时将训练时间减少了-90%，表明了卓越的有效性和效率。

1.2 Panoptic-Depth Color Map for Combination of Depth and Image Segmentation

深度与图像分割相结合的全景深度颜色图

https://arxiv.org/abs/2308.12937

图像分割和深度估计是计算机视觉中的关键任务，特别是在自动驾驶场景中。虽然这些任务通常是单独解决的，但我们提出了一种创新的方法，将它们结合到我们的新型深度学习网络Panoptic-DepthLab中。通过将额外的深度估计分支合并到分割网络中，它可以预测每个实例片段的深度。在Cityscape数据集上进行评估，我们证明了我们的方法在实现高质量的深度分割结果方面的有效性，并使用彩色地图对其进行可视化。我们提出的方法展示了一种新的可能性，即结合不同的任务和网络来生成更全面的图像识别结果，以促进自动驾驶车辆的安全。

1.3 Boosting Semantic Segmentation from the Perspective of Explicit Class Embeddings

基于显式类嵌入的语义分词方法

https://arxiv.org/abs/2308.12894

语义分割是将标签与图像中的每个像素相关联的计算机视觉任务。现代方法倾向于将类嵌入引入语义分割以深入利用类别语义，并将监督类掩码视为最终预测。在本文中，我们探讨了类嵌入的机制，并有一个洞察力，更明确和有意义的类嵌入可以生成基于类掩码故意。根据这一观察，我们提出了ECENet，一个新的分割范例，在其中类嵌入获得和增强明确的多阶段图像功能的相互作用。在此基础上，我们回顾了传统的解码过程，并探讨了分割掩码和类嵌入之间的反向信息流。此外，为了保证主干特征的可鉴别性和信息性，本文提出了一个特征重构模块，该模块将固有分支和多样分支结合在一起，以保证特征的多样性和冗余性的同时存在。实验表明，我们的ECENet优于其同行的ADE 20 K数据集上的计算成本少得多，并取得了新的国家的最先进的PASCAL-Context数据集的结果。该代码将在https://gitee.com/mindspore/models和https://github.com/Carol-lyh/ECENet上发布。

1.4 Robotic Scene Segmentation with Memory Network for Runtime Surgical Context Inference

用于手术上下文推理的记忆网络机器人场景分割

https://arxiv.org/abs/2308.12789

手术上下文推断最近在机器人辅助手术中获得了显著的关注，因为它可以促进工作流程分析、技能评估和错误检测。然而，运行时上下文推断是具有挑战性的，因为它需要基于视频数据的分割及时且准确地检测手术场景中的工具和对象之间的交互。另一方面，现有的国家的最先进的视频分割方法往往是对不频繁的类有偏见，并未能提供时间的一致性分割掩模。这可能负面地影响上下文推断和临界状态的准确检测。在这项研究中，我们提出了一个解决方案，这些挑战使用时空通信网络（STCN）。STCN是一个内存网络，它执行二进制分割，并最大限度地减少类不平衡的影响。在STCN中使用存储体允许利用过去的图像和分割信息，从而确保掩模的一致性。我们使用公开可用的JIGSAWS数据集的实验表明，STCN实现了卓越的分割性能，难以分割的对象，如针和线，并提高了上下文推理相比，国家的最先进的。我们还表明，分割和上下文推断可以在运行时执行，而不影响性能。

1.5 PartSeg: Few-shot Part Segmentation via Part-aware Prompt Learning

Part-Seg：基于零件感知提示学习的Few-Shot零件分割

https://arxiv.org/abs/2308.12757

在这项工作中，我们解决的任务，Few-Shot部分分割，其目的是分割的不同部分的一个看不见的对象，使用很少的标记的例子。研究发现，利用强大的预训练图像语言模型（如CLIP）的文本空间可以有益于学习视觉特征。因此，我们开发了一种新的方法称为PartSeg的Few-Shot部分分割的基础上多模态学习。具体来说，我们设计了一个部分意识提示学习方法，以产生特定的部分提示，使CLIP模型，以更好地理解“部分”的概念，并充分利用其文本空间。此外，由于不同对象类别下的同一部分的概念是通用的，我们在提示学习过程中建立这些部分之间的关系。我们在PartImageNet和Pascal $\_$ Part数据集上进行了大量的实验，实验结果表明我们提出的方法达到了最先进的性能。

1.6 FastSurfer-HypVINN: Automated sub-segmentation of the hypothalamus and adjacent structures on high-resolutional brain MRI

FastSurfer-HypVINN：在高分辨率脑MRI上自动细分下丘脑及其邻近结构

https://arxiv.org/abs/2308.12736

下丘脑在调节广泛的生理、行为和认知功能方面起着至关重要的作用。然而，尽管它的重要性，只有少数小规模的神经影像学研究已经调查了它的子结构，可能是由于缺乏完全自动化的分割工具，以解决手动分割的可扩展性和再现性问题。虽然之前唯一的尝试自动子分段下丘脑与神经网络显示了1.0 mm各向同性T1加权（T1 w）MRI的希望，存在对自动化工具的需求，以子分段也高分辨率（HiRes）MR扫描，因为它们变得广泛可用，并包括结构细节也来自多模态MRI。因此，我们引入了一种名为HypVINN的新型、快速和全自动深度学习方法，用于在0.8 mm各向同性T1 w和T2 w脑部MR图像上对下丘脑和相邻结构进行子分割，该方法对缺失模态具有鲁棒性。我们广泛验证了我们的模型分割准确性，泛化性，在会话测试重测可靠性，和敏感性复制下丘脑体积效应（例如，性别差异）。所提出的方法表现出高的分割性能的独立的T1 W图像，以及T1 W/T2 W图像对。即使具有接受灵活输入的额外能力，我们的模型匹配或超过了具有固定输入的最先进方法的性能。我们，进一步，证明了我们的方法在实验中与1.0毫米MR扫描从莱茵兰研究和英国生物银行。最后，HypVINN可以在不到一分钟（GPU）内执行分割，并将在开源FastSurfer神经成像软件套件中提供，为评估下丘脑成像衍生表型提供了一种经过验证的、高效的和可扩展的解决方案。

1.7 Logic-induced Diagnostic Reasoning for Semi-supervised Semantic Segmentation

半监督语义切分的逻辑诱导诊断推理

https://arxiv.org/abs/2308.12595

半监督语义分割的最新进展严重依赖于伪标记来补偿有限的标记数据，而忽略了语义概念之间有价值的关系知识。为了弥合这一差距，我们设计了LogicDiag，一个全新的神经逻辑半监督学习框架。我们的关键见解是，通过符号知识识别的伪标签内的冲突可以作为强大但通常被忽视的学习信号。LogicDiag通过逻辑诱导诊断推理解决了此类冲突，从而能够恢复（潜在）错误的伪标签，最终缓解了臭名昭着的错误累积问题。我们展示了LogicDiag在数据饥饿的分割场景中的实际应用，在那里我们正式化的语义概念的结构化抽象为一组逻辑规则。在三个标准的半监督语义分割基准上的大量实验证明了LogicDiag的有效性和通用性。此外，LogicDiag强调了将符号推理系统集成到流行的统计神经学习方法中所带来的有希望的机会。

1.8 Channel and Spatial Relation-Propagation Network for RGB-Thermal Semantic Segmentation

基于通道和空间关系传播网络的RGB-热度语义切分

https://arxiv.org/abs/2308.12534

RGB-热（RGB-T）语义分割在处理低光条件中显示出巨大的潜力，其中基于RGB的分割受到差的RGB成像质量的阻碍。RGB-T语义分割的关键是有效地利用RGB和热图像的互补性。大多数现有的算法融合RGB和热信息在特征空间中通过级联，元素求和，或注意力操作在单向增强或双向聚合的方式。然而，他们通常忽略了RGB和热图像之间的模态差距在特征融合，导致模态特定的信息从一个模态污染另一个模态。在本文中，我们提出了一个通道和空间关系传播网络（CSRPNet）的RGB-T语义分割，它只传播模态共享的信息跨不同的模态和减轻模态特定的信息污染问题。我们的CSRPNet首先在通道和空间维度上执行关系传播，以捕获来自RGB和热特征的模态共享特征。然后，CSRPNet将从一种模态捕获的模态共享特征与来自另一种模态的输入特征聚合，以增强输入特征，而不会出现污染问题。当被融合在一起时，增强的RGB和热特征也将分别被馈送到后续的RGB或热特征提取层中以用于交互式特征融合。我们还引入了一个双路径级联功能细化模块，聚合多层功能，以产生两个细化的功能语义和边界预测。大量的实验结果表明，CSRPNet表现有利的国家的最先进的算法。

1.9 Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion

扩散、参与和分割：使用稳定扩散的无监督Zero-Shot分割

https://arxiv.org/abs/2308.12469

为图像生成高质量的分割掩模是计算机视觉中的一个基本问题。最近的研究探索了大规模的监督训练，以实现几乎任何图像风格的zero-shot分割，以及无监督训练，以实现没有密集注释的分割。然而，构建一个能够在没有任何注释的情况下以zero-shot方式分割任何东西的模型仍然具有挑战性。在本文中，我们建议利用稳定扩散模型中的自注意层来实现这一目标，因为预训练的稳定扩散模型已经学习了其注意层中对象的固有概念。具体来说，我们引入了一个简单而有效的迭代合并过程的基础上测量KL分歧之间的注意力地图合并成有效的分割掩模。所提出的方法不需要任何训练或语言依赖性来提取任何图像的质量分割。在COCO-Stuff-27上，我们的方法在像素准确度上绝对超过了先前的无监督zero-shot SOTA方法26%，平均IoU超过了17%。

1.10 A Spatiotemporal Correspondence Approach to Unsupervised LiDAR Segmentation with Traffic Applications

一种时空对应的无监督LiDAR分割方法及其在交通中的应用

https://arxiv.org/abs/2308.12433

我们解决了在不同的交通场景中的室外激光雷达点云的无监督语义分割的问题。其关键思想是利用动态点云序列的时空特性，并通过在多个帧之间建立时空对应关系来引入更强的增强。我们在这项工作中融合了聚类和伪标签学习。从本质上讲，我们交替聚类点到语义组和优化模型使用逐点伪时空标签与一个简单的学习目标。因此，我们的方法可以以无监督学习的方式学习判别特征。我们在Semantic-KITTI，SemanticPOSS和Florida基准数据集上展示了有希望的分割性能，这些数据集涵盖了自动驾驶车辆和交叉路口基础设施的场景，与许多现有的完全监督学习方法相比，这是有竞争力的。这个一般的框架可以导致一个统一的表示学习方法的激光雷达点云结合领域知识。

1.11 Diffusion-based Image Translation with Label Guidance for Domain Adaptive Semantic Segmentation

基于扩散的基于标签引导的图像翻译领域自适应语义分割

https://arxiv.org/abs/2308.12350

将图像从源域转换到目标域以学习目标模型是领域自适应语义分割（DASS）中最常见的策略之一。然而，现有的方法仍然难以保持原始图像和翻译图像之间语义一致的局部细节。在这项工作中，我们提出了一种创新的方法，通过使用源域标签作为明确的指导，在图像翻译，以解决这一挑战。具体地说，我们制定跨域图像翻译作为一个去噪扩散过程，并利用一种新的语义梯度指导（SGG）的方法来约束翻译过程，条件是它的像素级源标签。此外，渐进式翻译学习（PTL）策略的设计，使SGG方法可靠地跨域工作与大的差距。大量的实验表明，我们的方法比国家的最先进的方法的优越性。

1.12 IP-UNet: Intensity Projection UNet Architecture for 3D Medical Volume Segmentation

基于强度投影的三维医学体分割体系结构

https://arxiv.org/abs/2308.12761

CNN已广泛应用于医学图像分析。然而，有限的存储器容量是处理高分辨率3D体积数据的最常见缺点之一。3D体积通常在处理之前首先被裁剪或缩小尺寸，这可能导致分辨率损失，增加类不平衡，并影响分割算法的性能。在本文中，我们提出了一种称为IP-UNet的端到端深度学习方法。IP-UNet是一种基于UNet的模型，它对3D体积数据的强度投影（IP）而不是对占用内存的3D体积执行多类分割。IP-UNet使用有限的内存能力进行训练，而不会丢失原始3D图像分辨率。我们比较了三种模型在分割精度和计算成本方面的性能：1）使用常规2D UNet模型对CT扫描图像进行逐切片2D分割。2)IP-UNet，其对通过合并源3D体积的提取的最大强度投影（MIP）、最近血管投影（CVP）和平均强度投影（AvgIP）表示获得的数据进行操作，然后将UNet模型应用于输出IP图像。3)3D-UNet模型直接读取由一系列CT扫描图像构建的3D体积，并输出预测分割的3D体积。我们测试这些方法的性能在3D体积图像自动乳腺钙化检测。实验结果表明，IP-Unet可以达到与3D-Unet相当的分割精度，但性能更好。该算法使训练时间减少70%，内存消耗减少92%。