【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（11 月 28 日论文合集）

最新推荐文章于 2025-04-02 14:21:48 发布

旅途中的宽~

最新推荐文章于 2025-04-02 14:21:48 发布

阅读量1k

点赞数 17

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能深度学习图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/134666220

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、分割|语义相关(17篇)

一、分割|语义相关(17篇)

1.1 SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation

SEGIC：释放紧急通信以实现上下文中的细分

https://arxiv.org/abs/2311.14671

上下文分割的目的是使用一些标记的示例图像分割新的图像，称为“上下文示例”，探索示例和目标之间的内容相似性。由此产生的模型可以无缝地推广到新的分割任务，与传统的管道相比，大大降低了标记和训练成本。然而，由于其元学习性质，上下文分割比经典分割更具挑战性，需要模型学习以少数样本为条件的分割规则，而不仅仅是分割。与以前的工作与特设或非端到端的设计，我们提出了SEGIC，一个端到端的段在上下文框架建立在一个单一的视觉基础模型（VFM）。特别是，SEGIC利用VFM中的紧急对应来捕获目标图像和上下文样本之间的密集关系。因此，来自上下文内样本的信息然后被提取到三种类型的指令中，即几何、视觉和Meta指令，用作最终掩码预测的显式条件。SEGIC是一种简单而有效的方法，在单次分割基准测试中具有最先进的性能。值得注意的是，SEGIC可以很容易地推广到不同的任务，包括视频对象分割和开放词汇分割。代码将在\url{https：//github.com/MengLcool/SEGIC}上提供。

1.2 Understanding Self-Supervised Features for Learning Unsupervised Instance Segmentation

理解自监督特征以学习无监督实例分割

https://arxiv.org/abs/2311.14665

自监督学习（SSL）可以用来解决复杂的视觉任务，而无需人工标签。自监督表示编码了关于图像的有用语义信息，因此，它们已经被用于无监督语义分割等任务。在本文中，我们调查的自我监督表示实例分割没有任何手动注释。我们发现，不同的SSL方法的功能不同，在他们的水平的实例意识。特别是，DINO功能，这是已知的优秀的语义描述符，缺乏后面的MAE功能在其敏感性分离的实例。

1.3 IDD-AW: A Benchmark for Safe and Robust Segmentation of Drive Scenes in Unstructured Traffic and Adverse Weather

IDD-AW：非结构化交通和恶劣天气下安全和稳健的驾驶场景分割基准

https://arxiv.org/abs/2311.14459

大规模部署全自动驾驶汽车需要对非结构化交通和天气条件具有非常高的鲁棒性，并应防止不安全的错误预测。虽然有几个数据集和基准专注于驾驶场景的分割，但它们并不专门关注安全性和鲁棒性问题。我们介绍了IDD-AW数据集，它提供了5000对高质量的图像与像素级的注释，在雨，雾，低光，和雪在非结构化的驾驶条件下捕获。与其他不利天气数据集相比，我们提供i.）更多注释图像，ii.）每帧的成对近红外（NIR）图像，iii.）具有4级标签层次结构的更大标签集，用于捕获非结构化交通状况。我们对IDD-AW中最先进的语义分割模型进行了基准测试。我们还提出了一个新的度量标准，称为“安全平均交集超过联盟（安全mIoU）”的分层数据集，惩罚危险的错误预测，没有捕捉到在传统的定义平均交集超过联盟（mIoU）。结果表明，IDD-AW是迄今为止这些任务中最具挑战性的数据集之一。数据集和代码将在这里提供：http://iddaw.github.io。

1.4 Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on Segmentation Models

细分(几乎)无：对细分模型的即时不可知的对抗性攻击

https://arxiv.org/abs/2311.14450

通用分割模型能够根据各种提示生成（语义）分割掩码，包括视觉（点、框等）和文本（对象名称）。特别地，输入图像由图像编码器预处理以获得稍后用于掩模预测的嵌入向量。现有的对抗性攻击针对端到端任务，即旨在改变针对特定图像提示对预测的分割掩码。但是，这需要对同一映像的每个新提示运行单独的攻击。相反，我们建议通过在潜在空间中最大化原始图像和扰动图像之间的嵌入距离来生成不可知的对抗攻击。由于编码过程仅取决于图像，因此失真的图像表示将导致各种提示的分割掩码中的扰动。我们发现，即使是难以察觉的 $\ell_\infty$ 有界扰动的半径 $KaTeX parse error: Undefined control sequence: \bytes at position 1: \̲b̲y̲t̲e̲s̲ ̲=1/255$ 往往足以大幅修改的掩模预测点，框和文本提示最近提出的基础模型分割。此外，我们探讨了创建通用的，即非图像特定的，可以很容易地应用于任何输入，而无需进一步的计算成本的攻击的可能性。

1.5 Segmentation-Based Parametric Painting

基于分割的参数画法

https://arxiv.org/abs/2311.14271

我们介绍了一种新颖的图像到绘画的方法，有利于大规模的，高保真的绘画与人类一样的质量和风格的变化。为了处理大型图像并获得对绘画过程的控制，我们引入了基于分割的绘画过程和受人类绘画策略启发的动态注意力地图方法，允许在不同的图像区域上批量进行笔触优化，从而捕获大规模结构和精细细节，同时还允许对细节进行风格控制。我们优化的批处理和基于补丁的丢失框架可以有效处理大型画布，确保我们的绘制输出与以前的方法相比在美学上引人注目，功能上更优越，这一点已通过严格的评估得到证实。代码可在：https：//github.com/manuelladron/semantic_based_painting.git

1.6 ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation

ZeroPS：面向Zero-Shot三维零件分割的高质量跨模式知识传递

https://arxiv.org/abs/2311.14262

Recently, many 2D pretrained foundational models have demonstrated impressive zero-shot prediction capabilities. In this work, we design a novel pipeline for zero-shot 3D part segmentation, called ZeroPS. It high-quality transfers knowledge from 2D pretrained foundational models to 3D point clouds. The main idea of our approach is to explore the natural relationship between multi-view correspondences and the prompt mechanism of foundational models and build bridges on it. Our pipeline consists of two components: 1) a self-extension component that extends 2D groups from a single viewpoint to spatial global-level 3D groups; 2) a multi-modal labeling component that introduces a two-dimensional checking mechanism to vote each 2D predicted bounding box to the best matching 3D part, and a Class Non-highest Vote Penalty function to refine the Vote Matrix. Additionally, a merging algorithm is included to merge part-level 3D groups. Extensive evaluation of three zero-shot segmentation tasks on PartnetE datasets, achieving state-of-the-art results with significant improvements (+19.6%, +5.2% and +4.9%, respectively) over existing methods. Our proposed approach does not need any training, fine-tuning or learnable parameters. It is hardly affected by domain shift. The code will be released.

1.7 Class Balanced Dynamic Acquisition for Domain Adaptive Semantic Segmentation using Active Learning

基于主动学习的类均衡动态获取领域自适应语义分割

https://arxiv.org/abs/2311.14146

领域自适应主动学习在神经网络的标签有效训练中处于领先地位。对于语义分割，最先进的模型联合使用不确定性和多样性两个标准来选择训练标签，并结合像素级采集策略。然而，我们发现，这种方法目前遭受类不平衡的问题，降低了他们的性能更大的主动学习预算。然后，我们介绍了类平衡动态采集（CBDA），一种新的主动学习方法，可以缓解这个问题，特别是在高预算的制度。更平衡的标签提高了少数类的性能，这反过来又使模型在预算为5%、10%和20%的情况下，分别比之前的基线高出0.6、1.7和2.4 mIoU。此外，对少数民族类的关注导致最低类性能分别提高了0.5，2.9和4.6 IoU。表现最好的模型甚至超过了完全监督的基线，这表明比整个地面事实更平衡的标签可能是有益的。

1.8 GRJointNET: Synergistic Completion and Part Segmentation on 3D Incomplete Point Clouds

GRJointNET：三维不完整点云的协同补全与局部分割

https://arxiv.org/abs/2311.13997

三维点云的分割是自治系统的一项重要任务。然而，分割算法的成功在很大程度上取决于底层点云的质量（分辨率，完整性等）。特别是，不完整的点云可能会降低下游模型的性能。GRNet是一种新的深度学习解决方案，用于完成点云，但它不能进行部分分割。另一方面，我们提出的解决方案，GRJointNet，是一个架构，可以执行联合完成和分割点云作为GRNet的继任者。为这两个任务提取的特征也被彼此利用，以提高整体性能。我们在ShapeNet-Part数据集上评估了我们提出的网络，并将其性能与GRNet进行了比较。我们的研究结果表明，GRJointNet在点完成方面优于GRNet。还应该注意的是，GRNet不能分割，而GRJointNet可以。因此，这项研究1有望提高点云在自主系统3D视觉中的实用性和实用性。

1.9 Low Latency Instance Segmentation by Continuous Clustering for Rotating LiDAR Sensors

基于连续聚类的旋转LiDAR低延迟实例分割

https://arxiv.org/abs/2311.13976

LiDAR点云的低延迟实例分割在现实世界的应用中至关重要，因为它是机器人感知管道中的初始和频繁使用的构建块，其中每个任务都会增加进一步的延迟。特别是在动态环境中，这种总延迟可能导致动态对象的显著位置偏移，如在高速公路场景中所见。为了解决这个问题，我们采用连续聚类的障碍点，以获得一个实例分割的点云。与大多数现有方法不同，这些方法使用LiDAR传感器的完整革命，我们以连续和无缝的方式处理数据流。更具体地说，范围图像的每一列一旦可用就被处理。障碍点实时聚集到现有实例中，并高频率地检查哪些实例已完成并准备发布。另一个优点是，在扫描的开始点和结束点之间没有观察到有问题的不连续性。在这项工作中，我们描述了两层的数据结构和相应的算法连续聚类，这是能够聚类传入的数据在实时。我们解释了一个大的感知视野的重要性。此外，我们描述和评估了重要的架构设计选择，这可能与设计基于深度学习的低延迟实例分割架构有关。我们将在https://github.com/UniBwTAS/continuous_clustering上发布源代码。

1.10 Language-guided Few-shot Semantic Segmentation

语言制导的Few-Shot语义切分

https://arxiv.org/abs/2311.13865

Few-Shot学习是一种很有前途的方法，可以在小的、标记良好的支持集的指导下降低新类别适应的标签成本。但是对于Few-Shot语义分割，支持图像的像素级标注仍然是昂贵的。在本文中，我们提出了一个创新的解决方案，以解决的挑战，Few-Shot语义分割只使用语言信息，即图像级的文本标签。我们的方法涉及一个视觉语言驱动的掩码蒸馏方案，其中包含一个视觉语言预训练（VLP）模型和一个掩码精炼器，从文本提示中生成高质量的伪语义掩码。我们还引入了分布式原型监督方法和互补相关匹配模块，以指导模型挖掘支持和查询图像之间的精确语义关系。在两个基准数据集上的实验表明，该方法为语言引导的Few-Shot语义分割建立了一个新的基准，并取得了与最近的视觉引导方法相竞争的结果。

1.11 GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence

GS-Pose：基于几何和语义对应的类别级物体姿态估计

https://arxiv.org/abs/2311.13777

类别级位姿估计是一项具有挑战性的任务，在计算机视觉和机器人技术中具有许多潜在的应用。最近，基于深度学习的方法取得了很大的进展，但通常受到需要大量姿势标记的真实图像或仔细调整的真实感模拟器的数据集的阻碍。这可以通过仅使用诸如深度图像之类的几何输入来减少域间隙来避免，但是这些方法缺乏语义信息，这在姿态估计问题中可能是至关重要的。为了解决这一冲突，我们建议利用从预先训练的基础模型中获得的几何和语义特征，我们的方法将基础模型的2D特征投影到每个类别的单个对象模型的3D中，然后使用训练好的匹配网络对未见过对象实例的新的单视图观察进行匹配。这需要比现有方法显著更少的数据来训练，因为语义特征对于对象纹理和外观是鲁棒的。我们证明了这一点与丰富的评估，显示出改进的性能比以前的方法所需的数据的一小部分。

1.12 DiverseNet: Decision Diversified Semi-supervised Semantic Segmentation Networks for Remote Sensing Imagery

DiverseNet：决策多样化半监督遥感图像语义分割网络

https://arxiv.org/abs/2311.13716

半监督学习旨在通过在训练期间利用来自大量未标记数据的有用特征来帮助降低手动标记过程的成本。由于大规模遥感图像像素级人工标注成本高昂，半监督学习成为一种合适的解决方案。然而，现有的半监督学习方法大多缺乏有效的扰动方法来提高训练过程中特征的多样性和伪标签的精度。为了填补这一空白，我们提出了DiverseNet架构，该架构通过在训练过程中同时提高精度和多样性来探索多头和多模型半监督学习算法。与最先进的半监督学习方法相比，DiverseNet提出的两种方法，即DiverseHead和DiverseModel，在四个广泛使用的遥感图像数据集中实现了最高的语义分割性能。与此同时，与最先进的方法相比，所提出的DiverseHead架构在参数空间方面相对较轻，同时对于所有测试数据集都达到高性能结果。

1.13 Unsupervised high-throughput segmentation of cells and cell nuclei in quantitative phase images

定量位相图像中细胞和细胞核的无监督高通量分割

https://arxiv.org/abs/2311.14639

在通过使用高通量数字全息显微镜建立用于临床研究的自动单细胞筛选来帮助细胞学诊断的努力中，捕获了数千张图像和数百万个细胞。瓶颈在于自动、快速和无监督的分割技术，该技术不限制可能出现的细胞类型。我们提出了一种无监督的多阶段方法，该方法可以正确分割，不会混淆噪声或反射与细胞，也不会丢失细胞，其中还包括检测相关的内部结构，特别是未染色细胞中的细胞核。在努力使信息合理和可解释的细胞病理学家，我们还介绍了新的细胞质和细胞核的功能，利用固有的测量方案的定量相位信息的细胞学诊断的潜在帮助。我们表明，分割提供了一致的良好的结果，在许多实验中的病人样本在一个合理的每个细胞的分析时间。

1.14 Automated 3D Tumor Segmentation using Temporal Cubic PatchGAN (TCuP-GAN)

基于TCUP-GaN的三维肿瘤自动分割

https://arxiv.org/abs/2311.14148

使用最新的深度学习技术开发强大的通用3D分割框架是各种生物医学领域的活跃话题之一。在这项工作中，我们引入了时间立方PatchGAN（TCuP-GAN），这是一种体积到体积的平移模型，它将生成特征学习框架的概念与卷积长短期记忆网络（LSTM）结合起来，用于3D分割任务。我们展示了TCuP-GAN在2023年脑肿瘤分割（BraTS）挑战中的四个分割挑战（成人胶质瘤，脑膜瘤，儿科肿瘤和撒哈拉以南非洲子集）的数据上的能力，并使用LesionWise Dice相似性和 $95\%$ Hausdorff距离度量量化其性能。我们展示了我们的框架的成功学习，以预测强大的多类分割掩模在所有的挑战。这项基准测试工作是未来努力将TCuP-GAN应用于其他多类任务的垫脚石，例如电子显微镜成像中的多细胞器分割。

1.15 Assessment of Deep Learning Segmentation for Real-Time Free-Breathing Cardiac Magnetic Resonance Imaging

深度学习分割在实时自由呼吸心脏磁共振成像中的应用评价

https://arxiv.org/abs/2311.14049

近年来，已经开发和分析了各种用于心脏MRI（CMR）分割的深度学习网络。然而，几乎所有的研究都集中在屏气条件下的电影CMR。在这项工作中，深度学习方法的准确性被评估为在静息和运动应激下的实时自由呼吸CMR中左心室的体积分析（通过分割）。回顾性分析了健康志愿者（n=15）的电影和实时自由呼吸CMR数据。将商业软件（comDL）和免费提供的神经网络（nnU-Net）的分割与通过手动校正comDL分割创建的参考进行比较。对左心室内膜（LV）、左心室心肌（MYO）和右心室（RV）的分割在收缩末期和舒张末期进行评估，并使用Dice系数（DC）进行分析。容积分析包括LV舒张末期容积（EDV）、LV收缩末期容积（ESV）和LV射血分数（EF）。对于电影CMR，nnU-Net和comDL实现了LV的DC高于0.95，MYO和RV的DC高于0.9。对于实时CMR，nnU-Net的准确性总体上超过了comDL。对于静息时的实时CMR，nnU-Net的LV、MYO和RV的DC分别为0.94、0.89和0.90; nnU-Net和参考之间的平均绝对差分别为EDV 2.9 mL、ESV 3.5 mL和EF 2.6%。对于运动负荷下的实时CMR，nnU-Net的LV、MYO和RV的DC分别为0.92、0.85和0.83; nnU-Net和参考之间的平均绝对差分别为EDV 11.4 mL、ESV 2.9 mL和EF 3.6%。为电影CMR分割设计或训练的深度学习方法可以在实时CMR上表现良好。对于静息时的实时自由呼吸CMR，深度学习方法的性能与电影CMR中的观察者间变异性相当，并且是可用的或全自动的分割。

1.16 Deep Interactive Segmentation of Medical Images: A Systematic Review and Taxonomy

医学图像深度交互分割：系统综述与分类

https://arxiv.org/abs/2311.13964

交互式分割是医学图像分析中的一个重要研究领域，旨在通过结合人类反馈来提高昂贵注释的效率。这种反馈采用点击、涂写或掩码的形式，并允许对模型输出进行迭代细化，以便有效地引导系统实现所需的行为。近年来，基于深度学习的方法将结果推向了一个新的水平，导致该领域的快速增长，仅在医学成像领域就提出了121种方法。在这篇综述中，我们提供了一个结构化的概述，这一新兴领域具有全面的分类，现有方法的系统回顾，并深入分析当前的做法。基于这些贡献，我们讨论了该领域的挑战和机遇。例如，我们发现，各种方法之间严重缺乏比较，需要通过标准化基线和基准加以解决。

1.17 Deep learning-based instance segmentation for the precise automated quantification of digital breast cancer immunohistochemistry images

基于深度学习的实例分割用于数字乳腺癌免疫组织化学图像的精确自动量化

https://arxiv.org/abs/2311.13719

免疫组化乳腺癌图像上生物标志物的定量对于确定乳腺癌患者的适当治疗以及提取疾病预后的相关信息至关重要。这是一项艰巨而耗时的任务，可能会由于观察者内和观察者间的差异而在结果中引入偏倚，这可以通过使用自动量化工具来缓解。然而，鉴于乳腺肿瘤的异质性，这不是一个简单的处理任务，导致非均匀分布的肿瘤细胞表现出不同的染色颜色和强度，大小，形状和质地，细胞核，细胞质和膜。在这项研究工作中，我们证明了使用基于深度学习的实例分割架构来自动量化应用于IHC染色切片的核和膜生物标志物的可行性。我们已经解决了繁琐的任务，训练集生成与网络平台的设计和实施，它已作为研究人员和病理学家之间的沟通和反馈的枢纽，以及系统的自动图像处理模型的验证。通过该工具，我们收集了HE、ER和Ki-67（核生物标志物）以及HER 2（膜生物标志物）IHC染色图像样本的注释。使用相同的深度学习网络架构，我们已经训练了两个模型，即所谓的核和膜感知分割模型，一旦成功验证，就可以发现这是一种很有前途的方法来分割IHC染色图像中的核实例。在这项工作中提出的量化方法已被集成到开发的网络平台，目前正在使用的病理学家作为决策支持工具。