【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 21 日论文合集）

最新推荐文章于 2025-01-09 17:05:11 发布

旅途中的宽~

最新推荐文章于 2025-01-09 17:05:11 发布

阅读量777

点赞数 1

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/131885236

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、分割|语义相关(14篇)

一、分割|语义相关(14篇)

1.1 CNOS: A Strong Baseline for CAD-based Novel Object Segmentation

CNOS：基于CAD的新型目标分割的强基线

https://arxiv.org/abs/2307.11067

在这里插入图片描述
我们提出了一个简单的三阶段的方法来分割看不见的物体在RGB图像中使用其CAD模型。利用最近强大的基础模型DINOv2和Segment Anything，我们创建描述符并生成建议，包括给定输入RGB图像的二进制掩码。通过匹配的建议与参考描述符创建的CAD模型，我们实现了精确的对象ID分配以及模态掩码。我们的实验表明，我们的方法实现了最先进的结果，在CAD为基础的新的对象分割，超过现有的方法在七个核心数据集的BOP挑战19.8% AP使用相同的BOP评估协议。我们的源代码可在https://github.com/nv-nguyen/cnos获得。

1.2 Spinal nerve segmentation method and dataset construction in endoscopic surgical scenarios

内窥镜手术场景中的脊神经分割方法及数据集构建

https://arxiv.org/abs/2307.10955

在这里插入图片描述
内窥镜手术目前是脊柱外科领域中的重要治疗方法，并且通过视频引导避免对脊神经的损伤是一个关键挑战。本文提出了第一个实时分割的方法，在内窥镜手术的脊神经，这为外科医生提供了至关重要的导航信息。在手术过程中记录的约10，000个连续帧的精细注释的分割数据集首次为该领域构建，解决了语义分割的问题。基于此数据集，我们提出了FUnet（Frame-Unet），它通过利用帧间信息和自注意机制实现了最先进的性能。我们还进行了扩展的实验，类似的息肉内窥镜视频数据集，并表明该模型具有良好的泛化能力与优势的性能。这项工作的数据集和代码如下：https://github.com/zzzzzzpc/FUnet。

1.3 WeakPolyp: You Only Look Bounding Box for Polyp Segmentation

WeakPolyp：您只需查看用于息肉分割的边界框

https://arxiv.org/abs/2307.10912

在这里插入图片描述
受限于昂贵的像素级标签，息肉分割模型受到数据短缺的困扰并且遭受受损的泛化。相比之下，息肉边界框注释要便宜得多，也更容易访问。因此，为了降低标记成本，我们提出学习弱监督息肉分割模型（即，WeakPolyp）完全基于边界框注释。然而，粗略的边界框包含太多的噪声。为了避免干扰，我们引入掩模到盒（M2B）变换。通过监督预测的外部框掩码而不是预测本身，M2B极大地减轻了粗略标签与精确预测之间的失配。但是，M2B仅提供稀疏监督，导致非唯一预测。因此，我们进一步提出了密集监督的规模一致性（SC）损失。通过在不同尺度下跨同一图像明确地对齐预测，SC损失大大减少了预测的变化。请注意，我们的WeakPolyp是一个即插即用的模型，它可以很容易地移植到其他有吸引力的主干上。此外，所提出的模块仅在训练期间使用，不会给推理带来计算开销。大量的实验证明了我们提出的WeakPolyp的有效性，它令人惊讶地实现了与完全监督模型相当的性能，根本不需要掩码注释。

1.4 Divide & Bind Your Attention for Improved Generative Semantic Nursing

将注意力分散和捆绑在一起，以改善生成性语义护理

https://arxiv.org/abs/2307.10864

在这里插入图片描述
新兴的大规模文本到图像生成模型，例如，稳定扩散（SD）已经以高保真度展示了压倒性的结果。尽管取得了巨大的进步，但当前最先进的模型仍然难以生成完全符合输入提示的图像。先前的工作Attend & Excite引入了生成语义护理（GSN）的概念，旨在优化推理时间期间的交叉注意力，以更好地结合语义。它在生成简单提示方面展示了有希望的结果，例如，“一只猫和一只狗”。然而，当处理更复杂的提示时，它的功效下降，并且它没有明确地解决不正确的属性绑定的问题。为了解决复杂提示或涉及多个实体的场景所带来的挑战，并实现改进的属性绑定，我们提出了分割和绑定。我们为GSN引入两个新的损耗目标：新的出勤损失和绑定损失。我们的方法脱颖而出，在其能力，忠实地合成所需的对象，从复杂的提示改进属性对齐，并在多个评估基准表现出卓越的性能。更多视频和更新可以在项目页面\url{https：//sites.google.com/view/divide-and-bind}找到。

1.5 Label Calibration for Semantic Segmentation Under Domain Shift

领域漂移下的语义分割中的标签校正

https://arxiv.org/abs/2307.10842

在这里插入图片描述
预训练的语义分割模型的性能可能会在来自新领域的数据上大幅降低。我们表明，通过在域偏移下计算软标签原型，并根据最接近具有预测类概率的向量的原型进行预测，预训练模型可以适应未标记的目标域数据。建议的适应过程是快速的，几乎是免费的计算资源，并导致相当大的性能改善。我们展示了这种标签校准的好处，高度实用的合成到真正的语义分割问题。

1.6 Gradient-Semantic Compensation for Incremental Semantic Segmentation

基于梯度语义补偿的增量式语义分割

https://arxiv.org/abs/2307.10822

在这里插入图片描述
增量语义分割的目的是不断学习新的类别的分割，而不访问先前学习的类别的训练数据。然而，大多数现有的方法未能解决灾难性遗忘和背景偏移，因为它们1）平等地对待所有先前的类，而不考虑由不平衡梯度反向传播引起的不同遗忘步距; 2）类之间缺乏强有力的语义指导。为了解决上述挑战，在本文中，我们提出了梯度语义补偿（GSC）模型，它超越了增量语义分割从梯度和语义的角度。具体来说，为了解决灾难性遗忘从梯度方面，我们开发了一个步骤感知梯度补偿，可以平衡遗忘的步伐以前看到的类通过重新加权梯度反向传播。同时，我们提出了一种软尖锐语义关系蒸馏，通过软标签提取一致的类间语义关系，以减轻灾难性遗忘的语义方面。此外，我们开发了一个原型的伪重标签，提供强大的语义指导，以减轻背景转移。它通过测量像素和类原型之间的距离，为背景中的旧类生成高质量的伪标签。在三个公共数据集上进行了广泛的实验，即Pascal VOC 2012、ADE 20 K和Cityscapes证明了我们提出的GSC模型的有效性。

1.7 See More and Know More: Zero-shot Point Cloud Segmentation via Multi-modal Visual Data

看得更多、知道得更多：基于多模式视觉数据的零炮点云分割

https://arxiv.org/abs/2307.10782

在这里插入图片描述
Zero-shot点云分割旨在使深度模型能够识别在训练阶段不可见的点云中的新对象。最近的趋势有利于将知识从看到的类与标签转移到看不见的类没有标签的管道。它们通常将视觉特征与从单词嵌入中获得的语义特征对齐，通过监督所看到的类的注释。然而，点云包含的信息有限，无法与语义特征完全匹配。事实上，图像丰富的外观信息是对无纹理点云的天然补充，这在以往文献中没有得到很好的探索。基于此，我们提出了一种新的多模态zero-shot学习方法，以更好地利用点云和图像的互补信息，更准确地进行视觉语义对齐。在两个流行的基准测试中进行了大量的实验，即，SemanticKITTI和nuScenes，和我们的方法优于当前的SOTA方法，平均改善了52%和49%的未见类mIoU。

1.8 EdgeAL: An Edge Estimation Based Active Learning Approach for OCT Segmentation

EdgeAL：一种基于边缘估计的OCT分割主动学习方法

https://arxiv.org/abs/2307.10745

在这里插入图片描述
主动学习算法对于具有有限数据的训练模型已经变得越来越流行。然而，选择用于注释的数据仍然是一个具有挑战性的问题，因为在未见数据上可用的信息有限。为了解决这个问题，我们提出了EdgeAL，它利用未见图像的边缘信息作为测量不确定性的{\it a previous}信息。通过分析模型预测中的散度和熵来量化不确定性。然后使用该度量来选择用于注释的超像素。我们证明了EdgeAL在多类光学相干断层扫描（OCT）分割任务的有效性，其中我们实现了99%的骰子得分，同时将注释标签成本降低到12%，2.3%和3%，分别在三个公开可用的数据集（杜克，AROI和UMN）。源代码可在\url{https：//github.com/Mak-Ta-Reque/EdgeAL}获得

1.9 TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars

TwinLiteNet：一种高效轻量级的自动驾驶汽车可行驶区域和车道分割模型

https://arxiv.org/abs/2307.10705

在这里插入图片描述
语义分割是自动驾驶中理解周围环境的常见任务。可行驶区域分割和车道检测对于道路上的安全和高效导航尤为重要。然而，原始的语义分割模型在计算上是昂贵的，并且需要高端硬件，这对于自动驾驶车辆中的嵌入式系统是不可行的。本文提出了一个轻量级的模型，可行驶区域和车道线分割。TwinLiteNet的设计成本低廉，但可以实现准确高效的分割结果。我们在BDD 100 K数据集上评估了TwinLiteNet，并将其与现代模型进行了比较。实验结果表明，我们的TwinLiteNet执行类似于现有的方法，需要显着更少的计算资源。具体来说，TwinLiteNet在可行驶区域任务中实现了91.3%的mIoU得分，在车道检测任务中实现了31.08%的IoU得分，仅使用了40万个参数，并在GPU RTX A5000上实现了415 FPS。此外，TwinLiteNet可以在计算能力有限的嵌入式设备上实时运行，特别是因为它在Jetson Xavier NX上实现了60 FPS，使其成为自动驾驶汽车的理想解决方案。代码可用：url{https：//github.com/chequanghuy/TwinLiteNet}.

1.10 Interactive Segmentation for Diverse Gesture Types Without Context

针对不同手势类型的无上下文交互分割

https://arxiv.org/abs/2307.10518

在这里插入图片描述
交互式分割需要人类标记图像以指导模型如何创建或编辑分割。我们的工作解决了现有方法的局限性：它们或者仅支持用于标记图像的一种手势类型（例如，点击或涂写），或者需要知道所采用的手势类型，并且需要指定在最终分割中是否应该包括标记区域还是排除标记区域。相反，我们提出了一个简化的交互式分割任务，其中用户只必须标记图像，其中输入可以是任何手势类型，而不指定手势类型。我们通过引入具有多种手势类型的第一交互式分割数据集以及能够全面评估交互式分割算法的新评估指标来支持这一新任务。然后，我们分析了许多交互式分割算法，包括适应我们的新任务。虽然我们观察到整体表现有希望，但我们也强调了未来需要改进的领域。为了促进这项工作的进一步扩展，我们在https://github.com/joshmyersdean/dig公开分享了我们的新数据集。

1.11 CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud Semantic Segmentation

CPCM：弱监督点云语义分割的上下文点云建模

https://arxiv.org/abs/2307.10316

在这里插入图片描述
我们研究了具有稀疏注释的弱监督点云语义分割的任务（例如，少于0.1%的点被标记），旨在降低密集注释的昂贵成本。不幸的是，非常稀疏的注释点，这是非常困难的提取上下文和对象信息的场景理解，如语义分割。受掩蔽建模的启发（例如，MAE）在图像和视频表示学习中，我们试图赋予掩码建模的能力，以从稀疏注释的点中学习上下文信息。然而，直接将MAE应用于具有稀疏注释的3D点云可能无法工作。首先，有效地从3D点云中屏蔽出信息丰富的视觉上下文是不平凡的。其次，如何充分利用稀疏的注释上下文建模仍然是一个悬而未决的问题。在本文中，我们提出了一种简单而有效的上下文点云建模（CPCM）方法，该方法由两部分组成：区域式掩蔽（RegionMask）策略和上下文掩蔽训练（CMT）方法。具体地，RegionMask在几何空间中连续地掩蔽点云，以构造用于后续上下文学习的有意义的掩蔽预测任务。CMT将监督分割和无监督掩蔽上下文预测的学习分开，分别用于有效地学习非常有限的标记点和大量未标记点。在广泛测试的ScanNet V2和S3DIS基准上进行的大量实验证明了CPCM优于最先进的技术。

1.12 On the Real-Time Semantic Segmentation of Aphid Clusters in the Wild

野外蚜虫群的实时语义切分研究

https://arxiv.org/abs/2307.10267

在这里插入图片描述
蚜虫侵扰可对小麦和高粱田造成广泛损害并传播植物病毒，导致农业产量显著损失。为了解决这个问题，农民通常依赖于化学农药，这些农药在大面积的田地上施用效率低下。结果，相当数量的杀虫剂被浪费在没有害虫的地区，而施用到害虫严重的地区的量不足。本文重点关注对智能自主系统的迫切需求，该系统可以在复杂的作物冠层内定位和喷洒虫害，减少农药使用和环境影响。我们已经收集并标记了一个大的蚜虫图像数据集在该领域，并提出了使用实时语义分割模型来分割蚜虫集群。生成多尺度数据集以允许学习不同尺度的聚类。我们比较了四种最先进的实时语义分割模型在蚜虫集群数据集上的分割速度和准确性，并将其与非实时模型进行了比较。研究结果表明了实时解决方案的有效性，可以减少低效的农药使用并提高作物产量，为自主害虫检测系统铺平了道路。

1.13 Confidence intervals for performance estimates in 3D medical image segmentation

三维医学图像分割中性能估计的置信度

https://arxiv.org/abs/2307.10926

在这里插入图片描述
医学分割模型的经验评估。由于这样的评估是基于有限的一组示例图像，因此不可避免地有噪声。因此，除了平均性能指标之外，报告置信区间也至关重要。然而，在医学图像分割中很少这样做。置信区间的宽度取决于测试集的大小和性能度量的分布（其在测试集上的标准差）。对于分类，需要许多测试图像以避免宽置信区间。然而，分割还没有被研究，它的不同之处在于给定的测试图像所带来的信息量。本文研究了医学图像分割中的典型置信区间。我们使用标准的nnU-net框架，来自医学十项全能挑战的两个数据集和两个性能指标进行3D图像分割实验：Dice精度和Hausdorff距离。我们表明，参数的置信区间是合理的近似的bootstrap估计不同的测试集大小和传播的性能指标。重要的是，我们表明，需要达到一个给定的精度的测试大小往往比分类任务低得多。通常情况下，1%宽的置信区间需要约100-200个测试样本时，蔓延是低的（标准偏差约3%）。更困难的分割任务可能会导致更高的传播，并需要超过1000个样本。

1.14 Towards Automated Semantic Segmentation in Mammography Images

乳房摄影图像的自动语义分割研究

https://arxiv.org/abs/2307.10296

在这里插入图片描述
乳腺X线摄影图像被广泛用于检测不可触及的乳腺病变或结节，预防癌症并在必要时提供计划干预的机会。一些感兴趣的结构的识别是必不可少的诊断和评估图像的充分性。因此，计算机辅助检测系统可以通过自动分割这些标志结构来帮助医学解释。在本文中，我们提出了一个基于深度学习的框架，用于分割标准视图乳腺X射线摄影图像上的乳头、胸肌、纤维腺体组织和脂肪组织。我们引入了一个大型的私有分割数据集，并考虑了不同的深度学习模型架构进行了广泛的实验。我们的实验表明，准确的分割性能的变量和具有挑战性的情况下，表明该框架可以集成到临床实践中。