【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（10 月 2 日论文合集）

最新推荐文章于 2024-07-12 11:37:47 发布

旅途中的宽~

最新推荐文章于 2024-07-12 11:37:47 发布

阅读量217

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能深度学习图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/133782826

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 135 订阅

订阅专栏

文章目录

一、分割|语义相关(10篇)

一、分割|语义相关(10篇)

1.1 A Foundation Model for General Moving Object Segmentation in Medical Images

一种医学图像中通用运动目标分割的基础模型

https://arxiv.org/abs/2309.17264

医学图像分割的目的是描绘出感兴趣的解剖或病理结构，在临床诊断中起着至关重要的作用。大量高质量的注释数据对于构建高精度深度分割模型至关重要。然而，医学标注是非常繁琐和耗时的，特别是对于医学视频或3D体积，由于巨大的标记空间和帧间一致性差。最近，一个基本的任务命名为移动对象分割（MOS）取得了显着的进步，在自然图像。它的目标是从图像序列中的背景中描绘出运动的物体，只需要最少的注释。在本文中，我们提出了第一个基础模型，命名为iMOS，MOS在医学图像。在一个大型多模态医学数据集上的大量实验验证了所提出的iMOS的有效性。具体地，在序列中仅对少量图像进行注释的情况下，iMOS可以在整个序列中在双向上实现对移动对象的令人满意的跟踪和分割性能。我们希望所提出的iMOS可以帮助加快专家的注释速度，并促进医学基础模型的发展。

1.2 Towards Complex-query Referring Image Segmentation: A Novel Benchmark

面向复杂查询的参考图像分割：一种新的基准

https://arxiv.org/abs/2309.17205

参考图像理解（RIS）在过去的十年中得到了广泛的研究，导致了高级算法的发展。然而，一直缺乏研究调查现有的算法应该如何与复杂的语言查询进行基准测试，其中包括对周围物体和背景的更多信息描述（例如“黑色汽车”）。“} vs. \textit{“那辆黑色的车停在路上，停在公共汽车旁边。“}）.鉴于大型预训练模型的语义理解能力有了显着提高，因此在RIS中通过引入类似于现实世界应用程序的复杂语言来进一步发展至关重要。为了缩小这一差距，在现有RefCOCO和Visual Genome数据集的基础上，我们提出了一个新的具有复杂查询的RIS基准，即\textbf{RIS-CQ}。RIS-CQ数据集具有高质量和大规模的特点，它以丰富，具体和信息丰富的查询挑战现有的RIS，并使RIS研究的场景更加逼真。此外，我们还提出了一种更好地执行RIS-CQ任务的利基定位方法，称为双模态图对齐模型（\textbf{\textsc{DuMoGa}}），它优于一系列RIS方法。

1.3 Advances in Kidney Biopsy Structural Assessment through Dense Instance Segmentation

密集实例分割在肾活检结构评价中的研究进展

https://arxiv.org/abs/2309.17166

肾活检是诊断肾脏疾病的金标准。由专家肾脏病理学家进行的病变评分是半定量的，并且具有高的观察者间变异性。因此，自动获得每个分割的解剖对象的统计数据可以在减少劳动和这种观察者间的变化性方面带来显著的益处。然而，活检的实例分割一直是一个具有挑战性的问题，这是由于（a）平均大量（大约300到1000）密集接触的解剖结构，（b）具有多个类别（至少3个），以及（c）具有不同的尺寸和形状。目前使用的实例分割模型不能同时处理这些挑战，在一个有效的，但通用的方式。在本文中，我们提出了第一个无锚实例分割模型，该模型结合了扩散模型，Transformer模块和RCNN（区域卷积神经网络）。我们的模型仅在一个NVIDIA GeForce RTX 3090 GPU上训练，但可以有效地识别肾活检中3种常见解剖对象类别的500多个对象，即肾小球、小管和动脉。我们的数据集包括从148张Jones银染肾全载玻片图像（WSIs）中提取的303个补丁，其中249个补丁用于训练，54个补丁用于评估。此外，无需调整或再训练，该模型可以直接转移其域，以从PAS染色的WSI生成像样的实例分割结果。重要的是，它优于其他基线模型，并在检测中达到AP 51.7%，作为最新的最先进技术。

1.4 APNet: Urban-level Scene Segmentation of Aerial Images and Point Clouds

APNet：航拍图像和点云的城市级场景分割

https://arxiv.org/abs/2309.17162

本文主要研究城市场景点云的语义分割方法。我们的基本概念围绕着不同的场景表示的协作利用，从不同的上下文信息和网络架构中受益。为此，被称为APNet的拟议网络架构分为两个分支：点云分支和从点云生成输入的空间图像分支。为了利用每个分支的不同属性，我们采用了一个几何感知的融合模块，该模块被学习来结合每个分支的结果。每个分支的额外单独损失避免了一个分支支配结果，确保每个分支单独的最佳性能，并明确定义了融合网络的输入域，确保其仅执行数据融合。我们的实验表明，融合输出始终优于单个网络分支，并且APNet在SensatUrban数据集上实现了65.2 mIoU的最新性能。接受后，源代码将开放。

1.5 SegRCDB: Semantic Segmentation via Formula-Driven Supervised Learning

SegRCDB：基于公式驱动的监督学习的语义分割

https://arxiv.org/abs/2309.17083

预训练是一种强大的策略，用于增强视觉模型，以使用有限数量的标记图像有效地训练它们。在语义分割中，创建注释掩码需要大量的劳动力和时间，因此，构建具有语义标签的大规模预训练数据集非常困难。此外，语义分割预训练中的问题尚未得到充分研究。在本文中，我们提出了分割径向轮廓数据库（SegRCDB），这是第一次应用公式驱动的监督学习语义分割。SegRCDB支持语义分割的预训练，无需真实图像或任何手动语义标签。SegRCDB基于对语义分割预训练中重要内容的见解，并允许高效的预训练。使用SegRCDB的预训练比使用COCO-Stuff的预训练实现了更高的mIoU，用于在具有相同数量的训练图像的情况下对ADE-20 k和Cityscapes进行微调。SegRCDB具有很高的潜力，可以通过创建大型数据集而无需手动注释来促进语义分割预训练和调查。SegRCDB数据集将在允许研究和商业使用的许可下发布。代码可从以下网址获得：https://github.com/dahlian00/SegRCDB

1.6 COMNet: Co-Occurrent Matching for Weakly Supervised Semantic Segmentation

COMNET：弱监督语义分割的并发匹配算法

https://arxiv.org/abs/2309.16959

图像级弱监督语义分割是一个具有挑战性的课题，近年来得到了深入的研究。大多数常见的解决方案利用类激活图（CAM）来定位对象区域。然而，由分类网络生成的这种响应图通常集中于有区别的对象部分。在本文中，我们提出了一种新的共现匹配网络（COMNet），它可以提高质量的CAM和强制网络关注的对象的整个部分。具体来说，我们执行配对的图像，包含共同的类，以提高相应的地区，并构建一个单一的图像上的内部匹配传播的对象区域的语义特征。在Pascal VOC 2012和MS-COCO数据集上的实验表明，我们的网络可以有效地提高基线模型的性能，并实现新的最先进的性能。

1.7 Investigating Shift Equivalence of Convolutional Neural Networks in Industrial Defect Segmentation

卷积神经网络在工业缺陷分割中的移位等价性研究

https://arxiv.org/abs/2309.16902

在工业缺陷分割任务中，虽然像素准确度和交集大于并集（IoU）是常用的评估分割性能的指标，但模型的输出一致性（也称为等效性）经常被忽视。即使输入图像中很小的偏移也会在分割结果中产生显著的波动。现有的方法主要集中在数据增强或抗锯齿，以提高网络的鲁棒性对平移变换，但他们的移位等价执行差的测试集或易受非线性激活函数。另外，由输入图像的平移引起的边界的变化被一致地忽略，从而对移位等价施加进一步的限制。为了应对这一特殊挑战，提出了一种称为分量注意多相采样（CAPS）的新型下采样/上采样层对，作为CNN中传统采样层的替代。为了减轻图像边界变化对等价性的影响，在CAPS中设计了自适应窗口模块，以自适应地过滤掉图像的边界像素。此外，提出了一个组件注意模块，融合所有下采样的功能，以提高分割性能。在微表面缺陷（MSD）数据集和四个真实工业缺陷数据集上的实验结果表明，与其他最先进的方法相比，该方法具有更高的等价性和分割性能。https://github.com/xiaozhen228/CAPS

1.8 SatDM: Synthesizing Realistic Satellite Image with Semantic Layout Conditioning using Diffusion Models

SatDM：利用扩散模型合成具有语义布局条件的真实卫星图像

https://arxiv.org/abs/2309.16812

地球观测领域的深度学习模型严重依赖于大规模准确标记的卫星图像的可用性。然而，获取和标记卫星图像是一项资源密集型工作。虽然生成模型为解决数据稀缺问题提供了一个很有前途的解决方案，但其潜力仍未得到充分挖掘。最近，去噪扩散概率模型（DDPMs）已经表现出显着的承诺，在合成逼真的图像从语义布局。在本文中，有条件的DDPM模型能够采取语义地图，并产生高质量的，多样的，并相应地准确的卫星图像的实现。此外，提供了优化动态的全面说明。所提出的方法集成了先进的技术，如方差学习，无分类器的指导，和改进的噪声调度。去噪网络架构进一步补充了自适应归一化和自我注意机制，增强了模型的能力。我们提出的模型的有效性进行了验证，使用精心标记的数据集介绍本研究的背景下。验证包括两种算法方法，如Frechet Inception Distance（FID）和Intersection over Union（IoU），以及人类意见研究。我们的研究结果表明，所生成的样本表现出最小的偏离真实的，打开大门的实际应用，如数据增强。我们期待着在更广泛的环境和数据模式中进一步探索DDPM。在https://github.com/obaghirli/syn10-diffusion上提供了该算法的开源参考实现和基准数据集的链接。

1.9 General Lipschitz: Certified Robustness Against Resolvable Semantic Transformations via Transformation-Dependent Randomized Smoothing

General Lipschitz：通过依赖于变换的随机平滑验证对可解析语义变换的健壮性

https://arxiv.org/abs/2309.16710

随机平滑是最先进的方法来构建图像分类器，可证明对有界幅度的加性对抗性扰动具有鲁棒性。但是，构造针对语义转换的合理证书（例如，图像模糊、平移、伽马校正）及其组合。在这项工作中，我们提出了一个新的框架来证明神经网络对可组合的可解析语义扰动。在该框架内，我们分析变换相关的Lipschitz连续性的平滑分类器w.r.t.变换参数并导出相应的鲁棒性证书。我们的方法在ImageNet数据集上的表现与最先进的方法相当。

1.10 Benefits of mirror weight symmetry for 3D mesh segmentation in biomedical applications

镜像权对称在生物医学应用中用于三维网格分割的优点

https://arxiv.org/abs/2309.17076

三维网格分割是许多生物医学应用的重要任务。人体具有双侧对称性和器官位置的一些变化。它使我们能够期望在执行生物医学分割的卷积神经网络中旋转和反转不变层的积极影响。在这项研究中，我们展示了权重对称性在执行3D网格分割的神经网络中的影响。我们分析了病理血管结构（动脉瘤）和常规解剖结构（心内膜和心室心外膜）的三维网格分割问题。局部几何特征被编码为从符号距离函数采样，并且神经网络对每个网格节点执行预测。我们发现，如果神经网络至少有三个卷积层，则权重对称性可以获得1%到3%的额外精度，并且可以将可训练参数的数量减少多达8倍，而不会遭受性能损失。这也适用于非常小的训练集。