【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 6 日论文合集）

最新推荐文章于 2025-03-29 17:29:37 发布

旅途中的宽~

最新推荐文章于 2025-03-29 17:29:37 发布

阅读量1.2k

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/wzk4869/article/details/131603571

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、分割|语义相关(15篇)

一、分割|语义相关(15篇)

1.1 Prompting Diffusion Representations for Cross-Domain Semantic Segmentation

面向跨域语义分割的提示扩散表示法

https://arxiv.org/abs/2307.02138

在这里插入图片描述
虽然最初设计用于图像生成，扩散模型最近已证明提供了优秀的预训练的特征表示语义分割。这一结果引起了兴趣，我们开始探索扩散预训练表示如何推广到新的领域，这是任何表示的关键能力。我们发现，扩散预训练实现了非凡的领域泛化结果语义分割，优于监督和自我监督骨干网络。基于此，我们研究如何利用模型的独特能力，采取输入提示，以进一步提高其跨域性能。我们引入了一个场景提示和一个提示随机化策略，以帮助进一步理清域不变的信息时，训练分割头。此外，我们提出了一个简单但高效的测试时域适应方法，基于学习场景提示的目标域上的无监督的方式。对四个合成到真实和明确到不利天气基准进行了广泛的实验，证明了我们的方法的有效性。在不采用任何复杂技术的情况下，例如图像翻译，增强或稀有类采样，我们在所有基准上设置了一个新的最先进的技术。我们的实现将在\url{https：//github.com/ETHRuiGong/PTDiffSeg}公开获得。

1.2 ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation

ZJU ReLER提交史诗厨房挑战2023：半监督视频对象分割

https://arxiv.org/abs/2307.02010

在这里插入图片描述
将对象与Transformers相关联（AOT）框架在视频对象分割的各种复杂场景中表现出出色的性能。在这项研究中，我们介绍MSDeAOT，AOT系列的一个变种，采用Transformers在多个功能尺度。利用分层门控传播模块（GPM），MSDeAOT使用步长为16的特征尺度有效地将对象掩码从先前帧传播到当前帧。此外，我们采用GPM在一个更精细的特征尺度与步幅为8，从而提高了检测和跟踪小物体的准确性。通过测试时间增强和模型集成技术的实施，我们实现了在EPIC-KITCHEN VISOR半监督视频对象分割挑战赛中排名第一。

1.3 Multi-Modal Prototypes for Open-Set Semantic Segmentation

开集语义切分的多模式原型

https://arxiv.org/abs/2307.02003

在这里插入图片描述
在语义分割中，在推理时使视觉系统适应新的对象类别一直是既有价值又具有挑战性的。为了实现这样的泛化，现有的方法依赖于提供几个支持示例作为视觉线索或类名作为文本线索。通过发展相对乐观，这两条线一直被孤立地研究，忽视了低层次视觉信息和高层次语言信息的内在互补性。在本文中，我们定义了一个统一的设置称为开放集语义分割（O3 S），其目的是学习可见和不可见的语义从视觉的例子和文本名称。我们的管道提取多模态原型分割任务，首先单模态自我增强和聚合，然后多模态互补融合。具体来说，我们将视觉特征聚合到几个标记中作为视觉原型，并通过详细描述来增强类名以生成文本原型。然后将这两种模态融合以生成用于最终分割的多模态原型。在pascal和coco数据集上，我们进行了大量的实验来评估框架的有效性。即使在更详细的部分分割Pascal-Animals上，也可以通过仅在粗粒度数据集上进行训练来实现最先进的结果。进行彻底的消融研究以定量和定性地解剖每个组件。

1.4 The KiTS21 Challenge: Automatic segmentation of kidneys, renal tumors, and renal cysts in corticomedullary-phase CT

KiTS21挑战：皮髓期CT对肾脏、肾肿瘤和肾囊肿的自动分割

https://arxiv.org/abs/2307.01984

在这里插入图片描述
本文介绍了2021年肾脏和肾脏肿瘤分割挑战赛（KiTS21）的挑战报告，该挑战赛与2021年医学图像计算和计算机辅助干预国际会议（MICCAI）联合举行。KiTS21是2019年第一版的续集，除了更大的数据集外，它还在挑战的设计方面进行了各种创新。一种新的注释方法被用来收集三个单独的注释为每个感兴趣的区域，这些注释是在一个完全透明的设置使用基于Web的注释工具。此外，KiTS21测试集是从外部机构收集的，挑战参与者开发能够很好地推广到新人群的方法。尽管如此，表现最好的团队在2019年的最先进水平上取得了显著的进步，而且这种表现显示出越来越接近人类水平的表现。一个深入的荟萃分析，描述了哪些方法被使用，以及他们如何在排行榜上，以及哪些情况下的特点，一般看到良好的性能，哪些没有。总体而言，KiTS21促进了肾脏肿瘤分割的现有技术的显著进步，并提供了适用于语义分割作为一个整体的领域的有用见解。

1.5 Advancing Wound Filling Extraction on 3D Faces: A Auto-Segmentation and Wound Face Regeneration Approach

改进的三维人脸伤口填充提取：一种自动分割和创面再生方法

https://arxiv.org/abs/2307.01844

在这里插入图片描述
面部伤口分割在各种医疗应用中的术前规划和优化患者结果中起着至关重要的作用。在本文中，我们提出了一种有效的方法自动化三维面部伤口分割使用双流图卷积网络。我们的方法利用了Cir 3D-FaIR数据集，并通过不同损失函数的广泛实验来解决数据不平衡的挑战。为了实现准确的分割，我们进行了彻底的实验，并从训练的模型中选择了一个高性能的模型。所选模型表现出特殊的分割性能复杂的3D面部伤口。此外，基于分割模型，我们提出了一种改进的方法提取三维面部伤口填充物，并与先前的研究结果进行了比较。我们的方法取得了显着的准确性为0.9999986%的测试套件，超过了以前的方法的性能。根据这个结果，我们使用3D打印技术来说明伤口填充物的形状。这项研究的结果对参与术前计划和干预设计的医生有重要的意义。通过自动化面部伤口分割和提高伤口填充提取的准确性，我们的方法可以帮助仔细评估和优化干预措施，从而提高患者的治疗效果。此外，它通过利用机器学习和3D生物打印来打印皮肤组织植入物，有助于推进面部重建技术。我们的源代码可以在\url{https：//github.com/SIMOGroup/WoundFilling3D}上找到。

1.6 Synchronous Image-Label Diffusion Probability Model with Application to Stroke Lesion Segmentation on Non-contrast CT

图像-标签同步扩散概率模型及其在非增强CT卒中病变分割中的应用

https://arxiv.org/abs/2307.01740

在这里插入图片描述
卒中病灶体积是评估急性缺血性卒中（AIS）患者预后的关键放射学指标，在非造影CT（NCCT）扫描中自动测量卒中病灶体积具有挑战性。最近的扩散概率模型显示出被用于图像分割的潜力。本文提出了一种新的同步图像标记扩散概率模型（SDPM）的NCCT使用马尔可夫扩散过程的脑卒中病灶分割。建议的SDPM是完全基于潜变量模型（LVM），提供了一个完整的概率阐述。引入与噪声预测流并行的附加净流以获得初始噪声标签估计，从而有效地推断最终标签。通过优化指定的变分边界，训练好的模型可以推断出多个标签估计，以供参考给定的输入图像与噪声。该模型在三个卒中病变数据集上进行了评估，包括一个公共数据集和两个私人数据集。与几种基于U-网和变换器的分割方法相比，我们提出的SDPM模型能够实现最先进的性能。代码是公开的。

1.7 Augment Features Beyond Color for Domain Generalized Segmentation

域广义分割中颜色外的扩展特征

https://arxiv.org/abs/2307.01703

在这里插入图片描述
领域广义语义分割（DGSS）是一项重要而又极具挑战性的任务，该任务中的模型仅基于源数据进行训练，而不包含任何目标数据。以前的DGSS方法可以分为基于增广和基于归一化的。前者要么引入额外的偏置数据，要么仅进行信道调整，以进行数据增强，而后者可能会丢弃有益的视觉信息，这两者都导致DGSS的性能有限。相反，我们的方法执行通道间转换，同时避免了特定领域的偏差，从而多样化的数据和提高模型泛化性能。具体来说，我们的方法由两个模块组成：随机图像颜色增强（RICA）和随机特征分布增强（RFDA）。RICA将图像从RGB转换为CIELAB颜色模型，并以基于感知的方式随机化颜色映射，以实现图像增强目的。我们通过使用基于CycleGAN的生成网络将其扩展到颜色之外的特征空间，这补充了RICA，并进一步提高了泛化能力。我们进行了大量的实验，从合成GTAV和SYNTHIA到真正的Cityscapes，BDDS和Mapillary数据集的泛化结果表明，我们的方法达到了最先进的DGSS性能。

1.8 EffSeg: Efficient Fine-Grained Instance Segmentation using Structure-Preserving Sparsity

EffSeg：基于结构保持稀疏性的高效细粒度实例分割

https://arxiv.org/abs/2307.01545

在这里插入图片描述
许多两阶段实例分割头预测每个实例的粗略28x28掩码，这不足以捕获许多对象的细粒度细节。为了解决这个问题，PointRend和RefineMask预测112x112分割掩码，从而获得更高质量的分割。然而，这两种方法都有限制，要么不能访问相邻特征（PointRend），要么在所有空间位置而不是稀疏地执行计算（RefineMask）。在这项工作中，我们提出EffSeg执行细粒度实例分割在一个有效的方式，通过使用我们的结构保持稀疏性（SPS）方法的基础上分别存储的主动功能，被动功能和密集的2D索引图包含的特征索引。索引图的目标是保留特征之间的2D空间配置或结构，使得仍然可以执行任何2D操作。EffSeg在COCO上实现了与RefineMask相似的性能，同时将FLOP数量减少了71%，FPS增加了29%。代码将被释放。

1.9 Exploiting Richness of Learned Compressed Representation of Images for Semantic Segmentation

利用学习的图像压缩表示的丰富性进行语义分割

https://arxiv.org/abs/2307.01524

在这里插入图片描述
自动驾驶汽车和高级驾驶辅助系统（ADAS）有可能从根本上改变我们的出行方式。许多这样的车辆目前依赖于分割和对象检测算法来检测和跟踪其周围的对象。从车辆收集的数据通常被发送到云服务器，以促进这些算法的持续/终身学习。考虑到带宽限制，数据在发送到服务器之前被压缩，在服务器处，数据通常被解压缩以用于训练和分析。在这项工作中，我们提出了使用一个基于学习的压缩编解码器，以减少在标准管道中的解压缩操作所产生的延迟开销。我们证明，学习的压缩表示也可以用于执行任务，如语义分割，除了解压缩，以获得图像。我们通过实验验证了所提出的管道上的Cityscapes数据集，在那里我们实现了一个压缩因子高达66美元\倍$，同时保留了执行分割所需的信息与0.84美元的骰子系数相比，0.88美元使用解压缩图像，同时减少了11美元的整体计算。

1.10 Semantic Segmentation on 3D Point Clouds with High Density Variations

高密度变化的三维点云语义分割

https://arxiv.org/abs/2307.01489

在这里插入图片描述
用于测量应用的LiDAR扫描在宽区域和长距离上获取测量值，这产生具有显著局部密度变化的大规模3D点云。虽然现有的3D语义分割模型进行下采样和上采样以建立针对变化的点密度的鲁棒性，但是它们在来自测量应用的点云的大的局部密度变化特性下不太有效。为了缓解这一弱点，我们提出了一种新的架构，称为HDVNet，其中包含一组嵌套的编码器-解码器路径，每个处理一个特定的点密度范围。限制特征图之间的互连使得HDVNet能够基于点的密度来衡量每个特征的可靠性，例如，对不存在于低密度对象中的高密度特征进行降权。通过有效地处理输入密度变化，HDVNet在具有不一致密度的真实点云上的分割准确性方面优于最先进的模型，仅使用一半以上的权重。

1.11 AxonCallosumEM Dataset: Axon Semantic Segmentation of Whole Corpus Callosum cross section from EM Images

AxonCallosum EM数据集：基于EM图像的轴突语义分割

https://arxiv.org/abs/2307.02464

在这里插入图片描述
电子显微镜（EM）仍然是在纳米尺度上阐明动物神经系统复杂细节的主要技术。然而，准确地重建轴突和髓鞘的复杂形态构成了重大的挑战。此外，缺乏公开可用的大规模EM数据集涵盖胼胝体的完整横截面，具有轴突和髓鞘的密集地面真相分割，阻碍了整体胼胝体重建的进展和评估。为了克服这些障碍，我们引入AxonCallosumEM数据集，包括从Rett综合征（RTT）小鼠模型的胼胝体捕获的1.83倍5.76mm EM图像，这需要广泛的轴突束。我们以1024 × 1024的分辨率仔细校对了超过600，000个补丁，从而为有髓鞘轴突和髓鞘提供了全面的基础事实。此外，为了训练、测试和验证的目的，我们在数据集中广泛注释了三个不同的区域。利用这个数据集，我们开发了一种微调方法，该方法适应分段任何模型（SAM）的EM图像分割任务，称为EM-SAM，使性能优于其他国家的最先进的方法。此外，我们提出的评价结果EM-SAM作为基线。

1.12 Direct segmentation of brain white matter tracts in diffusion MRI

磁共振扩散成像中脑白质束的直接分割

https://arxiv.org/abs/2307.02223

在这里插入图片描述
大脑白质由一组连接大脑不同区域的神经束组成。这些束的分割通常需要临床和研究。弥散加权MRI提供了独特的对比度来描绘这些束。然而，现有的分割方法依赖于中间计算，例如纤维束成像或纤维取向密度的估计。这些中间计算又需要复杂的计算，这可能导致不必要的错误。此外，这些中间计算通常需要密集的多壳测量，这在许多临床和研究应用中是不可用的。因此，当前的方法遭受低准确性和差的概括性。在这里，我们提出了一种新的深度学习方法，可以直接从扩散MRI数据中分割这些束，从而避免中间计算错误。我们的实验表明，该方法可以达到的分割精度，是在水平的最先进的方法（平均骰子相似系数为0.826）。与现有技术相比，我们的方法提供了远远优越的泛化能力，欠采样的数据是典型的临床研究和不同的采集协议获得的数据。此外，我们提出了一种新的方法，检测不准确的分割，并表明它是更准确的比标准的方法，是基于估计的不确定性量化。这些新方法可以服务于许多非常重要的临床和科学应用，这些应用需要准确可靠的白质束的非侵入性分割。

1.13 ToothSegNet: Image Degradation meets Tooth Segmentation in CBCT Images

ToothSegNet：CBCT图像中的图像退化与牙齿分割

https://arxiv.org/abs/2307.01979

在这里插入图片描述
在计算机辅助正畸学中，三维牙齿模型是许多医学治疗所需要的。从锥形束计算机断层扫描（CBCT）图像中分割牙齿是构建模型的关键步骤。然而，CBCT图像质量问题，如金属伪影和模糊所造成的拍摄设备和患者的牙齿条件，使分割困难。在本文中，我们提出了ToothSegNet，一个新的框架，熟悉的分割模型与生成的退化图像在训练。ToothSegNet采用通道交叉融合融合技术，融合了退化模拟模块中的高质量和低质量图像信息，减少了编码器和解码器之间的语义差距，并通过结构约束损失细化了牙齿的形状预测。实验结果表明，ToothSegNet产生更精确的分割，并优于国家的最先进的医学图像分割方法。

1.14 Edge-aware Multi-task Network for Integrating Quantification Segmentation and Uncertainty Prediction of Liver Tumor on Multi-modality Non-contrast MRI

边缘感知多任务网络在多模式非对比磁共振肝脏肿瘤定量分割和不确定性预测中的应用

https://arxiv.org/abs/2307.01798

在这里插入图片描述
在多模态非对比磁共振成像（NCMRI）上同时进行肝脏肿瘤的多指标定量、分割和不确定性估计对于准确诊断至关重要。然而，现有的方法缺乏一个有效的机制，多模态NCMRI融合和准确的边界信息捕获，使这些任务具有挑战性。为了解决这些问题，本文提出了一个统一的框架，即边缘感知的多任务网络（EaMtNet），关联多指标量化，分割和不确定性的肝脏肿瘤的多模态NCMRI。EaMtNet采用两个并行的CNN编码器和Sobel滤波器来分别提取局部特征和边缘图。新设计的边缘感知特征聚合模块（EaFA）用于特征融合和选择，通过捕获特征和边缘图之间的长程依赖关系，使网络边缘感知。多任务利用预测差异来估计不确定性并提高分割和量化性能。在多模态NCMRI上进行了广泛的实验，有250名临床受试者。所提出的模型优于国家的最先进的一个大的利润率，实现骰子相似系数为90.01$\pm $1.23 和平均绝对误差为 2.72$ \pm$0.58毫米MD。结果表明，EaMtNet作为一个可靠的临床辅助工具医学图像分析的潜力。

1.15 ARHNet: Adaptive Region Harmonization for Lesion-aware Augmentation to Improve Segmentation Performance

ARHNet：用于病变感知增强的自适应区域协调以提高分割性能

https://arxiv.org/abs/2307.01220

在这里插入图片描述
在MRI扫描中准确分割脑病变对于为患者提供预后和神经监测至关重要。然而，基于CNN的分割方法的性能受到有限的训练集大小的限制。先进的数据增强是一种有效的策略，以提高模型的鲁棒性。然而，它们经常引入前景和背景区域之间的强度差异以及边界伪影，这削弱了这种策略的有效性。在本文中，我们提出了一个前景协调框架（ARHNet）来解决强度差异，使合成图像看起来更逼真。特别是，我们提出了一个自适应区域协调（ARH）模块动态对齐前景特征图的背景与注意力机制。我们证明了我们的方法在使用真实和合成图像提高分割性能的功效。ATLAS 2.0数据集上的实验结果表明，ARHNet优于其他方法的图像协调任务，并提高了下游分割性能。我们的代码可在www.example.com公开获取https://github.com/King-HAW/ARHNet。