【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（9 月 8 日论文合集）

最新推荐文章于 2025-01-09 17:34:59 发布

旅途中的宽~

最新推荐文章于 2025-01-09 17:34:59 发布

阅读量1k

点赞数 3

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割分割

本文链接：https://blog.csdn.net/wzk4869/article/details/132773435

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、分割|语义相关(12篇)

一、分割|语义相关(12篇)

1.1 Tracking Anything with Decoupled Video Segmentation

利用分离的视频分割跟踪任何内容

https://arxiv.org/abs/2309.03903

用于视频分割的训练数据注释是昂贵的。这阻碍了将端到端算法扩展到新的视频分割任务，特别是在大词汇量设置中。为了“跟踪任何东西”，不训练视频数据为每个单独的任务，我们开发了一个解耦的视频分割方法（DEVA），由任务特定的图像级分割和类/任务不可知的双向时间传播组成。由于这种设计，我们只需要一个图像级模型的目标任务（这是更便宜的训练）和一个通用的时间传播模型，训练一次并在任务中推广。为了有效地结合这两个模块，我们使用双向传播（半）在线融合的分割假设从不同的帧生成一个连贯的分割。我们表明，这种解耦的配方比较有利的端到端的方法，在几个数据稀缺的任务，包括大词汇量的视频全景分割，开放世界的视频分割，参考视频分割，和无监督视频对象分割。代码可在：https://hkchengrex.github.io/Tracking-Anything-with-DEVA

1.2 A boundary-aware point clustering approach in Euclidean and embedding spaces for roof plane segmentation

欧氏嵌入空间中的边界感知点聚类屋顶面分割方法

https://arxiv.org/abs/2309.03722

从机载LiDAR点云数据中分割屋顶平面是三维建筑物模型重建的一项重要技术。平面分割的关键问题之一是如何设计功能强大的功能，可以准确地区分相邻的平面片。点特征的质量直接决定了屋顶平面分割的精度。大多数现有方法使用手工特征来提取屋顶平面。然而，这些特征的能力相对较低，特别是在边界区域。为了解决这个问题，我们提出了一种边界感知的点聚类方法，在欧氏空间和嵌入空间中由多任务深度网络构建，用于屋顶平面分割。我们设计了一个三分支网络来预测语义标签，点偏移和提取深度嵌入特征。在第一个分支中，我们将输入数据分类为非屋顶，边界和平面点。在第二个分支中，我们预测点偏移量，用于将每个点向其各自的实例中心移动。在第三个分支中，我们约束同一平面实例的点应该具有相似的嵌入。我们的目标是确保同一平面实例的点是尽可能接近的欧氏空间和嵌入空间。然而，尽管深度网络具有很强的特征表示能力，但仍然难以准确区分平面实例边界附近的点。因此，我们首先在两个空间中将平面点分组为许多簇，然后将其余边界点分配到它们最接近的簇以生成最终的完整屋顶平面。这样，我们可以有效地减少不可靠的边界点的影响。此外，我们构建了一个合成数据集和一个真实的数据集来训练和评估我们的方法。实验结果表明，该方法显着优于现有的国家的最先进的方法。

1.3 Towards Comparable Knowledge Distillation in Semantic Image Segmentation

语义图像分割中的可比性知识提取

https://arxiv.org/abs/2309.03659

知识蒸馏（KD）是针对语义分割中的大模型尺寸和慢推理速度提出的一种解决方案。在我们的研究中，我们确定了25个建议蒸馏损失条款，从14个出版物在过去的4年。不幸的是，基于已发表结果的术语比较通常是不可能的，因为训练配置的差异。比较2022年的两篇出版物很好地说明了这个问题。使用相同的模型和数据集，结构和统计纹理蒸馏（SSTKD）报告学生mIoU增加了4.54，最终性能为29.19，而自适应透视蒸馏（APD）仅将学生性能提高了2.06个百分点，但最终性能为39.25。这种极端差异的原因通常是超参数的次优选择以及用作参考点的学生模型的性能不佳。在我们的工作中，我们揭示了不足的超参数调整的问题，通过显示蒸馏改进的两个广泛接受的框架，SKD和IFVD，消失时，超参数充分优化。为了提高该领域未来研究的可比性，我们为三个数据集和两个学生模型建立了坚实的基线，并提供了有关超参数调整的广泛信息。我们发现，八种技术中只有两种可以与我们在ADE20K数据集上的简单基线竞争。

1.4 Instance Segmentation of Dislocations in TEM Images

透射电子显微镜图像中位错的实例分割

https://arxiv.org/abs/2309.03499

原位应变实验中的定量透射电子显微镜（TEM）能够揭示金属晶格中的位错–线缺陷的运动。在材料科学领域，关于位错的位置和运动的知识对于创造具有优异性能的新型材料是重要的。然而，一个长期存在的问题是确定位错的位置并提取其形状，这最终将有助于创建此类材料的数字孪生。在这项工作中，我们定量比较了最先进的实例分割方法，包括Mask R-CNN和YOLOv 8。作为实例分割的结果的位错掩模被转换为数学线，使得能够定量分析位错长度和几何形状-对于领域科学家来说是重要的信息，然后我们建议将其作为一种新的长度感知质量度量来估计网络性能。我们的分割流水线显示出高精度，适合所有特定领域，进一步的后处理。此外，我们的基于物理的度量结果比通常使用的像素度量更一致地执行。

1.5 Temporal Collection and Distribution for Referring Video Object Segmentation

参考视频对象分割的时间集合和分布

https://arxiv.org/abs/2309.03473

引用视频对象分割旨在根据自然语言表达在整个视频序列中分割引用对象。它需要在全局视频级别上将自然语言表达与对象的运动及其动态关联对齐，而在帧级别上对对象进行分段。为了实现这一目标，我们建议同时维护一个全局的指涉令牌和一系列的对象查询，前者负责捕捉视频级别的指涉根据语言表达，而后者服务于更好地定位和分割对象与每一帧。此外，为了明确地捕捉对象的运动和时空跨模式推理对象，我们提出了一种新的时间收集分配机制之间的全球参考令牌和对象查询之间的交互。具体地，时间收集机制从对象查询到时间运动到语言表达来收集所指标记的全局信息。继而，时间分布首先跨所有帧将所指标记分布到所指序列，然后在每个帧中的所指序列和对象查询之间执行高效的跨帧推理。实验结果表明，我们的方法优于国家的最先进的方法在所有基准一致和显着。

1.6 MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation

MEGANET：用于弱边界息肉分割的多尺度边缘引导注意力网络

https://arxiv.org/abs/2309.03329

在医疗保健中有效的息肉分割在实现结肠直肠癌的早期诊断中起着关键作用。然而，息肉的分割提出了许多挑战，包括复杂的背景分布，息肉大小和形状的变化，以及模糊的边界。定义前景（即息肉本身）和背景（周围组织）是困难的。为了减轻这些挑战，我们提出了多尺度边缘引导注意力网络（MEGANet）专门为结肠镜检查图像中的息肉分割量身定制。该网络从经典边缘检测技术与注意机制的融合中汲取灵感。通过结合这些技术，MEGANet有效地保留了高频信息，特别是边缘和边界，随着神经网络的深化，这些信息往往会被侵蚀。MEGANet是一个端到端的框架，包含三个关键模块：编码器，其负责从输入图像中捕获和提取特征，解码器，其专注于显著特征，以及边缘引导注意模块（EGA），其采用拉普拉斯算子来强调息肉边界。广泛的实验，定性和定量，五个基准数据集，表明我们的EGANet优于其他现有的SOTA方法下的六个评价指标。我们的代码可在\url{https：//github.com/DinhHieuHoang/MEGanet}获得

1.7 MS-UNet-v2: Adaptive Denoising Method and Training Strategy for Medical Image Segmentation with Small Training Data

小训练数据医学图像分割的自适应去噪方法和训练策略

https://arxiv.org/abs/2309.03686

基于类U结构的模型提高了医学图像分割的性能。然而，U-Net的单层解码器结构太“薄”，无法利用足够的信息，导致编码器和解码器部分之间存在很大的语义差异。如果训练数据集的数量不够大，情况会变得更糟，这在医学图像处理任务中是常见的，其中注释数据比其他任务更难以获得。基于这一观察，我们提出了一个新的U-Net模型命名为MS-UNet的医学图像分割任务在这项研究中。我们在Swin-UNet和TransUnet上采用单层U-Net解码器结构的基础上，专门设计了一个基于Transformer的多尺度嵌套解码器。所提出的多尺度嵌套解码器结构允许解码器和编码器之间的特征映射语义上更接近，从而使网络能够学习更详细的特征。此外，我们提出了一种新的边缘损失和一个即插即用的微调去噪模块，它不仅有效地提高了MS-UNet的分割性能，而且还可以单独应用于其他模型。实验结果表明，MS-UNet能够有效地提高网络性能，具有更高效的特征学习能力，表现出更先进的性能，特别是在训练数据量较小的极端情况下，提出的边缘丢失和去噪模块能够显著提高MS-UNet的分割性能。

1.8 Feature Enhancer Segmentation Network (FES-Net) for Vessel Segmentation

特征增强分割网络(FES-Net)用于血管分割

https://arxiv.org/abs/2309.03535

糖尿病视网膜病变和年龄相关性黄斑变性等疾病对视力构成重大风险，突出了视网膜血管精确分割对于跟踪和诊断进展的重要性。然而，严重依赖于编码器-解码器结构的现有血管分割方法难以捕获关于视网膜血管配置的上下文信息，导致在协调编码器和解码器特征之间的语义差异方面的挑战。为了解决这个问题，我们提出了一种新的特征增强分割网络（FES-Net），实现准确的逐像素分割，而不需要额外的图像增强步骤。FES-Net直接处理输入图像，并在下采样期间利用四个提示卷积块（PCB），辅以浅层上采样方法为每个类别生成二进制掩码。我们在四个公开的最先进的数据集上评估了FES-Net的性能：驱动、凝视、追逐和HRF。评估结果清楚地表明，与现有文献中记录的其他竞争方法相比，FES-Net具有优异的性能。

1.9 TSI-Net: A Timing Sequence Image Segmentation Network for Intracranial Artery Segmentation in Digital Subtraction Angiography

TSI-Net：一种用于数字减影血管造影中颅内动脉分割的时序图像分割网络

https://arxiv.org/abs/2309.03477

脑血管病是当今世界面临的主要疾病之一。数字减影血管造影（DSA）序列中颅内动脉（IA）的自动分割是血管相关疾病诊断和指导神经介入治疗的重要步骤。而根据DSA技术的成像原理，单张图像只能显示造影剂内的部分IA。因此，2D DSA分割方法无法捕获完整的IA信息和脑血管疾病的治疗。我们提出了一个定时序列图像分割网络与U形，称为TSI-Net，它结合了双向ConvGRU模块（BCM）的编码器。该网络在编码器中集成了双向ConvGRU模块（BCM），该模块可以输入可变长度的DSA序列，保留过去和未来的信息，将它们分割成2D图像。此外，我们引入了敏感细节分支（SDB）在末端的监督精细船舶。在DSA序列数据集DIAS上进行实验，该方法的性能明显优于近年来最先进的网络。特别是，它实现了0.797的Sen评估度量，这是一个3%的改进相比，其他方法。

1.10 Punctate White Matter Lesion Segmentation in Preterm Infants Powered by Counterfactually Generative Learning

反事实生成学习支持下的早产儿点状脑白质病变分割

https://arxiv.org/abs/2309.03440

点状白质病变（PWML）的准确分割是及时诊断和治疗相关发育障碍的基础。考虑到病变通常较小且对比度较低，并且病变数量可能在受试者之间发生显著变化，因此从婴儿脑部MR图像进行自动PWML分割具有挑战性。现有的基于学习的方法直接将通用网络架构应用于这一具有挑战性的任务，这可能无法捕获PWML的详细位置信息，从而可能导致严重的欠分割。在本文中，我们建议利用反事实推理的想法，再加上辅助任务的脑组织分割学习精确的定位和分割PWML的精细粒度的位置和形态表示。简单且易于实现的深度学习框架（即，DeepPWML）相应地设计。它将病变反事实图与组织概率图相结合，以训练轻量级PWML分割网络，在婴儿T1 w MR图像的真实临床数据集上展示了最先进的性能。代码可在\href{https：//github.com/ladderlab-xjtu/DeepPWML}{https：//github.com/ladderlab-xjtu/DeepPWML}获得。

1.11 Kidney abnormality segmentation in thorax-abdomen CT scans

胸腹部CT扫描中肾脏异常的分割

https://arxiv.org/abs/2309.03383

在这项研究中，我们介绍了一种用于分割肾实质和肾脏异常的深度学习方法，以支持临床医生识别和量化肾脏异常，如囊肿，病变，肿块，转移和原发性肿瘤。我们的端到端分割方法在215个对比增强胸腹CT扫描上进行了训练，其中一半的扫描包含一个或多个异常。我们首先实施了我们自己的原始3D U-Net网络版本，并加入了四个附加组件：端到端多分辨率方法、一组任务特定的数据增强、使用top- $k$ 的修改的损失函数和空间丢失。此外，我们设计了一个量身定制的后处理策略。消融研究表明，四种修改中的每一种都增强了肾脏异常分割性能，而四分之三的改进了肾实质分割。随后，我们在我们的数据集上训练了nnUNet框架。通过将优化的3D U-Net和nnUNet与我们专业的后处理相结合，我们获得了略好的结果。我们表现最好的模型在两个测试集（20次扫描无异常和30次扫描有异常）中分割肾实质的Dice得分分别为0.965和0.947，优于得分分别为0.944和0.925的独立人类观察者。在分割包含肾脏异常的30个测试扫描中，表现最好的方法达到了0.585的Dice评分，而独立的第二个人类观察者达到了0.664的评分，这表明计算机化方法有进一步改进的潜力。所有的训练数据都可以在https://doi.org/10.5281/zenodo.8014289上通过CC-BY 4.0许可证向研究社区提供

1.12 EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation

EGIC：语义分割引导的增强型低码率生成图像压缩

https://arxiv.org/abs/2309.03244

我们介绍了EGIC，一种新的生成图像压缩方法，允许有效地从一个单一的模型遍历失真感知曲线。具体而言，我们提出了一种隐式编码的图像插值的变体，预测MSE优化和GAN优化的解码器输出之间的残差。在接收器侧，用户然后可以控制残差对基于GAN的重构的影响。结合改进的基于GAN的构建块，EGIC的性能优于各种感知导向和失真导向的基线，包括HiFiC、MRIC和DIRAC，同时在失真端的性能几乎与VTM-20.0相当。EGIC易于实现，非常轻量级（例如0.18x模型参数），并提供出色的插值特性，这使其成为针对低比特范围的实际应用的有前途的候选者。