【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（9 月 6 日论文合集）

最新推荐文章于 2025-01-10 14:53:52 发布

旅途中的宽~

最新推荐文章于 2025-01-10 14:53:52 发布

阅读量494

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/132755027

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、分割|语义相关(19篇)

一、分割|语义相关(19篇)

1.1 DCP-Net: A Distributed Collaborative Perception Network for Remote Sensing Semantic Segmentation

DCP-Net：一种面向遥感语义分割的分布式协同感知网络

https://arxiv.org/abs/2309.02230

星载智能处理在遥感领域的应急任务中有着广泛的应用。然而，它主要局限于具有有限的观察范围以及对干扰的敏感性的单个平台，从而导致有限的准确性。针对目前多平台协同观测的现状，本文创新性地提出了一种分布式协同感知网络DCP-Net。首先，建议DCP-Net帮助成员，以提高感知性能，从其他平台的功能集成。其次，提出了一个自互信息匹配模块，以识别合作机会，选择合适的合作伙伴，优先考虑关键的合作特征，减少冗余的传输成本。第三，设计了相关特征融合模块，解决了局部特征与协同特征之间的错位问题，提高了融合特征的质量，为后续任务提供了支持。我们使用三个语义分割数据集，包括波茨坦，iSAID和DFC 23进行了广泛的实验和可视化分析。实验结果表明，DCP-Net的综合性能优于现有方法，在协作效率最高的情况下，mIoU提高了2.61%~16.89%，性能达到了最新水平。

1.2 Self-Supervised Pre-Training Boosts Semantic Scene Segmentation on LiDAR data

自监督预训练增强LiDAR数据的语义场景分割

https://arxiv.org/abs/2309.02139

机载LiDAR系统具有通过生成由主要由3D坐标定义的点组成的大量点云数据来捕获地球表面的能力。然而，为监督学习任务标记这些点是耗时的。因此，需要研究可以从未标记数据中学习以显著减少注释样本数量的技术。在这项工作中，我们建议用Barlow Twins训练一个自监督编码器，并将其用作语义场景分割任务中的预训练网络。实验结果表明，我们的无监督预训练提高了性能，一旦微调的监督任务，特别是代表性不足的类别。

1.3 DeNISE: Deep Networks for Improved Segmentation Edges

Denise：用于改进边缘分割的深度网络

https://arxiv.org/abs/2309.02091

本文提出了改进分割边缘深度网络（DeNISE），一种新的数据增强技术，使用边缘检测和分割模型，以提高分割掩模的边界质量。DeNISE利用两种顺序深度神经架构的固有差异来提高预测分割边缘的准确性。DeNISE适用于所有类型的神经网络，并且不是端到端的训练，允许快速实验来发现哪些模型可以相互补充。我们测试和应用DeNISE在航空图像中的建筑物分割。航空图像在困难条件下是已知的，因为它们具有低分辨率，具有光学噪声，诸如反射、阴影和视觉障碍。总的来说，本文展示了DeNISE的潜力。使用该技术，我们改善了基线结果，建筑IoU为78.9%。

1.4 Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples

面向有限样本的参考视频对象分割的跨模式亲和度学习

https://arxiv.org/abs/2309.02041

参考视频对象分割（RVOS）作为监督学习任务，依赖于给定场景的足够的注释数据。然而，在更现实的场景中，只有最少的注释可用于新的场景，这对现有的RVOS方法提出了重大挑战。考虑到这一点，我们提出了一个简单而有效的模型与新设计的跨模态亲和力（CMA）模块的基础上的Transformer架构。CMA模块利用少量样本构建多模态亲和度，从而快速学习新的语义信息，并使模型能够适应不同的场景。由于所提出的方法的目标有限的样本为新的场景，我们概括的问题- Few-Shot参考视频对象分割（FS-RVOS）。为了促进这一方向的研究，我们基于当前可用的数据集建立了一个新的FS-RVOS基准。基准测试覆盖范围广，包括多种情况，可以最大限度地模拟真实世界的场景。大量的实验表明，我们的模型能够很好地适应不同的场景，只有很少的样本，达到国家的最先进的性能的基准。在Mini-Ref-YouTube-VOS上，我们的模型实现了53.1 J和54.8 F的平均性能，比基线高出10%。此外，我们在Mini-Ref-SAIL-VOS上显示了77.7 J和74.8 F的令人印象深刻的结果，明显优于基线。代码可在https://github.com/hengliusky/Few_shot_RVOS上公开获取。

1.5 Unsupervised Skin Lesion Segmentation via Structural Entropy Minimization on Multi-Scale Superpixel Graphs

基于结构熵最小化的多尺度超像素图无监督皮肤病变分割

https://arxiv.org/abs/2309.01899

皮肤病变分割是皮肤镜图像分析中的一项基本任务。病变区域像素的复杂特征阻碍了病变分割的准确性，并且现有的基于深度学习的方法往往缺乏对该问题的解释性。在这项工作中，我们提出了一种新的无监督的皮肤病变sSegmentation框架的基础上结构熵和隔离森林离群点检测，即SLED。具体地，通过最小化从皮肤镜图像构造的超像素图的结构熵来分割皮肤病变。然后，我们描述了健康的皮肤特征的一致性，并设计了一种新的多尺度分割机制，通过离群点检测，提高了分割精度，利用超像素的功能，从多个尺度。我们进行实验的皮肤病变的基准和比较SLED与9个代表性的无监督分割方法。实验结果证明了该框架的优越性。此外，一些案例分析，以证明SLED的有效性。

1.6 SAF-IS: a Spatial Annotation Free Framework for Instance Segmentation of Surgical Tools

SAF-IS：一种用于手术工具实例分割的无空间标注框架

https://arxiv.org/abs/2309.01723

手术器械的实例分割是一个长期存在的研究问题，对于计算机辅助手术的许多应用的发展至关重要。这个问题通常通过深度学习模型的全监督训练来解决，需要昂贵的像素级注释来训练。在这项工作中，我们开发了一个框架，例如分割不依赖于空间注释的训练。相反，我们的解决方案只需要二进制工具掩模，可使用最近的无监督方法，和二进制工具存在标签，可自由获得的机器人辅助手术。基于二进制掩码信息，我们的解决方案学习从单个帧中提取单个工具实例，并将每个实例编码为紧凑的矢量表示，捕获其语义特征。这样的表示指导自动选择的实例（在我们的实验中只有8个），显示给人类操作员的工具类型的标签。所收集的信息最终用于将每个训练实例与二进制工具存在标签进行匹配，从而提供有效的监督信号以训练工具实例分类器。我们在EndoVis 2017和2018分割数据集上验证了我们的框架。我们提供的结果使用二进制掩码获得手动注释或作为预测的无监督二进制分割模型。后一种解决方案产生了一种完全不受空间注释影响的实例分割方法，其性能优于几种最先进的全监督分割方法。

1.7 Segmentation of 3D pore space from CT images using curvilinear skeleton: application to numerical simulation of microbial decomposition

利用曲线骨架从CT图像中分割三维孔隙：在微生物分解数值模拟中的应用

https://arxiv.org/abs/2309.01611

三维X射线计算机断层扫描（CT）传感器的最新进展刺激了研究工作，揭示了控制土壤微生物活动的极其复杂的微观过程。可以通过简单的图像处理工具从灰度级3D CT扫描仪图像中提取孔隙空间的基于体素的描述（高达数亿体素）。经典的生物动力学数值模拟方法，如格子玻尔兹曼模型（LBM），使用网格的体素，是太多的时间消耗。因此，使用更紧凑和可靠的孔隙空间的几何表示可以大大降低模拟的计算成本。一些最近的工作提出了基本的分析体积基元（例如球体、广义圆柱体、椭圆体），以限定用于排水、扩散和微生物分解的数值模拟的孔隙空间的分段近似。这种方法工作良好，但缺点是它产生近似误差。在目前的工作中，我们研究了另一种选择，其中孔隙空间是通过几何相关的连接子集的体素（区域）计算的曲线骨架。实际上，许多作品使用曲线骨架（3D中轴）来分析和划分各种领域（医学、材料科学、石油工程等）内的3D形状。但只有少数几个是土壤科学。在土壤科学的背景下，大多数研究处理3D中轴集中在孔喉的测定。在这里，我们使用曲线骨架分割孔隙空间，以实现微生物分解（包括扩散过程）的数值模拟。我们验证模拟输出的比较与其他方法使用不同的孔隙空间几何表示（球，体素）。

1.8 GenSelfDiff-HIS: Generative Self-Supervision Using Diffusion for Histopathological Image Segmentation

GenSelfDiff-His：基于扩散的产生式自我监督组织病理图像分割

https://arxiv.org/abs/2309.01487

组织病理学图像分割是一项费力且耗时的任务，通常需要经验丰富的病理学家进行分析以进行准确的检查。为了减少这种负担，监督机器学习方法已被采用，使用大规模的注释数据集的组织病理学图像分析。然而，在一些场景中，大规模注释数据的可用性是训练此类模型时的瓶颈。自监督学习（SSL）是一种替代范式，它通过仅利用通常丰富的未注释数据构建模型来提供一些喘息。SSL的基本思想是训练网络对未注释的数据执行一个或多个伪任务或借口任务，并随后将其用作各种下游任务的基础。可以看出，SSL的成功关键取决于所考虑的借口任务。虽然已经有很多的努力，在设计借口任务的分类问题，还没有很多尝试SSL的组织病理学分割。出于这一动机，我们提出了一种SSL方法通过生成扩散模型在本文中分割组织病理学图像。我们的方法是基于观察扩散模型有效地解决了类似于分割任务的图像到图像的翻译任务。因此，我们提出生成扩散的借口任务组织病理学图像分割。我们还提出了一个多损失函数为基础的微调的下游任务。我们使用两个公开可用的数据集以及新提出的包含苏木精和伊红（HE）染色图像以及注释的头颈部（HN）癌症数据集上的几个度量来验证我们的方法。代码将在https://github.com/PurmaVishnuVardhanReddy/GenSelfDiff-HIS.git上公布。

1.9 Attention as Annotation: Generating Images and Pseudo-masks for Weakly Supervised Semantic Segmentation with Diffusion

注意力作为注释：用于弱监督扩散语义分割的图像和伪掩码的生成

https://arxiv.org/abs/2309.01369

尽管扩散模型的最新进展使得能够生成高保真和多样化的图像，但判别模型的训练在很大程度上取决于大量真实图像的集合及其手动注释。在这里，我们提出了一种训练方法，既不依赖于真实的图像，也不手动注释的语义分割。所提出的方法{\it attn 2 mask}利用由文本到图像扩散模型结合其内部的文本到图像交叉关注作为监督伪掩模生成的图像。由于文本到图像生成器是用图像-字幕对训练的，但没有像素级标签，因此attn 2 mask总体上可以被视为弱监督分割方法。实验表明，attn 2 mask在PASCAL VOC中实现了有希望的结果，因为根本不使用真实的训练数据进行分割，并且将分割扩展到更多类的场景也是有用的，即，ImageNet分段。它还显示了基于LoRA的微调的适应能力，这使得能够转移到远域，即，城市景观。

1.10 An FPGA smart camera implementation of segmentation models for drone wildfire imagery

无人机野火图像分割模型的现场可编程门阵列实现

https://arxiv.org/abs/2309.01318

野火是世界上最相关的自然灾害之一，因为它们对社会和环境的各个层面产生了影响。因此，已经进行了大量的研究来调查和应用计算机视觉技术来解决这个问题。最有希望的野火扑灭方法之一是使用配备有可见光和红外摄像机的无人机，以远程方式但靠近受影响地区进行探测、监测和火灾蔓延评估。然而，在机上实现有效的计算机视觉算法通常是不可行的，因为部署在GPU上运行的全精度深度学习模型并不是一个可行的选择，因为它们的功耗很高，而且无人机可以处理的有效载荷有限。因此，在这项工作中，我们假设，智能相机，基于低功耗现场可编程门阵列（FPGA），配合二进制神经网络（BNN），代表了一个成本效益的替代方案，用于实现板载计算的边缘。在这里，我们提出了一个分割模型应用到科西嘉消防数据库的实现。我们针对这样的任务优化了现有的U-Net模型，并将模型移植到边缘设备（Xilinx Ultra 96-v2 FPGA）。通过修剪和量化原始模型，我们减少了90%的参数数量。此外，额外的优化使我们能够将原始模型的吞吐量从每秒8帧（FPS）提高到33.63 FPS，而不损失分割性能：我们的模型获得了Matthews相关系数（MCC）0.912，F1评分0.915和Hafiane质量指数（HAF）0.870，与原始全精度模型相比，定性分割结果相当。最后的模型被集成到一个低成本的FPGA中，用于实现神经网络加速器。

1.11 FOR-instance: a UAV laser scanning benchmark dataset for semantic and instance segmentation of individual trees

例如：用于单个树木的语义和实例分割的无人机激光扫描基准数据集

https://arxiv.org/abs/2309.01279

FOR-instance数据集（可在https：//doi.org/10.5281/zenodo.8287792获得）解决了从激光扫描数据中准确分割单个树木的挑战，这对于理解森林生态系统和可持续管理至关重要。尽管对详细的树木数据的需求不断增长，但自动分割和跟踪科学进展仍然很困难。现有的方法往往过拟合小数据集，缺乏可比性，限制了它们的适用性。在深度学习方法的出现所引发的进步中，标准化基准测试在这些研究领域中具有至关重要的意义。本文介绍了一个基准数据集密集的机载激光扫描数据，旨在推进实例和语义分割技术，促进三维森林场景分割的进展。FOR实例数据集包括来自不同全球位置的五个策划和ML就绪的基于UAV的激光扫描数据集，代表各种森林类型。激光扫描数据被手动注释到单独的树（实例）和不同的语义类（例如，语义类）中。茎、木质枝、活枝、地形、低植被）。该数据集分为开发和测试子集，使方法的进步和评估，利用特定的指导方针。它支持实例和语义分割，提供对深度学习框架和不同分割策略的适应性，而包含乳房高度数据的直径将其实用性扩展到经典树变量的测量。总之，FOR实例数据集有助于填补3D森林研究中的空白，增强密集机载激光扫描数据的分割算法的开发和基准测试。

1.12 ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic Diffusion Models

ARSDM：基于自适应细化语义扩散模型的结肠镜图像合成

https://arxiv.org/abs/2309.01111

结肠镜分析，特别是自动息肉分割和检测，对于辅助临床诊断和治疗至关重要。然而，由于医学图像注释是劳动密集型和资源密集型的，注释数据的稀缺性限制了现有方法的有效性和通用性。虽然最近的研究集中在数据生成和增强，以解决这个问题，所生成的数据的质量仍然是一个挑战，这限制了后续任务的性能的贡献。受扩散模型在拟合数据分布和生成高质量数据方面的优越性的启发，在本文中，我们提出了一种自适应细化语义扩散模型（ArSDM）来生成有利于下游任务的结肠镜图像。具体而言，ArSDM利用地面实况分割掩模作为训练期间的先验条件，并根据息肉/背景尺寸比调整每个输入的扩散损失。此外，ArSDM结合了一个预先训练的分割模型，通过减少地面真实掩模和预测掩模之间的差异来改进训练过程。对分割和检测任务的广泛实验表明，ArSDM生成的数据可以显着提高基线方法的性能。

1.13 Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip Segmentation in Robotic Surgeries

视觉运动学图形学习用于机器人手术器械尖端分割

https://arxiv.org/abs/2309.00957

手术器械尖端的准确分割是实现机器人手术中的下游应用的重要任务，例如手术技能评估、工具-组织相互作用和变形建模以及手术自主性。然而，由于手术器械尖端的小尺寸以及不同手术过程中手术场景的显著变化，该任务非常具有挑战性。虽然已经在基于视觉的方法上做出了很多努力，但是现有的分割模型仍然具有低鲁棒性，因此在实践中不可用。幸运的是，来自机器人系统的运动学数据可以为器械定位提供可靠的先验，无论不同的手术类型如何，这都是一致的。为了利用这种多模态信息，我们提出了一种新的视觉运动学图形学习框架，以准确地分割各种手术程序的仪器尖端。具体而言，提出了一个图学习框架，从图像和运动学的仪器部件的关系特征进行编码。接下来，跨模态对比损失被设计成将从运动学到图像的鲁棒几何先验用于尖端分割。我们已经在包括多个过程的私人配对视觉运动学数据集上进行了实验，即，前列腺切除术、全直肠系膜切除术、胃底折叠术和远端胃切除术（尸体）以及远端胃切除术（猪）。留一程序交叉验证表明，我们提出的多模态分割方法显着优于当前基于图像的最先进的方法，平均超过11.2%的骰子。

1.14 Boosting Weakly-Supervised Image Segmentation via Representation, Transform, and Compensator

基于表示、变换和补偿器的弱监督图像分割

https://arxiv.org/abs/2309.00871

弱监督图像分割（WSIS）是计算机视觉中依赖于图像级类别标签的关键任务。多阶段训练程序已被广泛用于现有的信息社会世界峰会的方法，以获得高质量的伪面具作为地面真相，从而取得了重大进展。然而，单阶段WSIS方法最近由于其简化训练程序的潜力而受到关注，尽管其经常遭受低质量伪掩模的影响，从而限制了其实际应用。为了解决这个问题，我们提出了一种新的单阶段WSIS方法，利用对比学习的siamese网络来提高类激活图（CAM）的质量，并实现自细化过程。我们的方法采用了交叉表示细化方法，通过利用不同的特征表示从骨干扩展可靠的对象区域。此外，我们引入了一个交叉变换正则化模块，学习强大的类原型进行对比学习，并捕获全局上下文信息来反馈粗略的CAM，从而提高CAM的质量。我们最终的高质量CAM被用作伪掩模来监督分割结果。在PASCAL VOC 2012数据集上的实验结果表明，我们的方法显着优于其他最先进的方法，在PASCAL VOC 2012 val集和测试集上分别实现了67.2%和68.76%的mIoU。此外，我们的方法已被扩展到弱监督对象定位任务，实验结果表明，我们的方法继续取得非常有竞争力的结果。

1.15 When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation with Weak-and-Noisy Supervision

当3D包围盒满足SAM：弱噪声监督下的点云实例分割

https://arxiv.org/abs/2309.00828

从边界框注释中学习在弱监督的3D点云实例分割中显示出巨大的潜力。然而，我们观察到，现有的方法将遭受严重的性能下降与扰动的边界框注释。为了解决这个问题，我们提出了一个互补的图像提示诱导弱监督点云实例分割（CIP-WPIS）方法。CIP-WPIS利用嵌入在2D基础模型SAM和3D几何中的预先训练的知识，然后从边界框注释实现准确的逐点实例标签。具体地，CP-WPIS首先选择实例的3D候选点完全可见的图像视图。然后，我们从投影生成互补的背景和前景提示，以获得SAM 2D实例掩码预测。根据这些，我们将置信度值分配给指示属于实例的点的可能性的点。此外，我们利用三维几何同质性提供的超点，以决定最终的实例标签分配。以这种方式，我们实现了高质量的3D逐点实例标签。在Scannet-v2和S3 DIS基准测试上的大量实验表明，我们的方法对嘈杂的3D边界框注释具有鲁棒性，并实现了最先进的性能。

1.16 Soil Image Segmentation Based on Mask R-CNN

基于MASK R-CNN的土壤图像分割

https://arxiv.org/abs/2309.00817

在野外自然环境中采集的土壤图像背景复杂，会影响后续的基于机器视觉的土壤图像识别。从土壤图像中分割出土壤中心区域可以消除复杂背景的影响，是后续土壤图像识别的重要预处理工作。首次将深度学习方法应用于土壤图像分割，选择Mask R-CNN模型完成土壤图像的定位和分割。基于采集的土壤图像构建土壤图像数据集，使用EISeg标注工具将土壤区域标记为土壤，并保存标注信息;训练Mask R-CNN土壤图像实例分割模型。训练好的模型对土壤图像能获得准确的分割结果，对不同环境下采集的土壤图像都能表现出良好的分割性能;训练后的实例分割模型在训练集中的损失值为0.1999，验证集分割的mAP（IoU=0.5）为0.8804，基于GPU加速完成图像分割仅需0.06s，可满足自然条件下野外土壤图像的实时分割检测。你可以在结论中找到我们的代码。主页是https://github.com/YidaMyth。

1.17 FAU-Net: An Attention U-Net Extension with Feature Pyramid Attention for Prostate Cancer Segmentation

FAU-Net：一种用于前列腺癌分割的关注金字塔关注U-Net扩展

https://arxiv.org/abs/2309.01322

这一贡献提出了一种基于U-Net的MRI图像中前列腺区域分割的深度学习方法，使用添加和特征金字塔注意力模块，可以改善前列腺癌检测和诊断的工作流程。所提出的模型进行比较，七个不同的基于U-Net的架构。中心区（CZ）、外周区（PZ）、过渡区（TZ）和肿瘤的每个模型的自动分割性能使用Dice Score（DSC）和交集（IoU）度量进行评估。所提出的替代方案在测试集中实现了84.15%的平均DSC和76.9%的IoU，优于这项工作中的大多数研究模型，除了R2 U-Net和注意R2 U-Net架构。

1.18 Channel Attention Separable Convolution Network for Skin Lesion Segmentation

用于皮肤病变分割的通道注意力可分离卷积网络

https://arxiv.org/abs/2309.01072

皮肤癌是人类人群中的一种多发病癌症，能够早期诊断出体内恶性肿瘤非常重要。病变分割对于监测皮肤病变的形态变化、提取特征以定位和识别疾病以辅助医生早期诊断至关重要。皮肤镜图像的手动去分割容易出错且耗时，因此迫切需要精确且自动的分割算法。受U-Net，DenseNet，可分离卷积，通道注意力和Atrous空间金字塔池（ASPP）等先进机制的启发，我们提出了一种新的网络称为通道注意力可分离卷积网络（CASCN）用于皮肤病变分割。建议的CASCN进行评估的PH 2数据集有限的图像。CASCN无需过多的图像预/后处理，在PH 2数据集上实现了最先进的性能，Dice相似系数为0.9461，精度为0.9645。

1.19 AdLER: Adversarial Training with Label Error Rectification for One-Shot Medical Image Segmentation

Adler：一次医学图像分割的对抗性训练和标签纠错

https://arxiv.org/abs/2309.00971

医学图像的准确自动分割通常需要具有高质量注释的大型数据集，由于训练数据有限，使得其在临床环境中不太适用。当标记数据极其有限时，基于学习变换的单次分割（OSSLT）已经显示出希望，通常包括无监督的可变形配准、具有学习配准的数据增强以及从增强数据学习的分割。然而，目前的单次分割方法的挑战有限的数据多样性在增强，和潜在的标签错误所造成的不完美的注册。为了解决这些问题，我们提出了一种新的一次性医学图像分割方法与对抗训练和标签错误纠正（AdLER），其目的是提高生成的数据的多样性和纠正标签错误，以提高分割性能。具体来说，我们实现了一种新的双重一致性约束，以确保解剖对齐的注册，减少注册错误。此外，我们开发了一个对抗训练策略，以增强图谱图像，这确保了生成的多样性和分割的鲁棒性。我们还提出了纠正潜在的标签错误在增强的图集图像估计分割的不确定性，这可以补偿不完善的性质的变形配准和提高分割的真实性。在CANDI和ABIDE数据集上的实验表明，所提出的AdLER优于以前的国家的最先进的方法0.7%（CANDI），3.6%（ABIDE“看到”），和4.9%（ABIDE“看不见”）的分割，分别基于Dice分数。源代码将在https://github.com/hsiangyuzhao/AdLER上提供。