【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（11 月 27 日论文合集）

最新推荐文章于 2024-04-21 20:06:34 发布

旅途中的宽~

最新推荐文章于 2024-04-21 20:06:34 发布

阅读量1.1k

点赞数 22

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/134682611

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 135 订阅

订阅专栏

文章目录

一、分割|语义相关(19篇)

一、分割|语义相关(19篇)

1.1 FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding in Open World

Falcon：开放世界中持续语义场景理解的对比注意公平性学习

https://arxiv.org/abs/2311.15965

语义场景分割中的持续学习旨在在动态环境中不断学习新的不可见类，同时保持先前学习的知识。先前的研究集中在对持续学习中的灾难性遗忘和背景转移挑战进行建模。然而，公平性，另一个主要的挑战，导致不公平的预测，导致主要和次要类之间的低性能，仍然需要很好地解决。此外，现有的方法还没有很好地建模未知类，从而导致在未知类之间产生非判别特征。本文提出了一种新的公平学习通过对比注意的方法，在语义场景理解的持续学习。特别是，我们首先引入了一个新的公平对比聚类损失，以解决灾难性遗忘和公平性的问题。然后，我们提出了一个基于注意力的视觉语法方法，有效地模拟背景转移问题和未知类，产生更好的特征表示不同的未知类。通过我们的实验，我们提出的方法实现了国家的最先进的（SOTA）性能在不同的持续学习设置的三个标准的基准，即，ADE20K、Cityscapes和Pascal VOC。它提高了连续语义切分模型的公平性。

1.2 Unleashing the Power of Prompt-driven Nucleus Instance Segmentation

释放即时驱动型Ncore实例细分的力量

https://arxiv.org/abs/2311.15939

组织学图像中的核实例分割对于广泛的临床应用至关重要。当前流行的核实例分割算法依赖于核轮廓的回归、距离图、分水岭标记或星凸多边形的代理核表示。因此，这些方法需要复杂的后处理操作来区分核实例，这通常被认为是容易出错且参数敏感的。近年来，分段任何模型（SAM）由于其令人印象深刻的泛化能力和及时性而在医学图像分割领域引起了巨大的关注。然而，其在核实例分割方面的潜力在很大程度上仍未得到充分开发。在本文中，我们提出了一种新颖的提示驱动框架，由点提示器和用于自动核实例分割的 SAM 组成。具体来说，提示器学习为每个核生成唯一的点提示，而 SAM 则进行微调以输出提示核的相应掩码。此外，我们建议添加相邻的核作为负面提示，以提高模型识别重叠核的能力。没有花哨的东西，我们提出的方法在三个具有挑战性的基准上设置了新的最先进的性能。我们的代码可在 \textcolor{magenta}{\url{https://github.com/windygoo/PromptNucSeg}} 获取。

1.3 MARIS: Referring Image Segmentation via Mutual-Aware Attention Features

MARIS：通过相互感知注意特征的参考图像分割

https://arxiv.org/abs/2311.15727

参考图像分割（RIS）的目的是根据语言表达提示分割特定区域。现有的方法将语言特征融入视觉特征中，并获得用于掩码解码的多模态特征。然而，这些方法可能会分割视觉上显著的实体，而不是正确的参考区域，因为多模态特征是由丰富的视觉上下文。在本文中，我们提出了MARIS，一个参考图像分割方法，利用段任何模型（SAM），并引入了一个相互感知的注意机制，以提高跨模态融合通过两个并行分支。具体来说，我们的相互感知注意机制包括视觉引导注意和记忆引导注意，它们双向地模拟视觉和语言特征之间的关系。相应地，我们设计了一个掩码解码器，使明确的语言指导更一致的分割与语言表达。为此，提出了一种多模态查询令牌，以整合语言信息并同时与视觉信息进行交互。在三个基准数据集上的大量实验表明，我们的方法优于最先进的RIS方法。我们的代码将公开。

1.4 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic Segmentation

用于弱监督和半监督三维语义分割的二维特征提取

https://arxiv.org/abs/2311.15605

随着3D感知问题越来越受欢迎，以及对用于LiDAR语义分割的大规模标记数据集的需求增加，出现了旨在通过采用弱监督训练来减少密集注释的必要性的新方法。然而，这些方法仍然表现出弱的边界估计和高的假阴性率小对象和遥远的稀疏区域。我们认为，这样的弱点可以通过使用RGB图像，提供了一个更密集的表示场景补偿。我们提出了一种图像引导网络（IGNet），它建立在从域适应综合训练的2D语义分割网络中提取高级特征信息的思想基础上。我们进一步利用单向对比学习方案以及称为FOVMix的新型混合策略，以对抗两个传感器之间的水平视场失配并增强图像引导的效果。IGNet在ScribbleKITTI上实现了最先进的弱监督LiDAR语义分割结果，与仅8%标记点的完全监督训练相比，相对性能高达98%，同时在推理过程中不会引入额外的注释负担或计算/内存成本。此外，我们还证明了我们的贡献对于半监督训练也是有效的，IGNet声称在ScribbleKITTI和SemanticKITTI上都有最先进的结果。

1.5 Instruct2Attack: Language-Guided Semantic Adversarial Attacks

Instruct2Attack：语言制导的语义对抗性攻击

https://arxiv.org/abs/2311.15551

我们提出了指令2攻击（I2 A），一种语言引导的语义攻击，根据自由形式的语言指令生成语义上有意义的扰动。我们利用最先进的潜在扩散模型，在那里我们对抗性地引导反向扩散过程，以搜索以输入图像和文本指令为条件的对抗性潜在代码。与现有的基于噪声和语义的攻击相比，I2 A生成了更自然、更多样化的对抗性示例，同时提供了更好的可控性和可解释性。我们进一步使用GPT-4自动化攻击过程，以生成各种特定于图像的文本指令。我们表明，即使在强大的对抗性防御下，I2 A也可以成功打破最先进的深度神经网络，并在各种网络架构之间表现出很好的可移植性。

1.6 SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

SED：一种简单的开放词汇语义切分编解码器

https://arxiv.org/abs/2311.15537

开放词汇语义分割致力于从一组开放的类别中将像素区分为不同的语义组。现有的方法大多采用预先训练好的视觉语言模型，其关键是采用图像级模型进行像素级分割。在本文中，我们提出了一个简单的编码器-解码器，命名为SED，开放词汇语义分割，它包括一个分层的编码器为基础的成本地图生成和逐步融合解码器类别早期拒绝。基于分层编码器的代价图生成采用分层主干而不是普通的Transformer来预测像素级图像-文本代价图。与普通Transformer相比，层次骨干更好地捕获局部空间信息，并且具有与输入大小成线性关系的计算复杂度。我们的渐进融合解码器采用自上而下的结构，结合成本地图和不同骨干水平的分割特征地图。为了加快推理速度，我们在解码器中引入了类别早期拒绝方案，该方案在解码器的早期层拒绝许多不存在的类别，从而在不降低精度的情况下最多加速4.7倍。在多个开放词汇语义分割数据集上进行了实验，证明了我们的SED方法的有效性。当使用ConvNeXt-B时，我们的SED方法在ADE 20 K上实现了31.6%的mIoU分数，在单个A6000上每个图像82毫秒（ $m s$ ）的150个类别。我们将在\url{https：//github.com/xb534/SED.git}发布它。

1.7 CaesarNeRF: Calibrated Semantic Representation for Few-shot Generalizable Neural Rendering

CaesarNeRF：用于Few-Shot泛化神经绘制的校准语义表示

https://arxiv.org/abs/2311.15510

泛化能力和Few-Shot学习是NeRF中的关键挑战，通常是由于缺乏对像素级渲染的整体理解。我们介绍了CaesarNeRF，这是一种端到端的方法，它利用场景级CAlibratEd Semantic Representation以及像素级表示来推进Few-Shot，可泛化的神经渲染，促进整体理解而不影响高质量的细节。CaesarNeRF显式地对参考视图的差异进行建模，以组合场景级语义表示，提供校准的整体理解。此校准过程将各种视点与精确位置对齐，并通过顺序细化来进一步增强，以捕获不同的细节。在LLFF、Shiny、mip-NeRF 360和MVImgNet等公共数据集上进行的大量实验表明，CaesarNeRF在不同数量的参考视图上都能提供最先进的性能，即使是在单个参考图像上也能有效。这个工作的项目页面可以在https://haidongz-usc.github.io/project/caesarnerf上找到。

1.8 Where to Begin? From Random to Foundation Model Instructed Initialization in Federated Learning for Medical Image Segmentation

从哪里开始？从随机到基础模型指导的联邦学习医学图像分割算法

https://arxiv.org/abs/2311.15463

在医学图像分析中，联邦学习（FL）是一项关键技术，可以实现隐私保护，分散的数据处理，这对于处理敏感的医疗数据至关重要。目前，大多数FL模型采用随机初始化，这已被证明是有效的，在各种情况下。然而，鉴于FL中非IID（独立同分布）数据所带来的独特挑战，我们提出了一个新的视角：探索使用具有大量预训练知识的基础模型（如分段任何模型（SAM））作为FL模型初始化的指导教师在医学图像分割任务中的影响。这项工作首次尝试利用基础模型作为FL初始化的指导教师，评估其对FL模型性能的影响，特别是在非IID数据场景中。我们对胸部X射线肺分割的经验评估表明，FL与基础模型指导的初始化不仅实现了更快的收敛，而且提高了复杂数据环境中的性能。这些发现提供了一个新的视角，在FL模型初始化。

1.9 Deep Learning-Based Approaches for Contactless Fingerprints Segmentation and Extraction

基于深度学习的非接触式指纹分割与提取方法

https://arxiv.org/abs/2311.15163

指纹被广泛认为是人类身份的最独特和最可靠的特征之一。大多数现代指纹认证系统依赖于基于接触的指纹，这需要在认证过程中使用指纹扫描仪或指纹传感器来捕获指纹。各种类型的指纹传感器，例如光学、电容和超声波传感器，采用不同的技术来收集和分析指纹数据。这种对特定硬件或传感器的依赖性为更广泛地采用基于指纹的生物识别系统造成了障碍或挑战。这种限制阻碍了指纹认证在各种应用和场景中的广泛采用。当指纹传感器尚未普及时，边境控制、医疗保健系统、教育机构、金融交易和机场安全都面临挑战。为了减轻对额外硬件的依赖，非接触式指纹的使用已经成为一种替代方案。开发精确的指纹分割方法，准确的指纹提取工具和可靠的指纹匹配器对于成功实现强大的非接触式指纹认证系统至关重要。本文重点介绍了一种基于深度学习的非接触式指纹定位和分割工具的开发。我们的系统利用深度学习技术实现了高分割精度和可靠的非接触式指纹图像指纹提取。在我们的评估中，我们的分割方法表现出30像素的平均绝对误差（MAE），角度预测（EAP）的误差为5.92度，标记准确率为97.46%。这些结果证明了我们的新型非接触式指纹分割和提取工具的有效性。

1.10 Can SAM recognize crops? Quantifying the zero-shot performance of a semantic segmentation foundation model on generating crop-type maps using satellite imagery for precision agriculture

SAM能识别农作物吗？利用卫星图像生成精准农业作物类型图的语义分割基础模型的Zero-Shot性能量化

https://arxiv.org/abs/2311.15138

气候变化正在日益扰乱全球农业，使全球粮食生产变得不那么可靠。为了应对养活地球的日益严峻的挑战，尖端的管理战略，如精准农业，为农民和决策者提供丰富的可操作信息，以提高其耕作方法的效率和可持续性。作物类型图是决策的关键信息，我们研究了Meta AI的Segment Anything Model（SAM）用于作物地图预测任务的能力，承认其最近在zero-shot图像分割方面的成功。然而，SAM被限制为最多3个通道输入，并且其zero-shot使用本质上是类不可知的，这对直接将其用于作物类型映射提出了独特的挑战。虽然在zero-shot设置中使用SAM进行直接作物类型制图具有挑战性，但实验表明SAM具有快速准确地在卫星图像中勾勒出田地轮廓的潜力，作为后续作物分类的基础。本文试图突出一个使用的情况下，国家的最先进的图像分割模型，如SAM的作物，类型映射和相关的农业行业的具体需求，提供了一个潜在的途径，自动，高效，具有成本效益的数据产品，精准农业的做法。

1.11 SAMv2: A Unified Framework for Learning Appearance, Semantic and Cross-Modality Anatomical Embeddings

SAMv2：学习外观、语义和跨通道解剖嵌入的统一框架

https://arxiv.org/abs/2311.15111

识别解剖结构（例如，病变或界标）在医学图像分析中起着基本的作用。作为一种基于范例的界标检测方法，自监督解剖学嵌入（SAM）为图像中的每个体素学习一个有区别的嵌入，并在各种任务上显示出有希望的结果。然而，SAM仍然面临以下挑战：（1）区分具有相似外观但不同语义含义的体素（\textit{e.g.}，没有清晰边界的两个相邻结构）;（2）匹配具有相似语义但明显不同外观的体素（例如，造影剂注射前后的相同血管）;以及（3）跨模态匹配（例如，CT-MRI配准）。为了克服这些挑战，我们提出了SAMv 2，这是一个统一的框架，旨在学习外观，语义和跨模态解剖嵌入。具体来说，SAMv 2包含三个关键创新：（1）具有原型对比损失的语义嵌入学习;（2）基于固定点的匹配策略;（3）跨模态嵌入学习的迭代方法。我们在三个任务中全面评估了SAMv 2，包括单次标记检测、纵向CT扫描上的病变跟踪以及具有不同视野的CT-MRI仿射/刚性配准。我们的研究结果表明，SAMv 2优于SAM和其他国家的最先进的方法，提供了一个强大的和通用的方法，基于地标的医学图像分析任务。代码和训练模型可在以下网址获得：https://github.com/alibaba-damo-academy/self-supervised-anatomical-embedding-v2

1.12 Weakly-Supervised Audio-Visual Segmentation

弱监督视听分割

https://arxiv.org/abs/2311.15080

视听分割是一项具有挑战性的任务，旨在预测视频中声源的像素级掩模。以前的工作应用了一个全面的手动设计的架构与无数的像素明智的准确的面具作为监督。然而，这些像素级掩模是昂贵的，并且不是在所有情况下都可用。在这项工作中，我们的目标是将监督简化为实例级注释，即，弱监督视听分割我们提出了一种新的弱监督视听分割框架，即WS-AVS，可以学习多尺度视听对齐与多尺度多实例对比学习视听分割。在AVSBench上进行的大量实验证明了WS-AVS在单源和多源弱监督音视频分割中的有效性。

1.13 Segmentation of diagnostic tissue compartments on whole slide images with renal thrombotic microangiopathies (TMAs)

肾血栓性微血管病(TMAS)诊断组织分区的整体切片图像分割

https://arxiv.org/abs/2311.14971

血栓性微血管病（TMAs）表现在肾脏活检组织学上，具有广泛的急性和慢性表现。肾活检诊断TMA的精确诊断标准缺失。作为对来自肾活检的完整载玻片图像进行基于机器学习和计算机视觉的分析的第一步，我们在来自具有TMA和Mimickers的肾活检的一组完整载玻片图像上训练了用于决定性诊断肾组织隔室动脉、小动脉、肾小球的分割模型。（具有与TMA相似的肾脏病理学表现的不同疾病，如重度良性肾硬化、各种血管炎、贝伐珠单抗栓塞性肾小球病，小动脉轻链沉积病）。我们的分割模型将基于U-Net的组织检测与移位窗口转换器架构相结合，即使是最严重改变的肾小球，小动脉和动脉，即使是来自不同肾脏病理学实验室的不可见染色域，也能达到出色的分割结果。通过对人类肾血管病中决定性的肾活检区室进行准确的自动分割，我们为大规模特定于区室的机器学习和具有TMA的肾活检库的计算机视觉分析奠定了基础。

1.14 Unified Medical Image Pre-training in Language-Guided Common Semantic Space

基于语言制导公共语义空间的统一医学图像预训练

https://arxiv.org/abs/2311.14851

视觉语言预训练（VLP）通过利用医学图像及其相应报告之间的语义一致性，显示了分析医学图像的优点。它有效地学习视觉表示，这反过来又有助于增强对复杂成像数据的分析和解释。然而，这种观察主要是在单模态数据（主要是2D图像，如X射线）上进行的，使VLP适应于学习真实场景中医学图像的统一表示仍然是一个开放的挑战。这是由于医学图像通常包含各种模态，特别是具有不同的各种数量的维度的模态（例如，3D图像，如计算机断层扫描）。为了克服上述挑战，我们提出了一个统一的医学图像预训练框架，即UniMedI，它利用诊断报告作为公共语义空间，为不同形式的医学图像（特别是2D和3D图像）创建统一的表示。在文本的指导下，我们有效地揭示了视觉模态信息，在复杂的3D CT扫描中识别2D X射线和包含病变的切片中的受影响区域，最终提高了各种医学成像模态的一致性。为了证明UniMedI的有效性和多功能性，我们评估了其在10个不同数据集的2D和3D图像上的性能，涵盖了广泛的医学图像任务，如分类，分割和检索。UniMedI在下游任务中表现出卓越的性能，展示了其在建立通用医学视觉表示方面的有效性。

1.15 Text and Click inputs for unambiguous open vocabulary instance segmentation

文本和点击输入，用于明确的开放词汇表实例分割

https://arxiv.org/abs/2311.14822

分割在每像素的细粒度尺度上定位图像中的对象。分割受益于人在回路中提供额外的对象输入，以使用前景或背景点击的组合进行分割。任务包括照片编辑或新的数据集注释，其中人类注释者利用现有的分割模型，而不是绘制原始像素级注释。我们提出了一个新的分割过程，文本+点击分割，其中一个模型作为输入的图像，一个文本短语描述一个类分割，和一个单一的前景点击指定的实例分割。与以前的方法相比，我们利用开放词汇的图像-文本模型，以支持广泛的文本提示。对文本提示的条件分割提高了对新的或看不见的类的分割的准确性。我们证明，一个单一的用户指定的前景点击和文本提示的组合允许模型，以更好地消除歧义重叠或共同出现的语义类别，如“领带”，“西装”，和“人”。我们在常见的分割数据集（如refCOCO，COCO，VOC和OpenImages）中研究这些结果。源代码在这里。

1.16 An Ensemble of 2.5D ResUnet Based Models for Segmentation for Kidney and Masses

一种基于2.5D网格的肾脏和肿块分割模型集成

https://arxiv.org/abs/2311.15586

CT图像中肾脏、肾脏肿瘤和肾囊肿的自动分割是一项具有挑战性的任务，因为病变边界不清晰，纹理模糊。针对CT图像厚度范围大、分布不均匀的特点，本文采用2.5D ResUnet建立了一个高效的由粗到细的语义分割框架。一组489个CT扫描用于训练和验证，一个独立的从未使用过的CT扫描用于测试。最后，我们证明了我们所提出的方法的有效性。肾脏、肿瘤和囊肿在测试集上的Dice值分别为0.954、0.792、0.691，表面Dice值分别为0.897、0.591、0.541。平均每次CT扫描的推理时间为20.65s，最大GPU内存为3525MB。结果表明，一个更好的权衡模型的性能和效率。

1.17 Leveraging Anatomical Constraints with Uncertainty for Pneumothorax Segmentation

利用具有不确定性的解剖约束进行气胸分割

https://arxiv.org/abs/2311.15213

气胸是一种医疗紧急情况所造成的异常积聚的空气在胸膜腔-肺和胸壁之间的潜在空间。在2D胸片上，气胸发生在胸腔内和纵隔外，我们将该区域称为“肺+间隙”。虽然深度学习（DL）越来越多地用于分割胸片中的气胸病变，但许多现有的DL模型采用端到端方法。这些模型直接将胸部X光片映射到临床医生注释的病变区域，通常忽略了气胸固有位置敏感的重要领域知识。我们提出了一种新的方法，将肺+空间作为约束条件，在DL模型训练气胸分割的2D胸片。为了避免需要额外的注释，并防止潜在的标签泄漏的目标任务，我们的方法利用外部数据集和肺分割的辅助任务。该方法为每张胸片生成肺+空间的特定约束。此外，我们已经纳入了一个约束，以消除不可靠的约束所造成的域之间的转移的辅助和目标数据集。我们的结果显示出显着的改进，在交集对并集（IoU），Dice相似系数（DSC）和Hausdorff距离（HD）方面的平均性能增益分别为4.6%，3.6%和3.3%。我们的研究强调了将关于气胸的位置特异性性质的医学领域知识结合起来以增强基于DL的病变分割的重要性。

1.18 Fine-Grained Unsupervised Cross-Modality Domain Adaptation for Vestibular Schwannoma Segmentation

细粒度无监督跨通道域自适应前庭神经鞘瘤分割

https://arxiv.org/abs/2311.15090

领域自适应方法在跨不同供应商和中心传输样式以及填补模态中的空白方面获得了广泛的认可。然而，多中心应用面临着领域适应困难的挑战，由于他们的域内差异。我们专注于引入一个细粒度的无监督框架，以促进前庭神经鞘瘤（VS）和耳蜗的跨模态分割。我们建议使用一个向量来控制生成器合成一个假的图像与给定的功能。然后，我们可以通过搜索特征字典来对数据集应用各种增强。多样性增强可以提高分割模型的性能和鲁棒性。在CrossMoDA验证阶段排行榜上，我们的方法在VS和耳蜗上的平均Dice得分分别为0.765和0.836。

1.19 Uncertainty Aware AI for MRI Segmentation

核磁共振图像分割中的不确定性感知人工智能

https://arxiv.org/abs/2311.14875

鲁棒的不确定性估计在深度学习的安全关键应用中是必要的。一个这样的例子是医学图像的语义分割，虽然深度学习方法在这些任务中具有高性能，但它们缺乏可解释性，因为它们在做出分类决策时没有给出信心的指示。鲁棒和可解释的分割是自动筛选病理的关键第一阶段，因此最佳解决方案是可以提供高度准确性但也可以捕获潜在不确定性的解决方案。在这项工作中，我们提出了一个不确定性感知的分割模型，BA U-Net，用于MRI数据，结合贝叶斯神经网络和注意力机制，以提供准确和可解释的分割。我们使用F1得分和交集超过联合（IoU）作为评估指标，在公开的BraTS 2020数据集上评估了我们的模型。