【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 22 日论文合集）

最新推荐文章于 2024-10-11 20:04:48 发布

旅途中的宽~

最新推荐文章于 2024-10-11 20:04:48 发布

阅读量509

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/132490601

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 140 订阅

订阅专栏

文章目录

一、分割|语义相关(16篇)

一、分割|语义相关(16篇)

1.1 Test-time augmentation-based active learning and self-training for label-efficient segmentation

基于测试时间扩充的主动学习和自我训练的标签有效分割

https://arxiv.org/abs/2308.10727

深度学习技术依赖于大型数据集，这些数据集的注释非常耗时。为了减少注释负担，已经开发了自训练（ST）和主动学习（AL）方法以及以迭代方式组合它们的方法。然而，目前还不清楚每种方法何时最有用，何时将它们结合起来是有利的。在本文中，我们提出了一种新的方法，结合ST与AL使用测试时间增强（TTA）。首先，在初始教师网络上执行TTA。然后，基于最低估计的Dice得分来选择用于注释的案例。具有高估计分数的病例用作ST的软伪标签。所选择的注释病例用现有注释病例和具有边界切片注释的ST病例来训练。我们展示了MRI胎儿身体和胎盘分割任务的不同数据变异性特征的方法。我们的研究结果表明，ST是非常有效的这两个任务，提高性能的分布（ID）和分布（OOD）数据。然而，虽然自训练提高了单序列胎儿身体分割的性能时，结合AL，它稍微恶化了多序列胎盘分割的性能在ID数据上。AL有助于高变异性胎盘数据，但在单序列体数据随机选择后没有改善。对于胎儿身体分割序列转移，在ST迭代之后将AL与ST组合产生0.961的Dice，仅具有6次原始扫描和2次新序列扫描。结果仅使用15例高变异性胎盘病例与使用50例病例的结果相似。代码可在：https://github.com/Bella31/TTA-quality-estimation-ST-AL

1.2 Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations

利用语义变化提高零射GaN自适应的多样性

https://arxiv.org/abs/2308.10554

训练深度生成模型通常需要大量数据。为了减轻数据收集成本，zero-shot GAN自适应的任务旨在重用经过良好训练的生成器来合成看不见的目标域的图像，而无需任何进一步的训练样本。由于数据缺失，目标域的文本描述和视觉语言模型（例如，CLIP用于有效引导发生器。然而，只有一个单一的代表性的文本特征，而不是真正的图像，合成的图像逐渐失去多样性的模型进行优化，这也被称为模式崩溃。为了解决这个问题，我们提出了一种新的方法来找到语义变化的目标文本中的CLIP空间。具体来说，我们探索不同的语义变化的基础上的信息文本功能的目标域，同时规范的语义信息的不受控制的偏差。与所获得的变化，我们设计了一种新的方向矩损失，匹配的第一和第二时刻的图像和文本的方向分布。此外，我们引入弹性权重合并和关系一致性损失以有效地保留来自源域的有价值的内容信息，例如，外表通过大量的实验，我们证明了所提出的方法在确保样本的多样性在各种情况下的zero-shot GAN适应的有效性。我们还进行消融研究，以验证每个拟议的组件的效果。值得注意的是，我们的模型在多样性和质量方面都实现了最先进的zero-shot GAN适应。

1.3 CVFC: Attention-Based Cross-View Feature Consistency for Weakly Supervised Semantic Segmentation of Pathology Images

CVFC：基于注意力的病理图像交叉视点特征一致性弱监督语义分割

https://arxiv.org/abs/2308.10449

组织病理学图像分割是诊断癌症的金标准，可以指示癌症的预后。然而，组织病理学图像分割需要高质量的掩模，因此现在许多研究使用imagelevel标签来实现像素级分割，以减少对细粒度注释的需求。为了解决这个问题，我们提出了一个基于注意力的跨视图特征一致性端到端伪掩码生成框架CVFC。具体而言，CVFC是由两个Resnet 38和一个Resnet 50组成的三分支联合框架，以及独立分支多尺度集成特征图，生成类激活图（CAM）;在每个分支中，通过下采样和扩展的方法调整CAM的大小;中间分支将特征矩阵投影到查询和关键特征空间，并通过连接层和内积生成特征空间感知矩阵，对各分支的CAM进行调整和细化;最后，通过特征一致性损失和特征交叉损失对协同训练模式下CVFC的参数进行优化。经过大量实验，在WSSS 4LUAD数据集上获得了0.7122的IoU和0.7018的fwIoU，其性能分别优于HistoSegNet、SEAM、C-CAM、WSSS-Tissue和OEEM。

1.4 Hyper Association Graph Matching with Uncertainty Quantification for Coronary Artery Semantic Labeling

冠状动脉语义标注的不确定性量化超关联图匹配

https://arxiv.org/abs/2308.10320

冠状动脉疾病（CAD）是世界范围内导致死亡的主要原因之一。准确提取有创冠状动脉造影（ICA）上的单个动脉分支对于狭窄检测和CAD诊断非常重要。然而，基于深度学习的模型在生成冠状动脉的语义分割方面面临挑战，这是由于不同类型冠状动脉之间的形态相似性。为了解决这一挑战，我们提出了一种创新的方法，使用超关联图匹配神经网络的不确定性量化（HAGMN-UQ）冠状动脉语义标记ICA。图匹配过程将动脉分支映射到两个单独的图之间，使得未标记的动脉段被标记的段分类，并实现冠状动脉的语义标记。通过结合解剖结构损失和不确定性，我们的模型实现了0.9345的冠状动脉语义标记的准确性，快速推理速度，导致了一个有效和高效的预测实时临床决策场景。

1.5 BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge

BAVS：整合基础知识的自举视听分割

https://arxiv.org/abs/2308.10175

给定视听对，视听分割（AVS）的目的是通过预测逐像素映射来定位声源。先前的方法假设音频信号中的每个声音分量在图像中总是具有视觉对应物。然而，这种假设忽略了屏幕外的声音和背景噪声经常污染现实世界场景中的音频记录。它们对在AVS模型的音频和视觉信号之间建立一致的语义映射提出了重大挑战，从而阻碍了精确的声音定位。在这项工作中，我们提出了一个两阶段的引导视听分割框架，将多模态的基础知识。简而言之，我们的BAVS旨在通过以明确的方式建立视听对应来消除背景噪音或屏幕外声音对分割的干扰。在第一阶段中，我们采用了一个分割模型来定位潜在的发声对象从视觉数据，而不受污染的音频信号。同时，我们还利用一个基础的音频分类模型来识别音频语义。考虑到由音频基础模型提供的音频标签是有噪声的，将对象掩码与音频标签相关联不是微不足道的。因此，在第二阶段，我们开发了一个视听语义集成策略（AVIS）本地化的真实发声对象。在这里，我们构建了一个视听树的基础上，声音和对象类别之间的层次对应关系。然后，我们检查本地化的对象和分类的音频标签之间的标签并发跟踪的视听树。利用AVIS，我们可以有效地分割真实声音的目标。大量的实验表明，我们的方法的优越性AVS数据集，特别是在涉及背景噪声的情况下。我们的项目网站是https://yenanliu.github.io/AVSS.github.io/。

1.6 SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation

SSMG：空间-语义地图引导的自由布局-图像生成扩散模型

https://arxiv.org/abs/2308.10156

尽管文本到图像（T2I）生成模型取得了重大进展，但即使是冗长而复杂的文本描述仍然难以传达详细的控制。相比之下，布局到图像（L2I）生成，旨在从用户指定的布局生成逼真和复杂的场景图像，已经上升到突出。然而，现有的方法将布局信息转换成令牌或RGB图像，以在生成过程中进行条件控制，导致空间和语义的控制性不足。为了解决这些限制，我们提出了一种新的空间语义地图引导（SSMG）扩散模型，采用的特征地图，从布局，作为指导。由于丰富的空间和语义信息封装在精心设计的特征地图，SSMG实现了优越的生成质量与足够的空间和语义可控性相比，以前的作品。此外，我们提出了关系敏感注意（RSA）和位置敏感注意（LSA）机制。前者的目的是建模场景中多个对象之间的关系，而后者的目的是提高模型的敏感性嵌入在引导中的空间信息。大量的实验表明，SSMG实现了非常有前途的结果，设置了一个新的国家的最先进的指标涵盖保真度，多样性和可控性。

1.7 Controllable Multi-domain Semantic Artwork Synthesis

可控的多领域语义插图合成

https://arxiv.org/abs/2308.10111

我们提出了一个新的框架，从语义布局的多领域合成艺术品。这项具有挑战性的任务的主要限制之一是缺乏公开可用的分割数据集用于艺术合成。为了解决这个问题，我们提出了一个数据集，我们称之为ArtSem，其中包含来自4个不同领域的40，000幅艺术品图像，以及它们对应的语义标签映射。我们首先从景观摄影中提取语义地图，然后提出了一个条件生成对抗网络（GAN）为基础的方法，从语义地图中生成高质量的艺术品，而无需配对训练数据。此外，我们提出了一个艺术品合成模型，使用域相关的变分编码器的高质量的多域合成。该模型改进和补充了一个简单但有效的规范化方法，基于规范化的语义和风格联合，我们称之为空间风格自适应规范化（SSTAN）。与以前的方法相比，只采取语义布局作为输入，我们的模型能够学习风格和语义信息的联合表示，这导致更好的生成质量合成艺术图像。结果表明，我们的模型学习分离潜在空间中的域，因此，通过识别分离不同域的超平面，我们还可以对合成的艺术品进行细粒度控制。通过结合我们提出的数据集和方法，我们能够生成比现有更高质量的用户可控的艺术品

1.8 TSAR-MVS: Textureless-aware Segmentation and Correlative Refinement Guided Multi-View Stereo

TAR-MVS：无纹理感知分割和相关细化引导的多视点立体

https://arxiv.org/abs/2308.09990

由于图像之间缺乏可靠的像素对应关系，无纹理区域的重建一直是MVS中的一个具有挑战性的问题。在本文中，我们提出了纹理感知的分割和相关细化引导的多视图立体（TSAR-MVS），一种新的方法，有效地解决了由纹理区域在3D重建，通过过滤，细化和分割的挑战。首先，我们实现联合假设滤波，一种技术，合并置信度估计器与视差不连续检测器，以消除不正确的深度估计。第二，传播像素与信心的深度，我们引入了一个迭代的相关细化策略，利用RANSAC生成超像素，其次是中值滤波器扩大准确确定的像素的影响。最后，我们提出了一个纹理感知的分割方法，利用边缘检测和线检测，准确地识别大的纹理无区域，使用3D平面拟合。在大量数据集上的实验表明，我们的方法显着优于大多数非学习方法，并表现出鲁棒性的无纹理区域，同时保留了精细的细节。

1.9 Anomaly-Aware Semantic Segmentation via Style-Aligned OoD Augmentation

基于样式对齐的OOD增强的异常感知语义分割

https://arxiv.org/abs/2308.09965

在自动驾驶的背景下，在开放世界中部署期间遇到未知物体变得不可避免。因此，为标准的语义分割模型配备异常感知是至关重要的。许多先前的方法已经利用合成分布外（OoD）数据增强来解决这个问题。在这项工作中，我们通过减少OoD数据和驾驶场景之间的域差距来推进OoD合成过程，有效地减轻了风格差异，否则可能会在训练过程中作为一个明显的捷径。此外，我们提出了一个简单的微调损失，有效地诱导预先训练的语义分割模型生成一个“没有给定类”的预测，利用每像素OoD分数异常分割。通过最小的微调努力，我们的管道使使用预先训练的模型异常分割，同时保持对原始任务的性能。

1.10 Learning Multiscale Consistency for Self-supervised Electron Microscopy Instance Segmentation

自监督电子显微镜实例分割的多尺度一致性学习

https://arxiv.org/abs/2308.09917

电子显微镜（EM）体积的实例分割提出了一个重大的挑战，由于复杂的形态的实例和不足的注释。自我监督学习最近已经成为一个有前途的解决方案，使收购的细胞组织结构的先验知识，是必不可少的EM实例分割。然而，现有的预训练方法往往缺乏捕捉复杂的视觉模式和体素之间的关系的能力，这导致所获得的先验知识不足以用于下游EM分析任务。在本文中，我们提出了一种新的预训练框架，利用多尺度视觉表示捕捉体素级和特征级的一致性EM卷。具体来说，我们的框架通过重建函数强制连体网络的输出之间的体素级一致性，并结合了软特征匹配的交叉注意机制，以实现细粒度的特征级一致性。此外，我们提出了一个对比学习方案的特征金字塔提取跨多个尺度的歧视性特征。我们在四个大规模EM数据集上对我们的方法进行了广泛的预训练，在神经元和线粒体实例分割的代表性任务中实现了有希望的性能改进。

1.11 Scalable Video Object Segmentation with Simplified Framework

基于简化框架的可伸缩视频对象分割

https://arxiv.org/abs/2308.09903

当前流行的视频对象分割（VOS）方法通过几个手工制作的模块来实现特征匹配，这些模块分别执行特征提取和匹配。然而，上述手工制作的设计凭经验导致不充分的目标交互，从而限制了VOS中的动态目标感知特征学习。为了解决这些限制，本文提出了一个可扩展的简化VOS（SimVOS）框架，利用一个单一的Transformer骨干进行联合特征提取和匹配。具体而言，SimVOS采用可扩展的ViT骨干，用于同时进行特征提取以及查询和参考特征之间的匹配。该设计使SimVOS能够学习更好的目标件特征，以实现准确的掩模预测。更重要的是，SimVOS可以直接应用良好预训练的ViT骨干（例如，MAE），它弥合了VOS和大规模自我监督预训练之间的差距。为了实现更好的性能和速度的权衡，我们进一步探索帧内注意力，并提出了一个新的令牌细化模块，以提高运行速度，节省计算成本。实验上，我们的SimVOS在流行的视频对象分割基准上实现了最先进的结果，即，DAVIS-2017（88.0% J&F），DAVIS-2016（92.9% J&F）和YouTube-VOS 2019（84.2% J&F），不应用任何合成视频或BL 30 K预训练在以前的VOS方法中使用。

1.12 Semantic-Human: Neural Rendering of Humans from Monocular Video with Human Parsing

语义-人：基于人工解析的单目视频中人的神经再现

https://arxiv.org/abs/2308.09894

人类的神经渲染是一个具有重要研究意义的课题。然而，以前的工作大多集中在实现照片级真实感的细节，忽略了人类解析的探索。此外，经典的语义工作都是有限的，在他们的能力，有效地表示复杂的运动的精细结果。人类解析本质上与辐射重建相关，因为相似的外观和几何形状通常对应于相似的语义部分。此外，以前的作品往往设计一个运动场，从观察空间映射到规范空间，而它往往表现出欠拟合或过拟合，导致有限的推广。在本文中，我们提出了语义人类，一种新的方法，实现了逼真的细节和视点一致的人类解析的神经渲染的人。具体来说，我们扩展神经辐射场（NeRF），共同编码语义，外观和几何形状，以实现准确的2D语义标签使用嘈杂的伪标签监督。利用NeRF固有的一致性和平滑性，Semantic-Human在连续和新颖的视图中实现一致的人类解析。我们还介绍了来自SMPL表面的运动场和正则化恢复体积几何的约束。我们使用ZJU-MoCap数据集对模型进行了评估，获得的极具竞争力的结果证明了我们提出的语义人类的有效性。我们还展示了各种引人注目的应用，包括标签去噪，标签合成和图像编辑，并通过经验验证了其优势特性。

1.13 Microscopy Image Segmentation via Point and Shape Regularized Data Synthesis

基于点状正则化数据合成的显微图像分割

https://arxiv.org/abs/2308.09835

当前用于显微图像分割的基于深度学习的方法严重依赖于具有密集注释的大量训练数据，这在实践中是非常昂贵和费力的。与描绘对象的完整轮廓的完整注释相比，点注释（特别是对象质心）更容易获取，并且仍然提供关于对象的关键信息以用于后续分割。在本文中，我们假设访问点注释只在训练和开发一个统一的管道显微镜图像分割使用合成生成的训练数据。我们的框架包括三个阶段：（1）取点标注并采样受形状先验约束的伪密集分割掩模;（2）利用以非配对方式训练的图像生成模型，其将掩模转换为通过对象级一致性规则化的真实显微图像;（3）伪掩模与合成图像一起构成用于训练自组织分割模型的成对数据集。在公共MoNuSeg数据集上，我们的合成管道产生比基线模型更多样化和逼真的图像，同时保持输入掩模和生成的图像之间的高度一致性。当使用相同的分割骨架时，在我们的合成数据集上训练的模型显著优于那些用伪标签或基线生成的图像训练的模型。此外，我们的框架实现了类似的结果与模型上训练的真实显微镜图像与密集标签，证明了其作为一个可靠和高效的替代劳动密集型手动像素注释显微镜图像分割的潜力。代码可用。

1.14 EAVL: Explicitly Align Vision and Language for Referring Image Segmentation

EAVL：用于参考图像分割的显式对准视觉和语言

https://arxiv.org/abs/2308.09779

参考图像分割的目的是从图像中分割出自然语言中提到的对象。一个主要的挑战是与语言相关的本地化，这意味着用相关的语言定位对象。以前的方法主要集中在视觉和语言特征的融合，没有完全解决语言相关的本地化。在以前的方法中，融合的视觉语言特征被直接馈送到解码器中，并通过具有固定内核的卷积以获得结果，其遵循与传统图像分割类似的模式。这种方法在分割阶段没有明确对齐语言和视觉特征，导致次优语言相关的本地化。与以往的方法不同，我们提出了显式对齐视觉和语言参考图像分割（EAVL）。而不是使用一个固定的卷积核，我们提出了一个Aligner，明确对齐的视觉和语言的功能在分割阶段。具体地，基于输入l生成一系列不固定卷积核，并且然后用于显式地对齐视觉和语言特征。为了实现这一点，我们生成了多个查询，表示语言表达式的不同重点。这些查询被转换成一系列基于查询的卷积核。然后，我们利用这些内核在分割阶段进行卷积，并获得一系列的分割掩模。最终结果通过所有掩码的聚合获得。我们的方法不仅可以有效地融合视觉和语言的特征，而且可以在分割阶段发挥它们的潜力。最重要的是，我们明确地将不同重点的语言特征与图像特征对齐，以实现语言相关的本地化。我们的方法超过了以前的最先进的方法RefCOCO，RefCOCO+，和G-Ref大幅度。

1.15 Enhancing Medical Image Segmentation: Optimizing Cross-Entropy Weights and Post-Processing with Autoencoders

增强医学图像分割：利用自动编码器优化交叉熵权重和后处理

https://arxiv.org/abs/2308.10488

医学图像分割的任务提出了独特的挑战，需要局部和整体语义理解，以准确地描绘感兴趣的区域，如关键组织或异常特征。由于类间相似性、类内变化和可能的图像模糊的高度，这种复杂性在医学图像分割中被提高。分割任务进一步多样化时，考虑到研究的组织病理学载玻片的自身免疫性疾病，如皮肌炎。由于数据采集管道的限制，在这些情况下的细胞炎症和相互作用的分析研究较少。尽管医学科学取得了进步，但我们缺乏对自身免疫性疾病的全面收集。随着自身免疫性疾病在全球范围内的患病率不断上升，并显示出与COVID-19的相关性，他们的研究变得越来越重要。虽然现有的研究将人工智能集成到各种自身免疫性疾病的分析中，但皮肌炎的探索仍然相对不足。在本文中，我们提出了一种为医学图像分割量身定制的深度学习方法。我们提出的方法在皮肌炎数据集上的ResNet系列编码器中，U-Net的平均性能为12.26%，U-Net++的平均性能为12.04%。此外，我们探讨了优化损失函数权重的重要性，并对三个具有挑战性的医学图像分割任务进行了基准测试

1.16 EDDense-Net: Fully Dense Encoder Decoder Network for Joint Segmentation of Optic Cup and Disc

EDDense-Net：用于光学杯盘联合分割的全密度编解码网

https://arxiv.org/abs/2308.10192

青光眼是一种导致视神经损伤的眼病，可导致视力丧失和永久失明。因此，为了避免永久性失明，早期青光眼检测是至关重要的。在光盘（OD）检查期间对杯盘比（CDR）的估计用于青光眼的诊断。在本文中，我们提出了EDDense-Net分割网络的OC和OD的联合分割。该网络中的编码器和解码器由密集块组成，每个块中具有分组卷积层，允许网络从图像获取和传送空间信息，同时降低网络的复杂性。为了减少空间信息损失，在所有卷积层中使用最佳数量的滤波器。在语义分割中，解码器采用骰子像素分类来缓解类别不平衡的问题。在两个公开可用的数据集上对所提出的网络进行了评估，在准确性和效率方面优于现有的最先进的方法。对于青光眼的诊断和分析，该方法可作为第二意见系统，以辅助医学眼科医生。