【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 18 日论文合集）

最新推荐文章于 2025-03-12 21:30:18 发布

旅途中的宽~

最新推荐文章于 2025-03-12 21:30:18 发布

阅读量1.2k

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉人工智能图像分割

本文链接：https://blog.csdn.net/wzk4869/article/details/131872957

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、分割|语义相关(14篇)

一、分割|语义相关(14篇)

1.1 Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions

用于操作指令对象分割的多模式扩散分割模型

https://arxiv.org/abs/2307.08597

在这里插入图片描述
在这项研究中，我们的目标是开发一个模型，理解自然语言指令（例如，“去起居室并获得离墙壁上的无线电艺术最近的枕头”），并生成目标日常对象的分割掩模。该任务是具有挑战性的，因为它需要（1）理解指令中的多个对象的指代表达，（2）预测多个短语中的句子的目标短语，以及（3）生成逐像素分割掩码而不是边界框。对基于语言的切分方法进行了研究;然而，它们有时会掩盖复杂句子的不相关区域。在本文中，我们提出了多模态扩散分割模型（MDSM），它在第一阶段产生一个面具，并在第二阶段完善它。我们引入了一种跨模式并行特征提取机制，并扩展扩散概率模型来处理跨模式特征。为了验证我们的模型，我们基于著名的Matterport 3D和REVERIE数据集构建了一个新的数据集。该数据集由具有复杂引用表达式的指令组成，伴随着具有各种目标对象的真实室内环境图像，除了逐像素分割掩模。MDSM的性能超过基线方法，平均IoU为+10.13。

1.2 Variational Probabilistic Fusion Network for RGB-T Semantic Segmentation

用于RGB-T语义分割的变分概率融合网络

https://arxiv.org/abs/2307.08536

在这里插入图片描述
通过融合RGB和热图像的不同模态特征，RGB-T语义分割已被广泛用于处理光照条件差的硬场景。现有的方法试图找到一个最佳的融合功能的分割，导致模态噪声，类不平衡和模态偏见的敏感性。为了克服这些问题，本文提出了一种新的变分概率融合网络（VPFNet），该网络将融合特征视为随机变量，通过对多个融合特征样本下的分割结果进行平均来获得鲁棒分割。VPFNet中融合特征的随机样本生成是通过一种新的基于变异注意力的变异特征融合模块（VPFM）实现的。为了进一步避免类不平衡和模态偏差，我们采用加权交叉熵损失，并引入先验信息的照明和类别来控制建议的可变频率调制。MFNet和PST 900数据集上的实验结果表明，所提出的VPFNet可以实现最先进的分割性能。

1.3 Dense Affinity Matching for Few-Shot Segmentation

基于密集亲和度匹配的Few-Shot分割算法

https://arxiv.org/abs/2307.08434

在这里插入图片描述
Few-Shot分割（FSS）的目的是分割新的类图像与一些注释的样本。在本文中，我们提出了一个密集的亲和力匹配（DAM）框架，利用支持查询的相互作用，密集捕获的像素到像素和像素到补丁的关系，在每个支持查询对双向3D卷积。与现有的去除支持背景的方法不同，本文设计了滞后空间过滤模块（HSFM），在支持背景的辅助下过滤背景相关的查询特征，保留前景相关的查询特征，有利于消除查询背景中的干扰对象。我们在跨类别，跨数据集和跨域FSS任务下的十个基准上全面评估了我们的DAM。实验结果表明，DAM执行非常有竞争力的不同设置下，只有0.68M的参数，特别是在跨域FSS任务，显示其有效性和效率。

1.4 Dynamic Snake Convolution based on Topological Geometric Constraints for Tubular Structure Segmentation

基于拓扑几何约束的动态Snake卷积管状结构分割

https://arxiv.org/abs/2307.08388

在这里插入图片描述
拓扑管状结构（例如血管和道路）的准确分割在各个领域中至关重要，以确保下游任务的准确性和效率。然而，许多因素复杂的任务，包括薄的局部结构和可变的全局形态。在这项工作中，我们注意到管状结构的特异性，并利用这些知识指导我们的DSCNet在三个阶段同时增强感知：特征提取、特征融合和损失约束。首先，我们提出了一个动态蛇卷积准确地捕捉管状结构的特点，自适应地专注于细长和曲折的局部结构。随后，我们提出了一个多视图的特征融合策略，以补充从多个角度的特征融合过程中的关注，确保保留的重要信息，从不同的全球形态。最后，一个连续性约束损失函数，基于持久的同源性，提出了约束的拓扑连续性的分割更好。在2D和3D数据集上的实验表明，与几种方法相比，我们的DSCNet在管状结构分割任务上提供了更好的准确性和连续性。我们的代码将公开。

1.5 Boundary-weighted logit consistency improves calibration of segmentation networks

边界加权Logit一致性改进分段网络的校准

https://arxiv.org/abs/2307.08163

在这里插入图片描述
神经网络预测概率和准确性通常仅弱相关。用于图像分割的训练数据中的固有标签模糊性加剧了这种误校准。我们表明，logit一致性跨随机变换作为一个空间变化的正则化器，防止过度自信的预测在像素与模糊的标签。我们的边界加权扩展的正则化提供了最先进的校准前列腺和心脏MRI分割。

1.6 CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation

CALIBNet：用于RGB-D显著实例分割的双分支跨模校正

https://arxiv.org/abs/2307.08098

在这里插入图片描述
我们提出了一种新的RGB-D显着的实例分割方法，使用双分支交叉模态特征校准架构称为CalibNet。我们的方法同时校准内核和掩码分支中的深度和RGB特征，以生成实例感知的内核和掩码特征。CalibNet由三个简单的模块组成，一个动态交互式内核（DIK）和一个权重共享融合（WSF），它们协同工作以生成有效的实例感知内核并集成跨模态功能。为了提高深度特征的质量，我们在DIK和WSF之前加入了深度相似性评估（DSA）模块。此外，我们还贡献了一个新的DSIS数据集，其中包含1，940张具有详细实例级注释的图像。在三个具有挑战性的基准测试上进行的大量实验表明，CalibNet产生了有希望的结果，即，在COME 15 K-N测试集上具有320*480输入大小的58.0% AP，这显著超过替代框架。我们的代码和数据集可在以下网址获得：https://github.com/PJLallen/CalibNet。

1.7 HRHD-HK: A benchmark dataset of high-rise and high-density urban scenes for 3D semantic segmentation of photogrammetric point clouds

HRHD-HK：用于摄影测量点云三维语义分割的高层高密度城市场景基准数据集

https://arxiv.org/abs/2307.07976

在这里插入图片描述
许多现有的3D语义分割方法，特别是计算机视觉中的深度学习，声称在城市点云上达到了预期的结果，其中城市对象太多且多样，人们无法定性判断。因此，重要的是在多样化的现实世界的城市场景，包括高层，低层，高密度和低密度的城市地区定量评估这些方法。然而，现有的公共基准数据集主要代表欧洲城市的低层场景，无法全面评估方法。本文提出了一个基准数据集的高层城市点云，即高层，高密度城市场景的香港（HRHD-HK），这是一个空缺了很长一段时间。HRHD-HK以150个图块排列，包含来自不同城市环境的2.73亿个彩色摄影测量3D点。HRHD-HK的语义标签包括建筑、植被、道路、水体、设施、地形和车辆。据我们所知，HRHD-HK是第一个专注于HRHD城市地区的摄影测量数据集。本文还全面评估了八种流行的语义分割方法的HRHD-HK数据集。实验结果证实了大量的空间，以提高目前的三维语义分割的点云，特别是对城市对象与小体积。我们的数据集可在以下网址公开获取：https://github.com/LuZaiJiaoXiaL/HRHD-HK。

1.8 Dual-level Interaction for Domain Adaptive Semantic Segmentation

基于双层交互的领域自适应语义切分

https://arxiv.org/abs/2307.07972

在这里插入图片描述
为了避免在语义分割任务中对真实世界图像进行昂贵的像素标注，探索了无监督域自适应（UDA），首先用标记的源数据（合成图像）训练模型，然后将其适配到未标记的目标数据（真实图像）。在所有正在研究的技术中，自训练的方法最近确保了其在域自适应语义分割中的位置，其中模型是用目标域伪标签训练的。目前的进展已经减轻了由域间隙引起的噪声伪标记。然而，它们仍然在语义分类器的决策边界附近与错误的伪标签作斗争。在本文中，我们解决了这个问题，提出了一个双层的交互域适应（DIDA）在语义分割。明确地说，我们鼓励相同像素的不同增强视图不仅具有相似的类预测（语义级），而且具有与其他像素（实例级）相似的相似关系。由于不可能保留数据集所有像素实例的特征，我们新颖地设计和维护了一个带有动态更新策略的标记实例库，以选择性地存储实例的信息特征。此外，DIDA与散射和收集技术进行跨级交互，以再生更可靠的伪标记。我们的方法优于国家的最先进的一个显着的保证金，特别是在混乱和长尾类。代码可在https://github.com/RainJamesY/DIDA获得。

1.9 Handwritten and Printed Text Segmentation: A Signature Case Study

手写和印刷文本分割：签名案例研究

https://arxiv.org/abs/2307.07887

在这里插入图片描述

在分析扫描文档时，手写文本可以覆盖打印文本。这在文档的光学字符识别（OCR）和数字化过程中造成了困难，并且随后损害了下游NLP任务。现有的研究要么只关注手写文本的二进制分类，要么执行文档的三级分割，即，手写、印刷和背景像素的识别。这导致手写和打印的重叠像素仅被分配给一个类别，因此，它们在另一个类别中不被考虑。因此，在这项研究中，我们开发了新的方法来解决手写和印刷文本分割的挑战，其目标是在整个不同的类中恢复文本，特别是提高重叠部分的分割性能。因此，为了方便这项任务，我们引入了一个新的数据集SignaTR6K，从真实的法律文件中收集，以及一个新的模型架构，用于手写和印刷文本分割任务。我们的最佳配置在两个不同数据集上的IoU得分上比之前的工作高出17.9%和7.3%。

1.10 PSGformer: Enhancing 3D Point Cloud Instance Segmentation via Precise Semantic Guidance

PSGformer：通过精确的语义引导增强三维点云实例分割

https://arxiv.org/abs/2307.07708

在这里插入图片描述
大多数现有的3D实例分割方法都来自3D语义分割模型。然而，这些间接方法受到某些限制。它们未能充分利用全局和局部语义信息进行准确预测，这阻碍了3D实例分割框架的整体性能。为了解决这些问题，本文提出了PSGformer，一种新的3D实例分割网络。PSGformer集成了两个关键的改进，以提高3D实例分割的性能。首先，我们提出了一个多级语义聚合模块，它有效地捕捉场景特征，采用前景点过滤和多半径聚合。该模块能够从全局和局部角度获取更详细的语义信息。其次，PSGformer引入了一个并行特征融合Transformer模块，该模块使用Transformers独立地处理超点特征和聚合特征。该模型通过连接全局和局部特征的特征实现了更全面的特征表示。我们在ScanNetv2数据集上进行了广泛的实验。值得注意的是，PSGformer在ScanNetv2隐藏测试集上的mAP方面超过了2.2%的最先进方法。我们的代码和模型将公开发布。

1.11 Learning from Pseudo-labeled Segmentation for Multi-Class Object Counting

基于伪标记法的多类目标计数学习

https://arxiv.org/abs/2307.07677

在这里插入图片描述
类不可知计数（CAC）在各个领域有许多潜在的应用。目标是在测试过程中对任意类别的对象进行计数，仅基于少数带注释的样本。在本文中，我们指出，当图像中有多个对象类（即多类对象计数）时，对当前对象计数模型进行计数的任务特别具有挑战性。他们经常贪婪地计算每一个对象，而不管样本。为了解决这个问题，我们建议本地化的区域包含感兴趣的对象，通过一个基于范例的分割模型，然后再计算它们。这里的关键挑战是缺乏分割监督来训练这个模型。为此，我们提出了一种方法来获得伪分割掩模只使用框样本和点注释。我们表明，在这些伪标记的面具训练的分割模型可以有效地定位感兴趣的对象为任意的多类图像的基础上的样本。为了评估多类计数的不同方法的性能，我们引入了两个新的基准，一个合成的多类数据集和一个新的测试集的真实图像中，存在来自多个类的对象。我们提出的方法显示出显着的优势，在这两个基准上比以前的CAC方法。

1.12 EGE-UNet: an Efficient Group Enhanced UNet for skin lesion segmentation

EGE-UNET：一种有效的用于皮肤病变分割的群体增强UNET

https://arxiv.org/abs/2307.08473

在这里插入图片描述
Transformer及其变体已广泛用于医学图像分割。然而，这些模型的大量参数和计算量使它们不适合移动医疗应用。为了解决这个问题，我们提出了一个更有效的方法，高效组增强UNet（EGE-UNet）。我们将一组多轴Hadamard产品注意力模块（GHPA）和一组聚合桥模块（GAB）在一个轻量级的方式。GHPA对输入特征进行分组，并在不同的轴上执行Hadamard乘积注意机制（HPA），以从不同的角度提取病理信息。GAB通过对低级特征、高级特征和由解码器在每个阶段生成的掩模进行分组来有效地融合多尺度信息。在ISIC 2017和ISIC 2018数据集上的综合实验表明，EGE-UNet优于现有的最先进的方法。简而言之，与TransFuse相比，我们的模型实现了卓越的分割性能，同时将参数和计算成本分别降低了494倍和160倍。此外，据我们所知，这是第一个参数计数仅限于50 KB的模型。我们的代码可在https://github.com/JCruan519/EGE-UNet上获得。

1.13 Domain Adaptation using Silver Standard Masks for Lateral Ventricle Segmentation in FLAIR MRI

FLAIR磁共振侧脑室分割中基于银色标准模板的区域自适应

https://arxiv.org/abs/2307.08456

在这里插入图片描述
侧脑室容积（LVV）是临床研究的重要生物标志物。我们提出了第一个基于迁移学习的LVV分割方法，用于液体衰减反转恢复（FLAIR）MRI。为了减轻源域和目标域之间的协变量转移，本文提出了一种域自适应方法，该方法优化了三个目标数据集的性能。银标准（SS）掩模从目标域使用一种新的常规图像处理心室分割算法，并用于补充金标准（GS）的数据从源域，加拿大动脉粥样硬化成像网络（CAIN）。在来自四个数据集的保留测试集上测试了四个模型：1）SS+GS：在目标SS掩码上训练并在源GS掩码上微调，在源GS掩模上训练并在目标SS掩模上微调，3）在源GS上训练（仅GS CAIN）和4）在目标SS掩模上训练（仅SS）。SS+GS模型具有最佳和最一致的性能（平均DSC = 0.89，CoV = 0.05），并且在三个靶结构域上显示出与仅GS模型相比显著（p < 0.05）更高的DSC。结果表明，使用来自目标域的噪声标签进行预训练可以使模型适应特定于数据集的特征，并提供强大的参数初始化，而使用GS掩码进行微调可以使模型学习详细的特征。该方法具有广泛的应用，标记的数据是稀缺的其他医学成像问题，并可以用作每数据集校准方法，以加速大规模采用。

1.14 A Novel SLCA-UNet Architecture for Automatic MRI Brain Tumor Segmentation

一种新的用于MRI脑肿瘤自动分割的SLCA-UNET结构

https://arxiv.org/abs/2307.08048

在这里插入图片描述
脑肿瘤被认为是导致个体预期寿命降低的严重健康并发症之一，也被认为是全球死亡率的主要原因。因此，及时检测和预测脑肿瘤可以有助于防止因脑肿瘤导致的死亡率。生物医学图像分析是诊断脑肿瘤的广泛已知的解决方案。尽管MRI是目前用于对肿瘤进行成像的标准方法，但是其临床有用性受到手动分割的要求的限制，手动分割是耗时的。基于深度学习的方法已经成为开发自动化生物医学图像探索工具的有前途的解决方案，并且UNet架构通常用于分割。然而，传统的UNet在复杂性、训练、准确性和上下文信息处理方面具有局限性。其结果是，修改后的UNet架构，它结合了剩余的密集块，分层的注意，和信道注意模块，除了堆叠卷积，可以有效地捕获粗和细的特征信息。所提出的SLCA UNet方法在可免费访问的脑肿瘤分割（BraTS）数据集上实现了良好的性能，在BraTS 2020数据集的Dice，灵敏度，特异性和Hausdorff95方面的平均性能分别为0.845，0.845，0.999和8.1。