【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（9 月 14 日论文合集）

本文链接：https://blog.csdn.net/wzk4869/article/details/132895668

文章目录

一、分割|语义相关(5篇)

一、分割|语义相关(5篇)

1.1 SAMUS: Adapting Segment Anything Model for Clinically-Friendly and Generalizable Ultrasound Image Segmentation

SAMUS：一种适用于临床友好和可推广的超声图像分割模型

https://arxiv.org/abs/2309.06824

任意分割模型（SegmentAnything Model，SAM）是一种通用的图像分割模型，近年来在医学图像分割领域引起了广泛的关注。尽管SAM在自然图像上表现出色，但当面对医学图像时，特别是那些涉及低对比度、模糊边界、复杂形状和微小尺寸的对象时，它仍面临着显著的性能下降和有限的泛化。在本文中，我们提出了SAMUS，一个通用的模型量身定制的超声图像分割。与以前基于SAM的通用模型相比，SAMUS不仅追求更好的泛化能力，而且还追求更低的部署成本，使其更适合于临床应用。具体地，基于SAM，引入并行CNN分支以通过交叉分支注意力将局部特征注入ViT编码器中以用于更好的医学图像分割。然后，开发了位置适配器和特征适配器，以使SAM从自然到医学领域以及从需要大尺寸输入（1024x1024）到小尺寸输入（256x256）进行适应，以进行更临床友好的部署。收集包括约30k个图像和69k个掩模并且覆盖六个对象类别的综合超声数据集用于验证。大量的比较实验表明，SAMUS的优越性，对国家的最先进的特定任务的模型和通用的基础模型下的特定任务的评价和泛化评价。此外，SAMUS可部署在入门级GPU上，因为它已从长序列编码的限制中解放出来。代码、数据和模型将在https://github.com/xianlin7/SAMUS上发布。

1.2 Bayesian uncertainty-weighted loss for improved generalisability on polyp segmentation task

贝叶斯不确定性加权损失改进息肉分割任务的泛化能力

https://arxiv.org/abs/2309.06807

虽然之前的几项研究已经设计了用于分割息肉的方法，但这些方法中的大多数并未在多中心数据集上进行严格评估。由于从一个中心到另一个中心的息肉外观、内窥镜仪器等级的差异和采集质量的变化导致方法在分布测试数据上具有良好的性能，而在分布外或代表性不足的样本上性能较差。不公平的模型具有严重的影响，并对临床应用提出了严峻的挑战。我们采用了一种隐式偏差缓解方法，该方法在训练过程中利用贝叶斯认知不确定性，以鼓励模型专注于代表性不足的样本区域。我们证明了这种方法的潜力，以提高概括性，而不牺牲国家的最先进的性能上具有挑战性的多中心息肉分割数据集（PolypGen）与不同的中心和图像模式。

1.3 Leveraging Foundation models for Unsupervised Audio-Visual Segmentation

利用基础模型实现无监督的视听分割

https://arxiv.org/abs/2309.06728

视听分割（AVS）的目的是在像素级上精确地勾勒出视觉场景中的可听对象。现有的AVS方法需要以监督学习方式对音频掩码对进行细粒度注释。这限制了它们的可扩展性，因为获取这种跨模态像素级标签是耗时且繁琐的。为了克服这一障碍，在这项工作中，我们引入了无监督的视听分割，不需要特定于任务的数据注释和模型训练。为了解决这个新提出的问题，我们制定了一种新的跨模态语义过滤（CMSF）方法，以通过利用现成的多模态基础模型（例如，检测[1]、开放世界分割[2]和多模态对齐[3]）。通过音频或视觉提示指导提案生成，我们设计了两种免训练变体：AT-GDINO-SAM和OWOD-BIND。在AVS-Bench数据集上进行的大量实验表明，与现有技术的有监督的方法相比，我们的无监督方法在具有多个听觉对象的复杂场景中可以表现良好。特别是，在现有的监督AVS方法与重叠的前景对象斗争的情况下，我们的模型仍然擅长准确地分割重叠的听觉对象。我们的代码将公开发布。

1.4 Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation

基于多维融合和一致性的半监督医学图像分割

https://arxiv.org/abs/2309.06618

在本文中，我们介绍了一个新的半监督学习框架，量身定制的医学图像分割。我们方法的核心是创新的多尺度文本感知ViT-CNN融合方案。该方案巧妙地结合了ViTs和CNN的优势，利用了两种架构的独特优势以及视觉语言模态中的互补信息。进一步丰富我们的框架，我们提出了多轴一致性框架，以生成鲁棒的伪标签，从而增强半监督学习过程。我们在几个广泛使用的数据集上的广泛实验明确证明了我们的方法的有效性。

1.5 Action Segmentation Using 2D Skeleton Heatmaps

基于2D骨架热图的动作分割

https://arxiv.org/abs/2309.06462

本文提出了一种基于骨架的二维动作分割方法，并将其应用于细粒度的人体活动识别。与直接将3D骨架坐标序列作为输入并应用图卷积网络（GCN）进行时空特征学习的最新方法相比，我们的主要思想是使用2D骨架热图序列作为输入并采用时间卷积网络（TCN）来提取时空特征。尽管缺乏3D信息，我们的方法产生可比的/优越的性能和更好的鲁棒性对丢失的关键点比以前的方法对动作分割数据集。此外，我们通过使用2D骨架热图和RGB视频作为输入来进一步提高性能。据我们所知，这是第一个利用2D骨架热图输入的工作，也是第一个探索2D骨架+RGB融合进行动作分割的工作。