【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(11 月 29 日论文合集)(下)

1.9 ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention

ConextSeg:关注查询上下文进行语义切分

https://arxiv.org/abs/2311.16682

草图语义分割是计算机视觉中的一个关键问题,涉及到为单个笔划分配预定义的零件标签。本文介绍了ContextSeg -一个简单而高效的方法来解决这个问题,分为两个阶段。在第一阶段,为了更好地编码笔划的形状和位置信息,我们建议在自动编码器网络中预测一个额外的密集距离场,以加强结构信息学习。在第二阶段,我们把整个笔画作为一个单一的实体和标签的一组相同的语义部分使用自回归Transformer与默认的注意力机制。通过基于组的标记,我们的方法可以充分利用上下文信息时,为其余组的笔划作出决定。我们的方法实现了最好的分割精度相比,国家的最先进的方法在两个代表性的数据集,并已被广泛评估,证明其优越的性能。此外,我们提供了解决训练数据中部分不平衡的见解和跨类别训练的初步实验,这可以启发该领域的未来研究。

1.10 Visual Semantic Navigation with Real Robots

真实机器人的视觉语义导航

https://arxiv.org/abs/2311.16623

视觉语义导航(VSN)是机器人学习视觉语义信息以在未知环境中导航的能力。这些VSN模型通常在训练它们的虚拟环境中进行测试,主要使用基于强化学习的方法。因此,我们还没有深入分析这些模型在现实世界中的表现。在这项工作中,我们提出了一个新的解决方案,将VSN模型集成到真正的机器人,使我们有真正的体现代理。我们还为VSN发布了一个新的基于ROS的框架ROS4VSN,这样任何VSN模型都可以轻松地部署在任何与ROS兼容的机器人中,并在真实环境中进行测试。我们对两种不同的机器人进行了实验,其中我们嵌入了两种最先进的VSN代理,证实了在真实世界和模拟环境中进行测试时,这些VSN解决方案的性能存在明显差异。我们希望这项研究将努力为解决这一问题提供一个基础,最终目标是提高真实世界场景中体现代理的性能和效率。可以在https://github.com/gramuah/ros4vsn上找到重现我们所有实验的代码。

1.11 Clean Label Disentangling for Medical Image Segmentation with Noisy Labels

带噪声的医学图像分割中的清洁标签解缠算法

https://arxiv.org/abs/2311.16580

当前医学图像分割方法存在标注错误的问题,即噪声标注问题。大多数带有噪声标签的医学图像分割方法使用噪声转移矩阵,噪声鲁棒损失函数或伪标记方法,而目前的研究还没有关注清洁标签解纠缠。我们认为,主要原因是严重的类不平衡问题会导致选择的“干净”标签的不准确,从而影响模型对噪声的鲁棒性。在这项工作中,我们提出了一个简单但有效的类平衡采样策略来解决类不平衡问题,这使得我们新提出的干净标签分解框架能够成功地从给定的标签集中选择干净的标签,并鼓励模型从正确的注释中学习。然而,这样的方法将过滤掉太多的注释,这些注释也可能包含有用的信息。因此,我们进一步扩展我们的清洁标签解缠框架到一个新的嘈杂的功能辅助清洁标签解缠框架,它需要充分利用注释来学习更多的语义。大量的实验已经验证了我们的方法的有效性,我们的方法实现了新的最先进的性能。我们的代码可在https://github.com/xiaoyao3302/2BDenoise上获得。

1.12 SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance

SemiVL:基于视觉语言指导的半监督语义切分

https://arxiv.org/abs/2311.16241

在半监督语义分割中,使用有限数量的标记图像以及大量未标记图像的语料库来训练模型,以减少高注释工作。虽然以前的方法能够学习良好的分割边界,但由于监督有限,它们容易混淆具有相似视觉外观的类。另一方面,视觉语言模型(VLM)能够从图像标题数据集学习各种语义知识,但由于图像级训练而产生噪声分割。在SemiVL中,我们建议将来自VLM预训练的丰富先验信息集成到半监督语义分割中,以学习更好的语义决策边界。为了使VLM从全局推理到局部推理,我们引入了一个空间微调策略来进行标签有效学习。此外,我们设计了一个语言引导的解码器,共同的原因在视觉和语言。最后,我们建议通过以类定义的形式为模型提供语言指导来处理类标签中固有的歧义。我们在4个语义分割数据集上评估了SemiVL,它明显优于以前的半监督方法。例如,SemiVL在COCO上提高了+13.5 mIoU,具有232个注释图像,在Pascal VOC上提高了+6.1 mIoU,具有92个标签。项目页面:https://github.com/google-research/semivl

1.13 Semantic Generative Augmentations for Few-Shot Counting

Few-Shot计数中的语义生成增强

https://arxiv.org/abs/2311.16122

随着强大的文本到图像的扩散模型的可用性,最近的工作已经探索了使用合成数据来提高图像分类性能。这些工作表明,它可以有效地增加甚至取代真实数据。在这项工作中,我们研究如何合成数据可以受益Few-Shot类不可知计数。这需要生成对应于给定输入数量的对象的图像。然而,文本到图像模型很难理解计数的概念。我们建议依赖于一个双重条件的稳定扩散与提示和密度图,以增加训练数据集的Few-Shot计数。由于数据集大小较小,微调后的模型往往会生成接近训练图像的图像。我们建议通过在图像之间交换标题来增强合成图像的多样性,从而创建看不见的对象类型和空间布局的配置。我们的实验表明,我们的多样化的生成策略显着提高了两个最近和执行Few-Shot计数模型上FSC147和CARPK的计数精度。

1.14 TopoSemiSeg: Enforcing Topological Consistency for Semi-Supervised Segmentation of Histopathology Images

Topo SemiSeg:增强组织病理学图像半监督分割的拓扑一致性

https://arxiv.org/abs/2311.16447

在计算病理学中,分割密集分布的对象(如腺体和细胞核)对于下游分析至关重要。为了减轻获得像素级注释的负担,半监督学习方法从大量未标记的数据中学习。然而,现有的半监督方法忽略了隐藏在未标记图像中的拓扑信息,因此容易出现拓扑错误,例如,缺失或不正确合并/分离的腺体或细胞核。为了解决这个问题,我们提出了TopoSemiSeg,这是第一个从未标记数据中学习拓扑表示的半监督方法。特别是,我们提出了一个拓扑感知的教师-学生的方法,教师和学生网络学习共享的拓扑表示。为了实现这一点,我们引入了拓扑一致性损失,其中包含信号一致性和噪声去除损失,以确保学习的表示是鲁棒的,并专注于真实的拓扑信号。在公共病理图像数据集上的实验表明了该方法的优越性,特别是在拓扑评价指标上。代码可在https://github.com/Melon-Xu/TopoSemiSeg上获得。

1.15 Seeing Beyond Cancer: Multi-Institutional Validation of Object Localization and 3D Semantic Segmentation using Deep Learning for Breast MRI

超越癌症:基于深度学习的乳腺MRI目标定位和3D语义分割的多机构验证

https://arxiv.org/abs/2311.16213

乳腺癌的临床治疗取决于对肿瘤及其与邻近组织和标志性结构的解剖学背景的准确理解。这种情况下,可以提供语义分割方法,但是,以前的工作已在很大程度上局限于一个单一的重点肿瘤单独和很少其他组织类型。相比之下,我们提出了一种方法,该方法利用组织-组织相互作用,通过标准护理动态对比增强MRI准确分割乳房中的每种主要组织类型,包括:胸壁、皮肤、脂肪组织、纤维腺组织、脉管系统和肿瘤。将我们的方法与现有技术进行比较,我们在肿瘤分割方面取得了优异的Dice评分,同时在多个机构的其他研究组织上保持了竞争力。简而言之,我们的方法通过使用2D对象检测器定位肿瘤,然后使用两个3D U网独立地分割肿瘤和周围组织,最后整合这些结果,同时通过检查解剖学上合理的组织-组织接触来减少假阳性。目标检测模型在ImageNet和COCO上进行预训练,并在轴向和矢状面的MIP(最大强度投影)图像上进行操作,建立3D肿瘤边界框。通过整合多种相关的肿瘤周围组织,我们的工作使乳腺癌分期,预后和手术计划的临床应用成为可能。

1.16 TransONet: Automatic Segmentation of Vasculature in Computed Tomographic Angiograms Using Deep Learning

TransONet:基于深度学习的CT血管成像中血管的自动分割

https://arxiv.org/abs/2311.10328

人体血管系统的病理改变是许多慢性疾病的基础,如动脉粥样硬化和动脉瘤。然而,手动分析血管系统的诊断图像(诸如计算机断层摄影血管造影(CTA))是耗时且繁琐的过程。为了解决这个问题,我们提出了一个深度学习模型来分割接受外周动脉疾病(PAD)手术的患者的CTA图像中的血管系统。我们的研究重点是使用深度学习技术在CTA图像中准确分割血管系统(1)从胸降主动脉到髂动脉分叉和(2)从胸降主动脉到膝盖。我们的方法在(1)和(2)的测试数据集中分别实现了93.5%和80.64%的平均Dice准确率,突出了其高准确性和潜在的临床实用性。这些发现表明,深度学习技术是医疗专业人员有效准确地分析血管系统健康状况的宝贵工具。请访问本文的GitHub页面https://github.com/pip-alireza/TransOnet。

  • 18
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值