文章目录
- 一、分割|语义相关(8篇)
- 1.1 MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained on a Large-Scale Unannotated Dataset
- 1.2 KITE: Keypoint-Conditioned Policies for Semantic Manipulation
- 1.3 SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation
- 1.4 Analysis of LiDAR Configurations on Off-road Semantic Segmentation Performance
- 1.5 ICSVR: Investigating Compositional and Semantic Understanding in Video Retrieval Models
- 1.6 MLA-BIN: Model-level Attention and Batch-instance Style Normalization for Domain Generalization of Federated Learning on Medical Image Segmentation
- 1.7 SimPLe: Similarity-Aware Propagation Learning for Weakly-Supervised Breast Cancer Segmentation in DCE-MRI
- 1.8 Inter-Rater Uncertainty Quantification in Medical Image Segmentation via Rater-Specific Bayesian Neural Networks
一、分割|语义相关(8篇)
1.1 MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained on a Large-Scale Unannotated Dataset
MIS-FM:基于大规模未注解数据集的基础模型三维医学图像分割
论文地址:
https://arxiv.org/abs/2306.16925
用大规模3D体积进行预训练具有改善目标医学图像数据集上的分割性能的潜力,其中训练图像和注释有限。由于在大规模预训练数据集上获取像素级分割注释的成本很高,因此非常需要使用未注释的图像进行预训练。在这项工作中,我们提出了一种新的自监督学习策略,名为体积融合(VF)预训练三维分割模型。它基于预定义的离散融合系数集合将来自前景子体积的几个随机块融合到背景子体积,并迫使模型预测每个体素的融合系数,其被配制为无需手动注释的自监督分割任务。此外,我们提出了一种新的网络架构的基础上并行卷积和Transformer块,适合转移到不同的下游分割任务与各种规模的器官和病变。所提出的模型使用110 k未注释的3D CT体积进行预训练,并且使用不同的下游分割目标(包括头颈部器官、胸/腹部器官)进行的实验表明,我们的预训练模型在很大程度上优于从头开始的训练和几种最先进的自监督训练方法和分割模型。代码和预训练模型可在www.example.com上获得https://github.com/openmedlab/MIS-FM。
1.2 KITE: Keypoint-Conditioned Policies for Semantic Manipulation
Kite:语义操作的关键点条件化策略
论文地址:
https://arxiv.org/abs/2306.16605
虽然自然语言为人类和机器人提供了一个方便的共享界面,但使机器人能够解释和遵循语言命令仍然是操纵中的一个长期挑战。实现高性能指令跟随机器人的关键一步是实现语义操作,其中机器人以不同的具体性解释语言,从“拿起毛绒动物”等高级指令到“抓住大象的左耳”等更详细的输入。为了解决这个问题,我们提出了Keypoints + Instructions to Execution(KITE),这是一个两步的语义操作框架,它涉及场景语义(区分视觉场景中的不同对象)和对象语义(精确定位对象实例中的不同部分)。KITE首先通过2D图像关键点在视觉场景中接地输入指令,为下游动作推理提供高度准确的以对象为中心的偏差。提供RGB-D场景观察,KITE然后执行学习的关键点条件技能来执行指令。关键点和参数化技能的组合精度支持细粒度操作,并可泛化到场景和对象变化。根据经验,我们在3个真实环境中演示了KITE:长视野6自由度桌面操作、语义抓取和高精度咖啡制作任务。在这些设置中,KITE分别实现了75%,70%和71%的指令遵循的总体成功率。KITE优于那些选择预先训练的视觉语言模型而不是基于关键点的基础的框架,或者忽略有利于端到端视觉运动控制的技能,同时从更少或相当数量的演示中进行训练。补充材料,数据集,代码和视频可以在我们的网站上找到:http://tinyurl.com/kite-site。
1.3 SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation
SeMLaPS:基于潜在先验网络和准平面分割的实时语义映射
论文地址:
https://arxiv.org/abs/2306.16585
实时语义的可用性极大地改进了SLAM系统的核心几何功能,从而实现了许多机器人和AR/VR应用。我们提出了一种新的方法,从RGB-D序列的实时语义映射,结合了一个2D神经网络和一个3D网络的基础上的SLAM系统与3D占用映射。当分割一个新的帧,我们执行潜在的功能重新投影从以前的帧的基础上微分渲染。与独立处理图像的基线相比,将来自先前帧的重新投影的特征图与当前帧特征融合大大提高了图像分割质量。对于3D地图处理,我们提出了一种新的几何准平面过分割的方法,组3D地图元素可能属于相同的语义类,依赖于表面法线。我们还描述了一种新的神经网络设计的轻量级语义地图后处理。我们的系统在基于2D-3D网络的系统中实现了最先进的语义映射质量,并在实时工作的同时,在三个真实的室内数据集上与3D卷积网络的性能相匹配。此外,与3D CNN相比,它显示出更好的跨传感器泛化能力,能够使用不同的深度传感器进行训练和推理。代码和数据将在项目页面发布:http://jingwenwang95.github.io/SeMLaPS
1.4 Analysis of LiDAR Configurations on Off-road Semantic Segmentation Performance
LiDAR配置对非道路语义分割性能的影响分析
论文地址:
https://arxiv.org/abs/2306.16551
本文研究了LiDAR配置变化对3D LiDAR点云语义分割模型性能的影响,这是一个以前没有广泛研究的话题。我们探索使用不同的激光雷达通道时,训练和测试的三维激光雷达点云语义分割模型的效果,利用Cylinder 3D的实验。Cylinder 3D模型在使用密西西比州立大学自主车辆模拟器(MAVS)创建的模拟3D LiDAR点云数据集和在真实越野环境中收集的RELLIS-3D数据集的32,64通道3D LiDAR点云上进行训练和测试。我们的实验结果表明,传感器和空间域的变化显着影响基于激光雷达的语义分割模型的性能。在训练和测试之间没有空间域变化的情况下,在相同传感器类型上训练和测试的模型通常表现出更好的性能。此外,与低分辨率传感器相比,高分辨率传感器表现出更好的性能。然而,当空间域的变化时,结果有所不同。在一些情况下,传感器的更高分辨率的优点导致在具有和不具有传感器域偏移的情况下的更好的性能。在其他情况下,更高的分辨率导致特定域内的过拟合,导致在对具有不同传感器配置的数据进行测试时缺乏泛化能力和性能降低。
1.5 ICSVR: Investigating Compositional and Semantic Understanding in Video Retrieval Models
ICSVR:研究视频检索模型中的成分和语义理解
论文地址:
https://arxiv.org/abs/2306.16533
视频检索(VR)涉及在给定文本字幕的情况下从视频数据库检索地面实况视频,反之亦然。组合性的两个重要组成部分:对象&属性和动作使用正确的语义连接以形成适当的文本查询。这些组件(对象\属性、动作和语义)各自在帮助区分视频和检索正确的地面实况视频方面发挥着重要作用。然而,目前还不清楚这些组件对视频检索性能的影响。因此,我们进行了系统的研究,以评估标准基准,如MSRVTT,MSVD和DIDEMO的视频检索模型的组成和语义的理解。该研究在两类视频检索模型上进行:(i)其在视频-文本对上被预训练并且在下游视频检索数据集上被微调(例如,时间冻结、紫色、MCQ等)(ii)其适应预训练的图像-文本表示,如用于视频检索的CLIP(例如,CLIP 4Clip、XCLIP、CLIP 2 Video等)。我们的实验表明,在视频理解中,动作和语义比对象和属性起次要作用。此外,使用预训练的图像-文本表示(CLIP)的视频检索模型具有更好的语义和组成的理解相比,模型预先训练的视频-文本数据。
1.6 MLA-BIN: Model-level Attention and Batch-instance Style Normalization for Domain Generalization of Federated Learning on Medical Image Segmentation
MLA-BIN:医学图像分割联合学习领域泛化的模型级注意和批实例风格归一化
论文地址:
https://arxiv.org/abs/2306.17008
联邦学习的隐私保护机制为跨中心的医疗协作和数据共享提供了有效的解决方案。在多站点医学图像分割中,每个医学站点作为FL的客户端,其数据自然形成域。模糊逻辑为改进视域模型的性能提供了可能。然而,在实际应用中存在着领域泛化(DG)问题,即在未知领域中使用FL训练的模型性能会下降。因此,MLA-BIN在这项研究中被提出来解决FL的DG。具体而言,模型级的注意力模块(MLA)和批量实例风格规范化(BIN)块的设计。MLA将看不见的域表示为可见域模型的线性组合。在加权系数中引入了注意机制,根据域间数据特征的相似性得到最优加权系数. MLA使得全局模型能够通用化到看不见的域。在BIN块中,结合批量归一化(BN)和实例归一化(IN)对分割网络的浅层进行风格归一化,解决了域间图像风格差异对DG的影响。两个医学图像分割任务的广泛实验结果表明,所提出的MLA-BIN优于国家的最先进的方法。
1.7 SimPLe: Similarity-Aware Propagation Learning for Weakly-Supervised Breast Cancer Segmentation in DCE-MRI
用于DCE-MRI弱监督乳腺癌分割的简单相似性感知传播学习
论文地址:
https://arxiv.org/abs/2306.16714
乳腺动态增强磁共振成像(DCE-MRI)在高危乳腺癌的筛查和预后评估中具有重要作用。乳腺癌区域的分割对于后续的乳腺MRI分析是至关重要的。为了减轻训练分割网络的注释工作,我们提出了一种弱监督策略,使用极值点作为乳腺癌分割的注释。在不使用任何花里胡哨的情况下,我们的策略集中于充分利用常规训练程序的学习能力,即,训练-微调-再训练的过程。网络首先利用使用极值点生成的伪掩模来训练自身,通过最小化对比损失,这鼓励网络学习癌性体素的更多代表性特征。然后,经过训练的网络通过使用相似性感知传播学习(SimPLe)策略来微调自身,该策略利用未标记和正体素之间的特征相似性来传播标签。最后,网络通过使用使用先前微调的网络生成的伪掩码来重新训练自身。我们收集的DCE-MRI数据集包含206例活检证实的乳腺癌患者的评估所提出的方法。实验结果表明,我们的方法有效地微调网络,通过使用SimPLe的策略,并实现了81%的平均Dice值。
1.8 Inter-Rater Uncertainty Quantification in Medical Image Segmentation via Rater-Specific Bayesian Neural Networks
基于评分者特定贝叶斯神经网络的医学图像分割中评分者间不确定性量化
论文地址:
https://arxiv.org/abs/2306.16556
自动医学图像分割固有地涉及一定程度的不确定性。造成这种不确定性的一个关键因素是在确定感兴趣的目标区域的边界时可能出现的模糊性,这主要是由于图像外观的变化。最重要的是,即使在该领域的专家中,关于特定解剖结构的精确定义也会出现不同的意见。这项工作专门解决了分割不确定性的建模,称为评分者间的不确定性。其主要目的是探索和分析分割结果的变化,可能会发生在医学成像的多个专家解释和注释相同的图像。我们引入了一种新的贝叶斯神经网络为基础的架构,以估计评估者之间的不确定性在医学图像分割。我们的方法有三个关键的进步。首先,我们引入了一个编码器,多解码器的架构,专门为不确定性估计,使我们能够捕捉到的每个专家的具体表示率。其次,我们提出了贝叶斯建模的新架构,允许有效地捕获的评分者间的分布,特别是在有限的注释的情况下。最后,我们通过将注意力模块集成到每个解码器中来增强特定于速率的表示。该模块有助于为每个评分员提供重点和精细的细分结果。我们使用合成和真实世界的数据集进行广泛的评估,以严格验证我们的技术创新。我们的方法超越现有的基线方法在五个公开的QUBIQ数据集上的七个不同的任务,考虑到两个评估指标,包括不同的不确定性方面。我们的代码、模型和新数据集可通过我们的GitHub存储库获得:https://github.com/HaoWang420/bOEMD-net。