文章目录
- 1.8 E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer
- 1.9 Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation
- 1.10 Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic Segmentation from Vision-Language Models
- 1.11 DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for Monocular 3D Semantic Scene Completion
- 1.12 I-MedSAM: Implicit Medical Image Segmentation with Segment Anything
- 1.13 U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation
- 1.14 A publicly available vessel segmentation algorithm for SLO images
1.8 E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer
E-VILM:基于语义矢量量化的掩蔽视频建模的高效视频语言模型
https://arxiv.org/abs/2311.17267
为了为具有挑战性的现实任务构建可扩展的模型,重要的是要从各种形式的多样化的多模态数据中学习(例如,视频、文本和图像)。在现有的工作中,他们中的一个过多的集中在利用大型但繁琐的跨模态架构。无论其有效性如何,较大的架构都不可避免地阻止了模型扩展到现实世界的应用程序,因此构建轻量级VL架构和高效的学习模式具有很大的实用价值。在本文中,我们提出了一个有效的视频语言模型(称为E-ViLM)和掩蔽视频建模(MVM)模式,辅助语义矢量量化的标记。特别是,我们的E-ViLM学习重构由预训练的矢量量化标记器产生的掩蔽视频区域的语义标签,该标记器将连续的视觉信号离散化为标签。我们表明,通过我们简单的MVM任务和常规的VL预训练建模,我们的E-ViLM尽管结构紧凑,但能够从视频语言语料库中学习表达性表示,并很好地推广到广泛的视频语言任务,包括视频问答,文本到视频检索等。特别是,我们的E-ViLM通过以更快的推理速度达到竞争性能,即,我们的模型在MSRVTT基准上达到了 39.3 39.3 39.3% Top- 1 1 1的准确度,保持了最先进的更大VL体系结构的 91.4 91.4 91.4%的准确度,参数仅为 15 15% 15,GFLOP减少了 94.8 94.8% 94.8。我们还提供了广泛的消融研究,验证我们提出的E-ViLM学习模式的有效性。
1.9 Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation
生成性数据增强改进Scribble监督的语义切分
https://arxiv.org/abs/2311.17121
生成模型(如扩散模型)的最新进展使得生成高质量的合成图像变得越来越容易。先前的工作已经表明,在合成图像上进行训练可以改善许多感知任务,例如图像分类,对象检测和语义分割。我们是第一个探索用于涂鸦监督语义分割的生成数据增强的人。我们提出了一种生成式数据增强方法,该方法利用基于语义涂鸦的ControlNet扩散模型来生成高质量的训练数据。然而,天真的实现生成的数据增强可能会无意中损害下游segmentor的性能,而不是提高它。我们利用分类器自由扩散指导,以执行类的一致性,并引入编码比来权衡数据多样性的数据现实主义。使用引导尺度和编码比率,我们能够生成高质量的训练图像的频谱。我们提出了多种增强方案,并发现这些方案显着影响模型的性能,特别是在低数据制度。我们的框架进一步缩小了涂鸦监督分割和完全监督分割之间的差距。我们还表明,我们的框架显着提高了小数据集的分割性能,甚至超过了全监督分割。
1.10 Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic Segmentation from Vision-Language Models
视觉语言模型中开放词汇语义切分的即插即用、无密集标签提取
https://arxiv.org/abs/2311.17095
从大量的图像-文本对中,大规模视觉语言模型(VLM)学习隐式地将图像区域与单词相关联,这对于图像字幕和视觉问答等任务至关重要。然而,利用这种预先训练的模型进行开放词汇语义分割仍然是一个挑战。在本文中,我们提出了一个简单的,但非常有效的,培训免费的技术,即插即用开放词汇语义分割(PnP-OVSS)的这项任务。PnP-OVSS利用具有直接文本到图像交叉注意和图像-文本匹配丢失的VLM来产生语义分割。然而,单独的交叉注意力往往会过度细分,而交叉注意力加上GradCAM往往会细分不足。为了缓解这个问题,我们引入了显着性丢弃;通过迭代地丢弃模型最关注的补丁,我们能够更好地解决分割掩码的整个范围。与现有技术相比,所提出的方法不需要任何神经网络训练,并且即使对于验证集也不需要任何分割注释就可以执行超参数调整。PnP-OVSS在相当的基线上表现出实质性的改进(Pascal VOC上+29.4% mIoU,Pascal Context上+13.2% mIoU,MS COCO上+14.0% mIoU,COCO Stuff上+2.4% mIoU),甚至优于大多数在预训练VLM上进行额外网络训练的基线。
1.11 DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for Monocular 3D Semantic Scene Completion
DepthSSC:用于单目3D语义场景完成的深度空间对齐和动态体素分辨率
https://arxiv.org/abs/2311.17084
在自动驾驶领域,利用单目摄像机完成3D语义场景的任务越来越受到关注。它的目标是从部分图像输入预测3D场景中每个体素的占用状态。尽管存在许多方法,但它们中的许多忽略了空间和深度信息之间的准确对准的问题。为了解决这个问题,我们提出了DepthSSC,这是一种仅基于单目相机的语义场景完成的高级方法。DepthSSC将ST-GF(空间变换图融合)模块与几何感知体素化相结合,能够动态调整体素分辨率,并考虑3D空间的几何复杂性,以确保空间和深度信息之间的精确对齐。该方法成功地减轻了在现有方法中观察到的空间未对准和失真问题。通过对SemanticKITTI数据集的评估,DepthSSC不仅证明了其在捕捉复杂的3D结构细节方面的有效性,而且还实现了最先进的性能。我们相信DepthSSC为基于单目摄像机的3D语义场景完成研究提供了一个新的视角,并预计它将激发进一步的相关研究。
1.12 I-MedSAM: Implicit Medical Image Segmentation with Segment Anything
I-MedSAM:任意分段隐式医学图像分割
https://arxiv.org/abs/2311.17081
随着深度神经网络(DNN)的发展,人们已经做出了许多努力来处理医学图像分割。诸如nnUNet的传统方法在各个数据集上训练特定的分割模型。近年来,人们提出了许多方法来将基本的分割任意模型(SAM)应用于医学图像分割。然而,他们仍然专注于离散表示来生成逐像素的预测,这在空间上是不灵活的,并且难以扩展到更高的分辨率。相比之下,隐式方法学习用于分割的连续表示,这对于医学图像分割至关重要。在本文中,我们提出了I-MedSAM,它利用了连续表示和SAM的优点,以获得更好的跨域能力和准确的边界划定。由于医学图像分割需要预测详细的分割边界,我们设计了一种新的适配器,以增强SAM功能的高频信息,在参数有效的微调(PEFT)。为了将SAM特征和坐标转换为连续分割输出,我们利用隐式神经表示(INR)来学习隐式分割解码器。我们还提出了一个不确定性指导的采样策略,有效的学习INR。对2D医学图像分割任务的广泛评估表明,我们提出的方法只有1.6M的可训练参数优于现有的方法,包括离散和连续的方法。代码将被释放。
1.13 U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation
U-Net v2:对医学图像分割U-Net跳过连接的再思考
https://arxiv.org/abs/2311.17791
在本文中,我们介绍了U-Net v2,一个新的鲁棒性和有效的U-Net变体用于医学图像分割。它旨在增强语义信息到低级特征的注入,同时用更精细的细节细化高级特征。对于输入图像,我们首先使用深度神经网络编码器提取多级特征。接下来,我们通过注入高层特征的语义信息,并通过Hadamard积集成低层特征的更精细的细节来增强每个级别的特征图。我们新颖的跳跃连接赋予所有级别的功能,丰富的语义特征和复杂的细节。改进的特征随后被传输到解码器以进行进一步处理和分割。我们的方法可以无缝集成到任何编码器-解码器网络中。我们评估了我们的方法在几个公共医学图像分割数据集的皮肤病变分割和息肉分割,实验结果表明,我们的新方法的分割精度超过国家的最先进的方法,同时保持内存和计算效率。代码可在:https://github.com/yaoppeng/U-Net_v2
1.14 A publicly available vessel segmentation algorithm for SLO images
一种公开的SLO图像血管分割算法
https://arxiv.org/abs/2311.17525
背景和目的:红光扫描激光检眼镜(IRSLO)图像在显示后极和视网膜血管的细节方面类似于彩色眼底照片。虽然有许多训练有素的网络可用于彩色眼底照片中的视网膜血管分割,但没有一个适合IRSLO图像。因此,我们的目标是开发(并作为开源发布)一种专门针对IRSLO图像的血管分割算法。材料和方法:我们使用了来自RAVIR数据集的23个专业注释的IRSLO图像,结合了7个额外的内部注释图像。我们训练了一个U-Net(卷积神经网络)来将像素标记为“血管”或“背景”。结果:在一个看不见的测试集(4张图像)上,我们的模型实现了0.981的AUC和0.815的AUPRC。阈值化后,其灵敏度为0.844,特异性为0.983,F1评分为0.857。结论:我们已经使我们的自动分割算法公开可用,易于使用。研究人员可以使用生成的血管图来计算分形维数和血管密度等指标。