【2024】VLM-CPL：无注释的病理图像分类！来自视觉语言模型的共识伪标签

最新推荐文章于 2024-08-07 22:49:21 发布

向向2024

最新推荐文章于 2024-08-07 22:49:21 发布

阅读量711

点赞数 23

分类专栏：域自适应/域泛化医学影像文章标签：分类语言模型人工智能

本文链接：https://blog.csdn.net/weixin_49090702/article/details/137063878

版权

域自适应/域泛化同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

医学影像

4 篇文章 0 订阅

订阅专栏

文章目录

基本信息:

标题: VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification

作者: Lanfeng Zhong, Xin Liao, Shaoting Zhang, Xiaofan Zhang, Guotai Wang

机构: University of Electronic Science and Technology of China, Shanghai Artificial Intelligence Laboratory, Department of Pathology, West China Second University Hospital, Qing Yuan Research Institute, Shanghai Jiao Tong University
发表日期: 2024年3月23日

在这里插入图片描述

论文摘要

尽管深度学习方法在病理图像分类方面取得了显著的性能，但它们严重依赖标记数据，需要大量的人工注释工作。在这项研究中，我们通过利用预先训练的视觉语言模型（VLM）提出了一种新颖的无人工注释的病理图像分类方法。在没有人工标注的情况下，利用VLM的零样本推理能力获得训练集的伪标签，由于预训练数据和目标数据集之间的域迁移，可能包含大量噪声。为了解决这个问题，我们引入了 VLM-CPL，这是一种基于共识伪标签的新颖方法，它将两种噪声标签过滤技术与半监督学习策略相结合。具体来说，我们首先使用输入的多个增强视图，通过 VLM 进行零样本推理，获得具有不确定性估计的基于提示的伪标签。然后，利用VLM的特征表示能力，通过特征空间中的样本聚类获得基于特征的伪标签。引入提示特征共识，根据两类伪标签之间的共识来选择可靠的样本。通过拒绝低质量的伪标签，我们进一步提出高置信度交叉监督（HCS）来从具有可靠伪标签的样本和剩余的未标记样本中学习。实验结果表明，我们的方法在 HPH 和 LC25K 数据集上分别获得了 87.1% 和 95.1% 的准确率，并且大大优于现有的零样本分类和噪声标签学习方法。

背景与动机

论文背景:

深度学习方法在病理图像分类方面取得了显著进展，但这些方法严重依赖于标注数据，需要大量的人力注释工作。当前的成功主要依赖于大规模的标注训练数据集，这限制了它们在广泛的病理图像分析任务中的应用。

过去方案

尽管半监督学习（SSL）和弱监督学习（WSL）等标签高效技术在减少注释成本方面取得了有希望的结果，但它们仍然需要大量的注释工作量。

论文的Motivation

为了彻底摆脱人类注释，本文提出了一种新颖的无需人类注释的方法，利用预训练的视觉-语言模型（VLMs）进行病理图像分类。

核心方法:

a. 理论背景:

利用VLMs的零样本推理能力，可以在没有人类注释的情况下为训练集生成伪标签。

b. 技术路线:

通过VLM的零样本推理和输入的多个增强视图，首先获得基于提示的伪标签和不确定性估计。
利用VLM的特征表示能力，通过特征空间中的样本聚类获得基于特征的伪标签。
提出了提示-特征共识（PFC）来选择可靠的样本，基于两种类型的伪标签之间的共识。
提出了高置信度交叉监督（HCS），通过拒绝低质量的伪标签，从具有可靠伪标签的样本和剩余未标注样本中学习。

c.核心贡献：

提出了VLM-CPL方法，该方法在无需人类注释的情况下，通过共识伪标签和半监督学习策略显著提高了病理图像分类的准确性。

实验结果

a. 详细的实验设置

在两个公共数据集HPH和LC25K上进行实验。
使用预训练的PLIP模型进行零样本推理。
实验中使用了多种数据增强技术，如随机翻转和旋转。

b. 详细的实验结果

VLM-CPL方法在HPH和LC25K数据集上分别获得了87.1%和95.1%的准确率。
与现有的零样本分类和噪声标签学习方法相比，该方法在两个数据集上都取得了显著的性能提升。
在这里插入图片描述

总结

VLM-CPL方法通过利用预训练的视觉-语言模型和共识伪标签过滤技术，显著提高了无需人类注释的病理图像分类性能。该方法在实际临床应用中具有重要意义，未来计划将该方法扩展到病理图像分割任务。

在病理图像分类领域，深度学习方法虽然取得了显著成就，但它们依赖于大量的标注数据，这需要耗费大量人力进行注释。为了解决这一问题，本文提出了一种无需人类注释的病理图像分类方法，该方法利用预训练的视觉-语言模型（VLMs）生成伪标签。由于预训练数据与目标数据集之间存在领域偏移，直接使用VLM进行推理可能会产生大量噪声标签。

为了应对这一挑战，我们引入了VLM-CPL（Consensus Pseudo Labels from Vision-Language Models），一种基于共识伪标签的新方法，该方法结合了两种噪声标签过滤技术，并采用了半监督学习策略。具体来说，我们首先通过VLM的零样本推理能力，使用输入的多个增强视图获得基于提示的伪标签，并估计其不确定性。然后，我们利用VLM强大的特征表示能力，通过特征空间中的样本聚类获得基于特征的伪标签。通过提示-特征共识（PFC），我们选择了可靠的样本，这些样本在两种类型的伪标签之间具有共识。我们进一步提出了高置信度交叉监督（HCS），通过拒绝低质量的伪标签，从具有可靠伪标签的样本和剩余未标注样本中学习。