【学习笔记】医学视觉表征Contrastive Learning of Medical Visual Representations from Paired Images and Text

最新推荐文章于 2025-04-29 15:56:44 发布

阿小铨

最新推荐文章于 2025-04-29 15:56:44 发布

阅读量1.8k

点赞数 31

文章标签：学习笔记人工智能深度学习

本文链接：https://blog.csdn.net/weixin_60795503/article/details/133903950

版权

1 摘要

学习医学图像（如X射线）的视觉表示是医学图像理解的核心，但由于缺乏人类注释，其进展受到阻碍。现有的工作通常依赖于从ImageNet预训练传递的微调权重，这是次优的，因为图像特征截然不同，或者从与医学图像配对的文本报告数据中提取基于规则的标签，这是不准确的，很难推广。同时，最近的几项研究显示，从自然图像中进行无监督对比学习取得了令人兴奋的结果，但我们发现这些方法在医学图像上收效甚微，因为它们具有很高的类间相似性。我们提出了ConVIRT，这是一种替代的无监督策略，利用自然出现的成对描述性文本来学习医学视觉表示。我们通过两种模态之间的双向对比目标，用配对的文本数据预训练医学图像编码器的新方法，不需要额外的专家输入。我们通过将预训练的权重转移到4个医学图像分类任务和2个零样本检索任务来测试ConVIRT，并表明它在大多数情况下会导致显著优于强基线的图像表示。值得注意的是，在所有4个分类任务中，我们的方法只需要ImageNet初始化计数器的10%的标记训练数据，就可以获得更好或可比的性能，证明了卓越的数据效率。

2 介绍

理解医学图像是一项艰巨的任务。现有的工作遵循了两种获得医学限制任务注释的通用方法。

第一种方法是使用医学专家创建的高质量注释。然而，这种方法的高成本导致数据集比ImageNet等自然图像数据集小很多数量级。为了解决这一问题，现有工作在很大程度上依赖于从ImageNet预训练中转移模型权重。这种方法是次优的，因为医学图像理解通常需要非常精细的视觉特征的表示，这些视觉特征与识别自然图像中物体所需的视觉特征截然不同。因此可以说，与简单的随机初始化相比，ImageNet预训练通常几乎没有好处。

第二种流行的方法是使用专家制定的规则从图像附带的文本报告中提取标签。这种方法导致了大规模的数据集，因为与医学图像配对的文本数据通常是由医学专家在日常工作流程中自然生成的，并且在典型的医院IT系统中丰富。然而，这种基于规则的标签提取方法有两个关键局限性：1）规则往往不准确，导致文本报告数据的使用效率非常低；2）这些规则往往是特定领域的，并且对文本的风格敏感，使得跨领域和跨机构的概括变得困难。

为了更有效地利用未标记的图像数据，最近的几项研究显示，从自然图像中进行对比表示学习的结果很有希望，这正是这篇论文所展示的。

在这项工作中，作者提出了ConVIRT，这是一个通过利用图像和文本数据的自然配对来学习视觉表征的框架。ConVIRT通过图像和文本模态之间的双向对比目标，最大限度地提高真实图像-文本对与随机对照之间的一致性，从而改进可视化表示。

3 相关工作

作者的工作与医学图像分类以及从医学图像生成文本报告的工作最为相关。与其他研究使用在ImageNet上预训练的编码器权重不同，作者为医学成像提出了一种替代的预训练策略，并比较了同样使用配对医学报告的预训练方法。其受到了最近一系列基于图像视角的对比学习的启发，但通过利用文本模态进行对比学习。

与其相关的另一项工作是视觉语言表征学习。本工作与视觉语言预训练的大多数工作在几个关键方面有所不同：1）视觉语言学习的现有工作侧重于通过二元对比预测任务从配对文本中学习视觉表征，而我们的贡献在于展示了新的跨模态NCE目标在改进视觉表征方面的卓越性能；2）现有的工作主要依赖于在预处理步骤中从图像分割模型中提取的对象表示，这使得它们不太适用于解剖分割极难获得的医学图像理解任务；3）虽然现有的工作主要对视觉语言任务（如视觉问答）进行评估，但我们转而关注分类和检索任务的评估，这是医学图像理解研究的中心。

4 网络框架

4.1 问题定义

假设成对输入 $(\mathbf{x}_v,\mathbf{x}_u)$ ，其中 $x_v$ 表示一个或一组图像， $x_u$ 表示描述 $x_v$ 中成像信息的文本序列。我们的目标是学习一个参数化的图像编码器函数 $f_v$ ，它将图像映射到固定维向量。然后，我们将学习到的图像编码器函数 $f_v$ 传递到下游任务中，例如分类或图像检索。在这项工作中，我们将编码器函数 $f_v$ 建模为卷积神经网络（CNN）。

4.2 文本与图像编码

在这里插入图片描述

图1 ConVIRT框架概述。蓝色和绿色阴影分别表示图像和文本编码管道。我们的方法依赖于最大化具有双向损失的真实图像-文本表示对之间的一致性损失ℓ(v→u)以及ℓ(u→v)。

ConVIRT的网络框架如图1所示。模型将输入的图像 $x_v$ 和文本 $x_u$ 分别编码为d维的向量表示v和u。

对于输入图像 $x_v$ ，首先使用采样变换函数 $t_{\upsilon}\sim\mathcal{T}$ ，从 $x_v$ 中绘制一个随机视图 $\tilde{\mathbf{x}}_v$ ，其中 $\mathcal{T}$ 表示稍后描述的随机图像变换函数族。接下来，编码器 $f_v$ 将 $\tilde{\mathbf{x}}_v$ 变换为固定维度向量 $h_v$ 。接着是非线性投影 $g_v$ ，其进一步将 $h_v$ 变换为向量v。如下方公式表示: $\mathbf{v}=g_v(f_v(\tilde{\mathbf{x}}_v))$ 对于输入文本，与图像相同，进行编码操作。

两种模态的投影函数 $g_v$ 和 $g_u$ 的作用是将对应的编码从的编码器空间投影到相同的d维空间用于对比学习。

4.3 损失函数

在训练时，我们从训练数据中小批量采样N个输入对 $(\mathbf{x}_v,\mathbf{x}_u)$ ，计算它们的表示对(v，u)， $v_i,u_i)$ 来表示第i对。ConVIRT的训练目标涉及两个损失函数。

第一个损失函数是第i对输入对的图像到文本对比损失： $\begin{aligned}\ell_i^{(v\to u)}&=-\log\frac{\exp(\langle\mathbf{v}_i,\mathbf{u}_i\rangle/\tau)}{\sum_{k=1}^N\exp(\langle\mathbf{v}_i,\mathbf{u}_k\rangle/\tau)}\end{aligned}$ 其中 $\langle\mathbf{v}_i,\mathbf{u}_i\rangle$ 代表余弦相似度( $\langle\mathbf{v},\mathbf{u}\rangle~=~\mathbf{v}^\top\mathbf{u}/\|\mathbf{v}\|\|\mathbf{u}\|$ )， $\tau$ 代表温度参数。将其最小化会使编码器最大限度地保持真对之间的相互信息。直观地说，它是一个试图预测 $v_i,u_i)$ 为真对的分类器的逻辑损失。注意，我们的图像到文本的对比损失是每个输入模态不对称的。

第二个损失函数是第i对输入对的文本到图像对比损失。因此，我们将类似的文本与图像对比损失定义为： $\ell_i^{(u\to v)}=-\log\frac{\exp(\langle\mathbf{u}_i,\mathbf{v}_i\rangle/\tau)}{\sum_{k=1}^N\exp(\langle\mathbf{u}_i,\mathbf{v}_k\rangle/\tau)}$ 然后，最终训练损失被计算为每个小批量中所有正图像-文本对的平均两个损失的加权组合： $\mathcal{L}=\frac1N\sum_{i=1}^N\left(\lambda\ell_i^{(v\to u)}+(1-\lambda)\ell_i^{(u\to v)}\right)$ 其中， $\lambda\in[0,1]$ 是一个权重。

4.3 具体实现

在这里我们将一下上面定义的ConVIRT框架中图像和文本编码器、转换和投影函数的具体网络。

$g_v$ 和 $g_u$ ：单隐层神经网络，即 $g_v(\cdot)=\mathbf{W}^{(2)}\sigma(\mathbf{W}^{(1)}(\cdot))$ ，其中 $\sigma$ 是ReLU。
图像编码器 $f_v$ ：ResNet50
文本编码器 $f_u$ ：BERT，在所有输出向量上使用最大池化层。其使用在MIMIC临床笔记上预训练的ClinicalBERT权重初始化编码器。在训练时，冻结该BERT编码器的嵌入和前6个变换器层，并微调后6个层，使编码器适应我们的对比任务。
$t_v$ 采样的图像变换族 $\mathcal{T}$ ：使用五种随机变换的序列应用：裁剪、水平翻转、仿射变换、颜色抖动和高斯模糊。由于医学图像的单色性质，我们只在颜色抖动中应用亮度和对比度调整。
文本转换函数 $t_u$ ：对来自输入文档 $x_u$ 的句子使用简单的均匀采样（即对于每个小批量， $\tilde{\mathbf{x}}_u$ 随机采样于 $x_u$ ）。作者没有使用更激进的转换，主要是因为句子层面的采样有助于保留采样跨度的语义。