论文123：Multi-modal denoising diffusion pre-training for whole-slide image (2024, ACM MM, 开源，高创新性)

因吉

已于 2024-09-10 16:59:13 修改

阅读量663

点赞数 15

分类专栏： # 多示例学习文章标签： MIL WSI 多模态

于 2024-09-10 16:53:05 首次发布

本文链接：https://blog.csdn.net/weixin_44575152/article/details/142067906

版权

多示例学习专栏收录该内容

73 篇文章 66 订阅

订阅专栏

文章目录

1 要点
2 方法

1 要点

题目：用于WSI分类的多模态去噪扩散预训练模型 (Multi-modal denoising diffusion pre-training for whole-slide image)

代码：https://github.com/lhaof/MDDP

研究目的：
免疫组织化学 (IHC) 染色能够提供分子标记和蛋白质表达信息，突出显示癌症区域，但其制备过程需要额外的劳动、时间和专业设备。因此，研究者们希望利用多模态训练图像来推断缺失模态的WSI标签。具体地，通过仅使用H&E染色的WSI作为输入，来捕获两种染色图像模态之间的结构相似性和染色差异。

关键技术：

多模态去噪扩散预训练框架：
- MDDP框架包含两个关键任务：H&E染色图像到IHC图像的翻译任务，以及IHC图像到IHC图像的重构任务；
- 翻译任务和重构任务使用基本的生成损失
类约束对比损失：
使用从IHC染色图像估计的先验图像级标签来对齐两个生成任务的全局语义；
包特征增强策略：
通过所设计的预训练模型提取的特征来扩展包特征，如图3；

数据集：

Camelyon16
TCGA-COAD
TCGA-NSCLC

难点：

H&E图像和IHC属于背景知识，可以不用过多关注。可以这样简单理解：我们平时使用的WSI，例如Camelyon和TCGA等，都是这样的，而IHC图像是在H&E染色的基础上进行，但是这需要更多的成本；
对于去噪扩散预训练模型，其输入是H&E-IHC图像对，作者在此基础上进行图像的翻译任务和重构任务。为了对齐这两个任务的生成特征，所以设计了类约束对比损失；
对于我们常用的WSI分类任务，本文的方法可以看作是一种类似于Resnet的特征提取器，其所提取的特征包含了IHC信息，可以看作是已有图像的另一个模态。在本文的策略下，其这些特征可以和Resnet提取的特征拼接，并用于后续分类任务；

2 方法

2.1 多模态图像配准和标签分配

如图2(a)所示，在我们的数据获取过程中，首先对未染色的组织切片进行H&E染色，然后在去除H&E染色后进行IHC染色。这种顺序染色方法确保了不同染色的两幅图像之间在位置和结构的对应。然而，染色过程可能仍然会经历不可避免的变换，如平移或旋转，导致错位。为了解决这个问题，本文采样以下步骤：

使用刚性配准方法对来自同一组织切片的H&E染色和IHC染色WSI进行对齐；
使用Yottixel技术，根据组织分割结果和RGB直方图，从配准后的H&E染色WSI中选择有效的图像块；
在Yottixel中，从分割的组织区域裁剪出大小为1000×1000的正方形区域，并调整为256×256的图像块；
相应的IHC染色区域也以与其配对的H&E染色图像块相同的位置裁剪和调整大小；
在上述图像块选择程序之后，生成了大量配对的H&E-IHC染色样本 $x^{he},x^{ihc})$ ；

2.1.1 伪标签分配

在IHC染色中，特定蛋白质的表达被可视化为棕色区域，而正常组织往往更白。例如，如图2(a)中的 $x^{ihc}$ 行所示，左侧的补丁是阴性样本，右侧带有较大棕色区域的是阳性样本。因此，可以通过分析IHC样本中棕色区域的比例来评估特定蛋白质的表达。在本文中，棕色区域大于1%的样本定义为阳性，小于0.1%的为阴性，其余样本则被丢弃。每对H&E-IHC染色图像块被分配一个二元伪标签 $\rho$ （阳性/阴性），表明蛋白质表达的水平。

2.2 多模态去噪扩散预训练架构

我们提出的多模态去噪扩散预训练框架旨在从仅含H&E染色图像的输入中，提取IHC染色引导的特征。该框架通过两个任务进行训练：

多模态图像到图像的翻译任务：去噪扩散模型学习将H&E染色图像映射到其IHC染色对应图像；
单模态图像重建任务：要求去噪扩散模型从其噪声版本中恢复IHC染色图像；

如图2(b)所示，给定一对H&E染色和IHC染色的图像块 $x_{he}$ 和 $x_{ihc}$ :

首先使用预训练编码器 $\tau$ 提取其潜在特征 $z_{he}^0$ 和 $z_{ihc}^0$ ；
分别向潜在特征添加噪声，得到噪声特征 $z_{he}^t$ 和 $z_{ihc}^t$ ；
U-Net模型将 $z_{he}^t$ 和 $z_{ihc}^t$ 作为输入，分别执行重新染色任务和重建任务。根据输入特征，去噪U-Net模型不仅能将H&E染色图像块的潜在特征转换为IHC染色图像的潜在特征，还能从噪声特征中恢复IHC染色图像的原始特征；
设 $f_t$ 为图像到图像翻译任务生成的特征，可以使用预训练解码器 $D$ ，以 $f_t$ 为输入生成合成的IHC染色图像；

2.2.1 潜在特征提取

潜在扩散模型 (LDM) 将扩散过程移入潜在空间，并在潜在特征上执行去噪扩散过程，有效地降低了时间和内存成本。具体来说，LDM采用了由编码器和解码器组成的自动编码器架构：

编码器 $\tau$ 将输入图像 $x$ 映射为潜在特征图 $\tau(x)$ ，而解码器 $D$ 将潜在特征图重新转换为图像；
在训练去噪U-net之前，首先在H&E-IHC染色数据集上训练名为VQGAN的自编码器；
在提出框架的训练过程中，编码器 $\tau$ 和解码器 $D$ 的权重保持冻结状态；
编码器以配对的H&E和IHC染色图像块 $x_{he}$ 和 $x_{ihc}$ 为输入，输入形状为 $\times w \times 3$ ，输出两个潜在特征 $Z_{he}^0$ 和 $Z_{ihc}^0$ ，其形状为 $\times w' \times c'$ 。这两个潜在特征将在扩散过程中使用。

2.2.2 扩散过程

扩散过程在每个时间步 $t$ 向输入特征添加噪声，经过长时间步后得到噪声特征。我们的框架遵循一种名为BBDM的图像到图像翻译网络来执行扩散过程。在扩散过程中，噪声分别添加到两个不同任务的潜在特征中。两个任务的前向扩散过程定义如下：
$\tag{1} q_{he \rightarrow ihc}(z_{he}^t | z_{he}^0, z_{ihc}^0) = \mathcal{N}(z_{he}^t; (1 - m_t) z_{he}^0 + m_t z_{ihc}^0, \delta_t I),$ $\tag{2} q_{ihc \rightarrow ihc}(z_{ihc}^t | z_{ihc}^0) = \mathcal{N}(z_{ihc}^t; z_{ihc}^0, \delta_t I),$ 其中， $q_{he \rightarrow ihc}$ 表示H&E特征到IHC特征翻译任务的前向转移概率， $q_{ihc \rightarrow ihc}$ 表示IHC特征重建任务的前向转移概率。 $\mathcal{N}$ 表示高斯分布， $t$ 是介于 $0$ 和 $T$ 之间的时间步、 $m_t = t/T$ 表示添加的噪声比例、以及 $\delta_t$ 设计为 $KaTeX parse error: Can't use function '\(' in math mode at position 1: \̲(̲2(m_t - m_t^2)$ 并遵循BBDM的最佳设置。在时间步 $t$ 时，两个任务的扩散特征计算如下：
$\tag{3} z_{he}^t = (1 - m_t) z_{he}^0 + m_t z_{ihc}^0 + \sqrt{\delta_t} \epsilon_t,$ $\tag{4} z_{ihc}^t = z_{ihc}^0 + \sqrt{\delta_t} \epsilon_t,$ 其中， $z_{he}^t$ 和 $z_{ihc}^t$ 分别表示在时间步 $t$ 加入噪声的H&E染色和IHC染色图像特征，以及 $\epsilon_t \sim N(0, I)$ 是来自标准正态分布的高斯噪声。

2.2.3 去噪过程

在去噪过程中，给定 $z_{he}^t$ 、 $z_{ihc}^t$ ，以及时间步 $t$ ，使用一个U-Net模型 $\mu_\theta$ 来分别预测添加到这两个输入噪声特征上的噪声。需要注意的是， $\mu_\theta$ 仅依赖输入特征为不同任务 (图像到图像翻译/图像重建) 预测噪声。去噪特征可以通过以下公式计算：
$f_t = z_{he}^t - \mu_\theta(z_{he}^t, t),$ $g_t = z_{ihc}^t - \mu_\theta(z_{ihc}^t, t),$ 其中， $f_t \in \mathbb{R}^{h' \times w' \times c'}$ 表示从H&E染色图像的噪声特征图生成的合成IHC虚拟染色特征图，以及 $g_t \in \mathbb{R}^{h' \times w' \times c'}$ 表示从原始IHC染色图像的噪声特征图重建的特征图。

2.3 训练策略

2.3.1 重建和重染色损失

在提出的多模态预训练网络中，有两个生成损失分别衡量重建和重染色任务的合成质量：

第一个损失：用于评估通过重建任务生成的去噪IHC特征是否与编码器 $\tau$ 提取的原始特征一致。这个重建损失帮助去噪U-net更好地学习IHC染色切片原始特征的分布；
第二个生成损失：评估通过去噪扩散模型使用H&E染色图像块进行重染色任务生成的特征是否与其对应的IHC染色图像块的特征相似。该损失使得去噪U-Net能够通过单模态的H&E染色输入预测跨模态的IHC染色引导特征。我们对生成损失使用 $L 1$ 损失函数：
$L_{he \to ihc}^{rec} = ||Z_{ihc}^0 - f_t||,$ $L_{ihc \to ihc}^{rec} = ||Z_{ihc}^0 - g_t||.$

3.3.2 类约束对比损失

每个IHC染色的图像块可以根据棕色区域的百分比分类为阳性或阴性。H&E染色的图像块与其对应的IHC染色图像块共享相同的类别。因此，提出了一种类约束对比损失，以保持重染色特征 $f_t$ 和重建特征 $g_t$ 之间的语义一致性。

对于一批重染色特征 $F = \{f_t^0, f_t^1, ..., f_t^b\}$ 和对应的重建特征 $G = \{g_t^0, g_t^1, ..., g_t^b\}$ ，它们共享相同的伪标签 $\rho = \{\rho^0, \rho^1, ..., \rho^b\}$ 。同一类别的特征在潜在空间中应该是相似的。因此，定义了一个CLIP风格的对比损失来执行类约束特征对齐：
$\tag{5} L_{con} = - \sum_{i=0}^{b} \left[ \rho_i \cdot \log \left( \frac{e^{(\phi(f_t^i) \cdot \phi(g_t^i) / \sigma)}}{\sum_{j \neq i} e^{(\phi(f_t^j) \cdot \phi(g_t^j) / \sigma)}} \right) + (1 - \rho_i) \cdot \log \left( \frac{e^{(-\phi(f_t^i) \cdot \phi(g_t^i) / \sigma)}}{\sum_{j \neq i} e^{(-\phi(f_t^j) \cdot \phi(g_t^j) / \sigma)}} \right) \right]$ 其中， $b$ 是批次大小、 $f_t^i$ 和 $g_t^i$ 分别表示输入批次中第 $i$ 对的重染色特征和重建特征、 $f_t^j$ 和 $g_t^j$ 代表批次中的其他特征、 $\phi$ 是将所有特征转换为形状为 $\times c'$ 的特征向量的全局平均池化操作，以及 $\sigma$ 是温度因子。

总损失函数由三个项组成：
$L(X_{he}, X_{ihc}, \rho) = \lambda_1 L_{he \to ihc}^{rec} + \lambda_2 L_{ihc \to ihc}^{rec} + \lambda_3 L_{con}$ 其中， $X_{he}$ 、 $X_{ihc}$ ，以及 $\rho$ 分别表示一批H&E染色图像块、IHC染色图像块，及其对应的伪标签。 $\lambda_1$ 、 $\lambda_2$ ，以及 $\lambda_3$ 分别设为10、1和0.1。

3.4 下游任务的包特征增强

对于预训练的去噪扩散网络，我们将其用作H&E染色图像的特征提取器，而不是图像生成器。考虑到去噪U-Net已经学习将H&E染色图像的特征转换为IHC染色图像的表示，假设它不仅可以提供H&E染色图像的形态和纹理特征，还可以提供表明特定蛋白质表达水平的IHC染色引导特征。

如图3所示，在分类WSI的任务中，形状为 $\times W \times 3$ 的H&E染色WSI被裁剪为 $n$ 个图像块，形成一个用于MIL的包 $B$ ：

包首先被送入一个在ImageNet上预训练的编码器 $E$ ，以提取通用的实例级特征 $f_{uni} \in \mathbb{R}^{n \times C}$ ；
同时，包也输入到所提出的多模态框架预训练的特征提取器中，旨在提取IHC引导的表示。特征提取器由预训练的编码器 $\tau$ 、单步扩散过程 $\Psi$ ，以及去噪U-net $\mu_\theta$ 组成：
- 对于包中的每个H&E染色图像块 $x_{he}$ ，首先使用 $\tau$ 计算特征图 $z_{he}^0$ ；
- 给定一个时间步 $t$ ，通过单步扩散过程得到噪声特征 $z_{he}^t = z_{he}^0 + \sqrt{\delta_t} \epsilon_t$ ，其中 $\delta_t$ 和 $\epsilon_t$ 与公式(3)中的相同；
- 与公式(3)不同的是，由于仅使用单模态的H&E染色图像来解决下游任务，公式(3)中的 $z_{ihc}^0$ 被替换为 $z_{he}^0$ ；
- 随后，去噪U-net模型将噪声特征和时间步 $t$ 作为输入，并输出特征表示 $f_{de} \in \mathbb{R}^{n \times h'' \times w'' \times c''}$ ；
  
  为了对齐两个预训练模型中不同潜在空间的特征，对预训练模型的特征应用全局平均池化操作和线性层 (如图3中GAP+Linear)。然后，我们将 $f_{de}$ 和 $f_{uni}$ 连接在一起，构建增强的包级特征 $f_{bag} \in \mathbb{R}^{2n \times C}$ 。包级特征的提取过程可以公式化为：
  $\tag{7} f_{bag} = FC(\phi(\mu_\theta(\Psi(\tau(B), t), t))) || E(B)$ 其中， $\phi$ 表示全局平均池化操作、 $FC$ 是全连接层。 $\tau$ 、 $\Psi$ ，以及 $\mu_\theta$ 分别表示提出的多模态框架中的预训练编码器、单步扩散过程，以及去噪U-net。 $E$ 代表在ImageNet上预训练的编码器、 $∣∣$ 表示连接操作。然后，得到的包级特征可以用于广泛的基于MIL的WSI分类器中，以获得最终的预测结果。

去噪U-Net模型提供多尺度的特征表示。以往研究表明，利用来自不同解码器层的特征会影响下游任务的性能。因此，我们进行了实验，研究如何选择去噪U-Net的解码器层来提取特征。我们从这些层中选择最佳特征作为我们预训练模型的最终输出表示。此外，不同的时间步 $t$ 的选择也会影响提取特征的强度。因此，我们搜索能为下游任务带来最佳表现的 $t$ 。