论文阅读 (97)：Differentiable Zooming for Multiple Instance Learning on Whole-slide Images

因吉

于 2023-08-14 14:29:27 发布

阅读量576

点赞数 1

分类专栏： # 多示例学习文章标签： MIL WSI

本文链接：https://blog.csdn.net/weixin_44575152/article/details/132225076

版权

多示例学习专栏收录该内容

81 篇文章

订阅专栏

文章目录

1 要点
2 可微缩放MIL

1 要点

1.1 概述

题目：用于全幻灯片图像的多示例学习可微缩放 (Differentiable zooming for multiple instance learning on whole-slide images)

背景：多示例学习 (MIL) 在数字病理学中对十亿像素级的全幻灯片图像 (WSI) 分类变得愈发流行

问题：

已有的方法在单一放大的WSI上处理所有的组织区块，这将WSI级的上下文限制在单一尺度，且需要极大的计算资源；
扩展到多尺度的方法，需要更大的计算资源要求；

方法：受病理学诊断过程的启发，提出了ZoomMIL，其以端到端的方式学习且执行多级缩放，即汇聚多级尺度上的组织-上下文信息为多个WSI表示

1.2 代码

https://github.com/histocartography/zoommil

1.3 引用

@inproceedings{Thandiackal:2022:699715,
authorq		=	{Kevin Thandiackal and Bo Qi Chen and Pushpak Pati and Guillaume Jaume and Drew FK Williamson and Maria Gabrani and Orcun Goksel},
title		=	{Differentiable zooming for multiple instance learning on whole-slide images},
booktitle	=	{{ECCV}},
pages		=	{699--715},
year		=	{2022}
url			=	{https://doi.org/10.1007/978-3-031-19803-8_41}
}

2 可微缩放MIL

2.1 注意力MIL

详情参见GAMIL中的门控注意力。

2.2 多级缩放

假设WSI在不同缩放下是可评估的，以 $m\in\{ 1,2,\dots, M \}$ 为索引，其中 $M$ 表示最大的缩放尺度。与特征金字塔类似，假设 $m + 1$ 处的放大倍数是 $m$ 处的两倍。为了高效地将MIL扩展到多级缩放，本文将从低到高倍率放大以分级鉴别高信息区块，并汇聚为最终的WSI表示：

计算每个区块的注意力得分 $\mathbf{a}_m\in\mathbb{R}^N$ ；
具有最大注意力得分的 $K$ 个区块用于更高放大倍率下的操作，被选择的区块特征矩阵表示为：
$\tag{3} \tilde{\mathbf{H}}_m=\mathbf{T}_m^\top\mathbf{H}_m,$ 其中 $\mathbf{T}_{m}\in\{ 0,1 \}^{N\times K}$ 是索引矩阵， $\mathbf{H}_m\in\mathbb{R}^{N\times D}$ 是在 $m$ 处的区块特征矩阵。

与已有通过预处理获得多级缩放的方法不同，本文通过分类器 $f(\cdot)$ 的预测结果在第 $m$ 步直接选择区块。该过程不需要任何的损失或者额外的超参数。然后，由于top- $K$ 操作，该方法是不可导的。对此，扰动最大方法 (Perturbed maximum method) 被使用：

注意力系数 $\mathbf{a}_m$ 添加均匀高斯噪声 $\mathbf{Z}\in\mathbb{R}^N$ ；
针对每个受扰动的注意力权重求解一个线性规划，其结果将被平均。因此，可微top- $K$ 被重写为：
$\tag{4} \mathbf{T}={\mathbb{E}}_{\mathbf{Z}\sim\mathcal{N}(0,\mathbb{1})}\left[ \argmax_{\hat{\mathbf{T}}}\langle \hat{\mathbf{T}}, (\mathbf{a}_m + \sigma \mathbf{Z}) \mathbf{1}^\top \rangle \right],$ 其中 $\mathbf{1}^\top=[1\cdots1]\in\mathbb{R}^{1\times K}$ 、 $(\mathbf{a}_m + \sigma \mathbf{Z})\in\mathbb{R}^{T\times K}$ 表示重复 $K$ 次后的扰动注意力权重，以及 $\langle\cdot\rangle$ 表示点积。相应的Jacobian定义为：
$\tag{5} J_{\mathbf{a}_m}\mathbf{T}={\mathbb{E}}_{\mathbf{Z}\sim\mathcal{N}(0,\mathbb{1})}\left[ \argmax_{\hat{\mathbf{T}}}\langle \hat{\mathbf{T}}, (\mathbf{a}_m + \sigma \mathbf{Z}) \mathbf{1}^\top \rangle\mathbf{Z}^\top/\sigma \right],$

为了实验缩放目标，我们将索引矩阵 $\mathbf{T}_m$ 进行扩充，以选择区块特征 $\mathbf{H}_{m'}\in\mathbf{R}^{N\cdot4^{(m'-1)\times D}}$ ，其中 $m^{'} > m$ 。特别地，计算 $\mathbf{T}_m$ 和单位矩阵 $1_{m'}=\text{diag}(1,\dots,1)\in\mathbb{R}^{4^{(m'-1)}\times4^{(m'-1)}}$ 的Kronecker内积来获得索引矩阵 $\mathbf{T}_{m'}\in\{0,1\}^{N\cdot4^{(m'-1)}\times K\cdot4^{(m'-1)}}$ 。与公式3类似，在更高放大倍率 $m^{'}$ 使用注意力权重的区块选择可以计算为：
$\tag{6} \tilde{\mathbf{H}}_{m'}=(\mathbf{T}_m\otimes1_{m'})^\top\mathbf{H}_{m'}.$