TransMIL: Transformer based Correlated Multiple Instance Learning for Whole SlideImage Classificatio

最新推荐文章于 2024-10-04 05:48:08 发布

每天吃的很好的Ruby

最新推荐文章于 2024-10-04 05:48:08 发布

阅读量685

点赞数 24

分类专栏： MIL文献笔记文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_49983968/article/details/142635306

版权

MIL文献笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

TransMIL: Transformer based Correlated MultipleInstance Learning for Whole Slide
Image Classification文献笔记（粗糙版）

基本信息

原文链接：10c272d06794d3e5785d5e7c5356e9ff-Paper.pdf (neurips.cc)

源码：https://github.com/szc19990412/TransMIL

考虑的问题：需要考虑实例之间的相关性，而不是单纯将它们看成独立的

设计了一种基于Transformer的MIL（TransMIL），它探索了形态和空间信息。与CAMELYON16数据集相比，二元肿瘤分类的测试AUC可达93.09%。癌症亚型分类的AUC分别比TCGANSLC数据集和TCGA-RCC数据集高达96.03%和98.82%

具体方法

（中间假设证明已省略）

（1）

算法1：

输入：一个包 $X_i=x_{i,1},x_{i,2},...,x_{i,n}$

输出：包级别的预测标签

（1）分别通过f()和h()提取所有实例的形态和空间信息；

$X_f\longleftarrow f(X_i), X_h\longleftarrow h(X_i),X_{fh}\longleftarrow X_f+X_h$

（2）通过池化矩阵P聚合所有实例的提取信息；

$X_P\longleftarrow PX_{fh}$

（3）变换得到包级标签

$\widehat{Y}_i\longleftarrow PX_{fh}$

（2）

每个WSI都被裁剪成补丁（背景被丢弃），并通过ResNet50嵌入特征向量中。然后使用TPT模块对序列进行处理：1）序列平方；2）序列的相关性建模；3）条件位置编码和局部信息融合；4）深度特征聚合；5） T→Y的映射

（3）PPEG模块——位置编码

金字塔位置编码生成器。1）序列分为 patch tokens和 class tokens；2） patch tokens被重塑为二维图像空间；3）使用不同大小的卷积核对空间信息进行编码；4）不同的空间信息融合在一起；5） patch tokens被按顺序展开；6）连接patch tokens和 class tokens。

数据集

CAMELYON16是一个用于癌症转移检测的公共数据集，包括270个训练集和130个测试集。经过预处理后，在×20放大倍数下共获得约350万个patches，平均每袋约8800个patches。

TCGA-NSCLC包括两个亚型项目，即肺鳞状细胞癌（TGCA-LSCC）和肺腺癌（TCGA-LUAD），共993个诊断WSI，包括444例的507个LUAD patches和452例的486个LUSC patches。预处理后，在×20放大倍数下每张幻灯片提取的平均数为15371

TCGA-RCC包括三个亚型项目，即肾嫌色性肾细胞癌（TGCA-KICH）、肾透明细胞癌（TCGA-KIRC）和肾乳头状细胞癌（TCRA-KIRP），共884个诊断WSI，包括99例的111个KICH载玻片、483例的489个KIRC载玻片和264例的284个KIRP载玻片。经过预处理后，在×20放大倍数下每张幻灯片提取的平均patches数为14627。

实验

实验中数据集的设置: 每个WSI被裁剪成一系列256×256不重叠的补丁，其中背景区域（饱和度<15）被丢弃。在CAMELYON16中，我们将270个WSI分为大约90%的训练和10%的验证，然后在官方测试集上进行了测试。对于TCGA数据集，我们首先确保训练集和测试集中不存在来自同一患者的不同幻灯片，然后按照训练：验证：测试=60:15:25的比例随机分割数据。

评估指标：AUC和ACC

其余设置：

（1）交叉熵损失

（2）优化器：Lookahead

（3）学习率2e-4 weight decay: 1e-5 batchsize:1

（4）每个补丁的特征都是通过在ImageNet上预训练的ResNet50模型嵌入到1024维向量中的。在训练过程中，每个特征嵌入的维度通过全连接层从1024减小到512。最后，每个包的特征嵌入大小为n×512。

结果：