TransMIL: Transformer based Correlated MultipleInstance Learning for Whole Slide
Image Classification文献笔记(粗糙版)
基本信息
原文链接:10c272d06794d3e5785d5e7c5356e9ff-Paper.pdf (neurips.cc)
源码:https://github.com/szc19990412/TransMIL
考虑的问题:需要考虑实例之间的相关性,而不是单纯将它们看成独立的
设计了一种基于Transformer的MIL(TransMIL),它探索了形态和空间信息。与CAMELYON16数据集相比,二元肿瘤分类的测试AUC可达93.09%。癌症亚型分类的AUC分别比TCGANSLC数据集和TCGA-RCC数据集高达96.03%和98.82%
具体方法
(中间假设证明已省略)
(1)
算法1:
输入:一个包
输出:包级别的预测标签
(1)分别通过f()和h()提取所有实例的形态和空间信息;
(2)通过池化矩阵P聚合所有实例的提取信息;
(3)变换得到包级标签
(2)
每个WSI都被裁剪成补丁(背景被丢弃),并通过ResNet50嵌入特征向量中。然后使用TPT模块对序列进行处理:1)序列平方;2) 序列的相关性建模;3) 条件位置编码和局部信息融合;4) 深度特征聚合;5) T→Y的映射
(3)PPEG模块——位置编码
金字塔位置编码生成器。1) 序列分为 patch tokens和 class tokens;2) patch tokens被重塑为二维图像空间;3) 使用不同大小的卷积核对空间信息进行编码;4) 不同的空间信息融合在一起;5) patch tokens被按顺序展开;6) 连接patch tokens和 class tokens。
数据集
CAMELYON16是一个用于癌症转移检测的公共数据集,包括270个训练集和130个测试集。经过预处理后,在×20放大倍数下共获得约350万个patches,平均每袋约8800个patches。
TCGA-NSCLC包括两个亚型项目,即肺鳞状细胞癌(TGCA-LSCC)和肺腺癌(TCGA-LUAD),共993个诊断WSI,包括444例的507个LUAD patches和452例的486个LUSC patches。预处理后,在×20放大倍数下每张幻灯片提取的平均数为15371
TCGA-RCC包括三个亚型项目,即肾嫌色性肾细胞癌(TGCA-KICH)、肾透明细胞癌(TCGA-KIRC)和肾乳头状细胞癌(TCRA-KIRP),共884个诊断WSI,包括99例的111个KICH载玻片、483例的489个KIRC载玻片和264例的284个KIRP载玻片。经过预处理后,在×20放大倍数下每张幻灯片提取的平均patches数为14627。
实验
实验中数据集的设置: 每个WSI被裁剪成一系列256×256不重叠的补丁,其中背景区域(饱和度<15)被丢弃。在CAMELYON16中,我们将270个WSI分为大约90%的训练和10%的验证,然后在官方测试集上进行了测试。对于TCGA数据集,我们首先确保训练集和测试集中不存在来自同一患者的不同幻灯片,然后按照训练:验证:测试=60:15:25的比例随机分割数据。
评估指标:AUC和ACC
其余设置:
(1)交叉熵损失
(2)优化器:Lookahead
(3)学习率2e-4 weight decay: 1e-5 batchsize:1
(4)每个补丁的特征都是通过在ImageNet上预训练的ResNet50模型嵌入到1024维向量中的。在训练过程中,每个特征嵌入的维度通过全连接层从1024减小到512。最后,每个包的特征嵌入大小为n×512。
结果: