文章目录
已经提出了许多对非常高分辨率的WSI进行分类的算法。这些新算法主要侧重于寻找新的组合方法从slide images中提取小局部patch中的信息,重点是有效地聚合更多的全局信息,用于最终预测变量。
捕获全局上下文信息并不一定意味着更好的性能。捕获最多全局信息的模型始终比捕获较少全局信息的模型性能更差。此外,一种非常简单的多实例学习方法,不捕获全局信息,其性能几乎与捕获大量全局信息的模型一样好。
结果表明,有效WSI分类的最重要特征是在局部小patch水平上捕获的,其中细胞和组织微环境细节最为明显。
另一个令人惊讶的发现是,与在7种癌症(包括目标癌症)的较小数据集上进行预训练相比,对33种癌症进行无监督预训练的性能明显更差。
作者假设,在更小、更集中的数据集上进行预训练,使特征提取器能够更好地利用有限的特征空间,以更好地区分输入 patches 中的细微差异。
本文的贡献:
- 合并全局结构信息对性能的好处有限
- 在取得良好性能方面最重要的因素是用于预训练1级特征提取器的数据
- 在来自较大范围癌症的 WSI 上预训练 1 级特征的性能明显低于使用较小的一组癌症,甚至仅使用目标癌症
- 一种非常简单的基于最大池化的 MIL 算法,在给定高质量的预训练特征时不包含全局结构信息,其性能与复杂的最先进方法类似
- HIPT的修改版本称为HIPTLE,对于所有测试的WSI分类和生存预测任务,其性能始终优于所有其他算法


分层图像金字塔转换器(HIPT)框架。首先获取每个 256 px×256 px 1 级图像 patch 的 384 维 embedding,称为 1 级特征向量。在 2 级,为每个 4096 px×4096 px 2 级 patch 获取 192 维 embedding。最后,将所有 2 级特征向量传入单个 3 级 Transformer,以在整个 slide image 级别进行预测。这种方法逐步构建了 WSI 的更全局视图,允许 Transformer 模型的层次结构来分析全局结构。
用于 WSI 分类预测的具有三种不同级别全局结构的模型。(a) 大多数全局结构与原来的HIPT框架相对应,该框架以深度 Transformer 作为其2级编码器。(b) 中型全局结构用较浅的 2 层Transformer 模型取代了 HIPT 的 2 级编码器。(c) 没有全局结构 (Max-MIL) 使用简单的 max 运算符来汇总每个 patch 的单个贡献,而不包含任何位置或结构信息。所有模型都使用相同的预训练 1 级编码器(未显示)来生成 1 级特征向量。



结果在 4 个 WSI 数据集中取平均值。这些列显示不同数量的 2 级预训练,行显示不同数量的全局结构。
- 非常简单的基于最大池化的多实例学习(Max-MIL)算法(基本上只使用单个最置信的1级patch预测)可以胜过包含最全局结构的模型。
- 在 2 级使用预训练的特征提取器并不能提供明显的好处。
- 使用浅层 Transformer 对 2 级特征(中等全局结构)进行编码效果最好
用于预训练 1 级特征提取器的数据选择被发现对整体性能影响最大。
文中实验结果表明,从33种癌症中学习的特征比从7种癌症的较小子集中学习的特征表现得更差,甚至只从单个靶癌症中学习。
这可能归因于两个因素的结合:
1)每个WSI中的大量 patches 足以学习低级特征
2)大量不同的癌症类型导致预训练和下游任务之间的更大差异
例如,ImageNet 1K 数据集的大小为 133GB,不到 TCGA-BRCA 乳腺癌数据集大小 (480GB) 大小的三分之一,因此来自单个癌症数据集的 WSI 可能足以学习良好的判别特征。从更广泛的癌症中学习可能会导致为不用于下游任务的表示保留嵌入空间的宝贵区域。
在用于下游 WSI 分类的单个癌症上预训练 Max-MIL 1 级编码器可获得最佳准确性
解释:对较少的癌症(1或7)进行预训练,可以更好地利用表示空间来嵌入这些小癌症中发现的特征,而不是在33种癌症数据集或ImageNet中发现的大量不相关的特征。这意味着特征中较小的差异将被映射到制图表达空间中更远的地方。相比之下,33 种癌症预训练的 1 级编码器需要为不属于下游 WSI 分类任务的癌症保留表示空间。

在ImageNet上的预训练结果一直不稳定。这可以通过ImageNet上训练的特征提取器将表示空间的某些区域保留给与自然图像相关的特征来解释,例如狗的照片。虽然在预训练期间学习到的一些低级特征可以被重用,但其他特征在WSIs中根本不会出现,因此该部分表示空间被浪费了。相比之下,在接近下游任务的癌症数据集上进行预训练最有效地利用了表示空间,以编码对WSIs执行分类最有用的特征。
- 广泛的实验揭示了一个简单的方法,可以修改HIPT的2级编码器,以使用浅层 Transformer(无需预训练),并使用在更小,更集中的7种癌症(包括目标癌症)上训练的1级编码器。
- 2 级编码器的深度降低,使最终分类模块能够更轻松地访问重要的 1 级信息,同时仍然能够使用一些全局上下文信息。
研究发现,WSI分类的关键在于捕捉局部patch的细胞和组织细节,而非全局信息。预训练数据的选择对性能影响巨大,集中在较小癌症数据集上预训练比广泛癌症数据集效果更好。一种简化的方法是使用浅层Transformer和目标癌症预训练的1级编码器,性能优于复杂模型。
1168

被折叠的 条评论
为什么被折叠?



