0 要点
说明:本文在于能够让大家能够更加快速地了解MIL这个领域,因此将从以下几个方面重点介绍MIL (这里不详细介绍每一篇文章,只做概述)。
会议合集:https://github.com/Lionelsy/Conference-Accepted-Paper-List
代码合集:https://github.com/lingxitong/MIL_BASELINE
- 注1:欢迎大家进一步交流,可以加入我建立的QQ群 (2024年1月15日建立);
- 注2:如果给出的文章包含代码,则可以点击其名称缩写获取;
- 注3:承2,如果包含博客讲解,可以点击其全称获取;
- 注4:一些缩写:
- WSI:全幻灯片分类 (医学领域,目前最热门的MIL应用);
- VAD:视频异常检测;
- ECG:心电图; - 注5:对于每一个小节,其侧重点有所不同:
- 章节2 (理论MIL概述):关注算法的实现细节;
- 章节3 (MIL交叉领域):MIL与多标签、偏标签、对抗攻击、分布外检测的一些结合;
- 章节4 (MIL应用概述):着重数据集的说明及其相关处理;
- 注6:本人精力有限,希望能有更多的小伙伴和我一起完善这个博客~
1 多示例背景介绍
概述:多示例学习 (MIL) 是一种典型的弱监督学习,其输入的单个样本被称为包 (bag),包中包含多个实例 (instance)。在训练阶段,通常只有包的标签可知,而实例的标签不可知或者获取成本极高。因此,概括性的,MIL与传统机器学习的主要区别在于:
- 弱监督场景:实例的数量巨大却没有标签,仅通过包标签来预测未知类,甚至预测实例标签是极具挑战性的;
- 数据结构:包是多个实例的集合,实例可以是向量、图像、视频等任意结构,因此传统机器学习可以看作是MIL的一种特殊情况;
纵观MIL发展历程,其可以分为几个阶段:
- 早期:从Dietterich团队的药物活性预测研究开始,尝试直接使用传统的机器学习方法解决MIL问题;
- 发展:尝试MIL问题的转换,通常使用嵌入函数或包相似性度量来将其简化为传统的机器学习问题;
- 深度:利用深度学习的强大特征提取及表征能力,直接预测包的标签,这也是目前MIL研究的重点;
- 应用:考虑更多背景信息,如视频的时序、医疗图像相邻区块的关联性,以更好地处理实际任务;
2 理论MIL概述
之所以优先介绍传统MIL方法,究其原因为:
- 传统MIL方法包含众多实用策略,其思想内核至今仍被前沿的深度MIL方法使用;
- 传统方法均可被深度MIL直接或间接复刻,通过对齐首要了解,可以为后续深度MIL方法学习打下基础;
2.1 传统MIL方法
传统MIL方法大致分为三种:
- 实例方法:首先预测实例标签,并通过MIL假设计算包标签;
- 包方法:设计类似于高斯核的MIL包距离度量,使得 k k kNN和SVM等基于距离矩阵的方法得以施展;
- 嵌入方法:将包转换为向量,使得传统机器学习策略生效,这也是目前MIL表征学习的基础;
当然,立足于深度MIL方法的小伙伴只需大致了解这类方法。以下是对一些经典方法的归类:
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
MINTL | 广东工业大学 | TNNLS’24 | Multi-instance nonparallel tube learning | 基于优化理论的类边界信息学习,以提升模型性能 | 理论 |
ISK | 周志华 | KDD‘19 | Isolation set-kernel and its application to multi-instance learning | 基于孤立核设置集合核和嵌入函数 | 理论 |
MILDM | 悉尼科技大学 | TKDE’18 | Multi-instance Learning with discriminative bag mapping | 利用辨别性优化嵌入结果 | 理论 |
miVLAD | 周志华 | TNNLS’16 | Scalable algorithms for multi-instance learning | 基于 k k kMeans聚类的高效MIL算法 | 理论 |
miFV | 周志华 | ICDM’14 | Scalable multi-instance learning | 混合高斯模型及Fisher核编码包为向量 | 理论 |
BAMIC | 周志华 | Applied Intelligence’09 | Multi-instance clustering with applications to multi-instance prediction | 利用包距离度量和 k k kMeans聚类获取包嵌入向量 | 理论 |
2.2 注意力网络
注意力机制的引入是深度MIL发展史上的一次伟大变革,其以Ilse等人发表的ABMIL和GAMIL为伊始,并深刻影响着后续MIL算法的发展。后续的基于对比学习、介入学习等策略的MIL大都围绕其展开,只是方法的侧重有所不同。
注意:
- 大部分方法都包含注意力机制。因此,只要当前方法没有侧重其它策略,都被归属到此类;
- 红色标识的方法相对简单,加粗红色标识的方法适合入门
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
DKMIL | 西南交通大学 | TNNLS’24 | Data-driven knowledge fusion for deep multi-instance learning | 利用已有方法中的先验知识,设计基于关键实例的知识融合模块,以获取更好地包表示 | 理论 |
AMD-MIL | 清华大学 | ACM MM’24 | Agent aggregator with mask denoise mechanism for histopathology whole slide image analysis | 代理注意力机制的改进及掩码去噪 | WSI |
PAMIL | 哈尔滨工业大学 | CVPR’24 | Dynamic policy-driven adaptive multi-instance learning for whole slide image classification | WSI | |
WiKG | 清华大学 | CVPR’24 | Dynamic graph representation with knowledge-aware attention for histopathology whole slide image analysis | 利用动态图构建和用于节点更新的知识感知注意力机制来生成图表示 | WSI |
CIMIL | 厦门大学 | AAAI’24 | Boosting multiple instance learning models for whole slide image classification: A modelagnostic framework based on counterfactual inference | WSI | |
CaMIL | 华东师范大学 | AAAI’24 | CaMIL: Causal multiple instance learning for whole slide image classification | 在IBMIL的基础上,改进去混淆介入式学习 | WSI |
VINO | 复旦大学 | AAAI’24 | Transformer-based video-structure multi-instance learning for whole slide image classification | WSI | |
CSMIL | 范德比尔特大学 | Medical Image Analysis’24 | Cross-scale multi-instance learning for pathological image diagnosis | WSI | |
IBMIL | 上海交通大学 | CVPR’23 | Interventional bag multi-instance learning on whole-slide pathological images | 基于训练模型和 k k kMeans的全局特征提取 | WSI |
MHIM-MIL | 香港科技大学 | CVPR’23 | Multiple instance learning framework with masked hard instance mining | 基于蒙版硬实例和软实例的孪生网络 | WSI |
ItS2CLR | 纽约大学 | CVPR’23 | Multiple instance learning via iterative self-paced supervised contrastive learning | 实例伪标签提升表示学习质量,并通过自步采用策略优化 | WSI |
DTFD-MIL | 利物浦大学 | CVPR’23 | DTFD-MIL: Double-tier feature distillation multiple instance learning for histopathology whole slide image classification | 引入伪包概念来虚拟地增加包的数量,并构建一个双层框架以有效利用伪包的内在特征 | WSI |
CHEESE | 大连理工大学 | IEEE TCDS’23 | Multiple instance learning for cheating detection and localization in online examinations | 综合被检测人员的眼睛注视、头部姿势和面部特征等信息来学习模型 | VAD |
LNPL-MIL | 清华大学 | ICCV’23 | LNPL-MIL: Learning from noisy pseudo labels for promoting multiple instance learning in whole slide image | 提出了一种更准确的Top- k k k实例选择策略,并设计了一个能够感知实例顺序和分布的Transformer | WSI |
CausalMIL | 东南大学 | NeurIPS’22 | Multi-instance causal representation learning for instance label prediction and out-of-distribution generalization | 获得实例级因果表示并考虑OOD问题 | 理论 |
ZoomMIL | IBM 欧洲研究院 | ECCV’22 | Differentiable zooming for multiple instance learning on whole-slide images | 多尺度WSI同时输入 | WSI |
DSMIL | 威斯康星大学 | CVPR’21 | Dual-stream multiple instance learning network for whole slide image classification with self-supervised contrastive learning | 双流架构及自监督对比学习 | WSI |
TransMIL | 清华大学 | NeurIPS‘21 | TransMIL: Transformer based correlated multiple instance learning for whole slide image classification | 基于Transformer的相关型MIL框架 | WSI |
LAMIL | 佛罗里达大学 | AAAI’20 | Loss-based attention for deep multiple instance learning | 额外添加实例损失优化模型且提供理论证明 | 理论 |
ABMIL&GAMIL | 阿姆斯特丹大学 | ICML’18 | Attention-based deep multiple instance learning | 设计了两种注意力机制来捕捉包中的关键实例 | 理论 |
2.3 自监督学习
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
ItS2CLR | 纽约大学 | CVPR’23 | Multiple instance learning via iterative self-paced supervised contrastive learning | 实例伪标签提升表示学习质量,并通过自步采用策略优化 | WSI |
Giga-SSL | 巴黎科学与文学大学 | CVPR’23 | Giga-SSL: Self-supervised learning for gigapixel images | 利用抽样实例并采样增强策略来生成用于自监督学习的实例集合,后续过程等同于SimCLR | WSI |
HiDisc | 密歇根大学 | CVPR’23 | Hierarchical discriminative learning improves visual representations of biomedical microscopy | 利用患者-WSI-区块这一层级结构信息来设置自监督学习中的对比损失 | WSI |
SMILES | 东北大学 | AAAI’23 | Robust self-supervised multi-instance learning with structure awareness | 引入无监督对比学习来获取包表示 | 理论 |
MuRCL | 厦门大学 | IEEE TMI’22 | MuRCL: Multi-instance reinforcement contrastive learning for whole slide image classification | 训练自监督管理器,然后基于WSI幻灯片级别标签微调,并设计了一个基于强化学习的代理来加速训练 | WSI |
2.4 因果推断/介入学习
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
CaMIL | 华东师范大学 | AAAI’24 | CaMIL: Causal multiple instance learning for whole slide image classification | 在IBMIL的基础上,改进去混淆介入式学习 | WSI |
IBMIL | 上海交通大学 | CVPR’23 | Interventional bag multi-instance learning on whole-slide pathological images | 基于训练模型和 k k kMeans的全局特征提取 | WSI |
2.5 图神经网络/图表示学习
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
RGMIL | 中国科学院 | TNNLS’24 | Reinforced GNNs for multiple instance learning | 利用强化学习来搜索图阈值的GNN层数 | 理论 |
WiKG | 清华大学 | CVPR’24 | Dynamic graph representation with knowledge-aware attention for histopathology whole slide image analysis | 利用动态图构建和用于节点更新的知识感知注意力机制来生成图表示 | WSI |
NAGCN | 上海交通大学 | CVPR’22 | Node-aligned graph convolutional network for whole-slide image representation and classification | 基于全局图和局部图的图神经网络 | WSI |
2.6 强化学习
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
RGMIL | 中国科学院 | TNNLS’24 | Reinforced GNNs for multiple instance learning | 利用强化学习来搜索图阈值的GNN层数 | 理论 |
MuRCL | 厦门大学 | IEEE TMI’22 | MuRCL: Multi-instance reinforcement contrastive learning for whole slide image classification | 训练自监督管理器,然后基于WSI幻灯片级别标签微调,并设计了一个基于强化学习的代理来加速训练 | WSI |
2.7 数据增强
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
PseMix | 电子科技大学 | IEEE TMI‘24 | Pseudo-bag mixup augmentation for multiple instance learning-based whole slide image classification | 基于Mixup改进的用于WSI分类的数据增强方法 | WSI |
RankMix | 台湾省中央研究院 | CVPR’23 | RankMix: Data augmentation for weakly supervised learning of classifying whole slide images with diverse sizes and imbalanced categories | WSI | |
ReMix | 腾讯AI研究室/加州大学 | MICCAI’22 | ReMix: A general and efficient framework for multiple instance learning based whole slide image classification | WSI |
2.8 GAN
3 MIL交叉领域
3.1 多模态多示例 (M3IL)
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
LaDM 3 ^3 3IL | 上海科技大学 | AAAI’24 | A label disambiguation-based multimodal massive multiple instance learning | 基于标签消歧实现多模态多示例的免疫库分类 | 免疫库分类 |
MDDP | 香港中文大学 | ACM MM’24 | Multi-modal denoising diffusion pre-training for whole-slide image | 结合H&E和IHC图像对来训练去噪扩散模型,且能够用于增强已有的WSI数据集 | WSI |
ViLa-MIL | 西安交通大学 | CVPR’24 | ViLa-MIL: Dual-scale vision-language multiple instance learning for whole slide image classification (附录) | WSI | |
PE-MIL | 中国科学院 | CVPR’24 | Prompt-enhanced multiple instance learning for weakly supervised video anomaly detection | WSI | |
AMIGO | 不列颠哥伦比亚大学 | CVPR’23 | Sparse multi-modal graph transformer with shared-context processing for representation learning of giga-pixel images | 利用WSI内细胞图层次结构来提供单个WSI表示,且同时能够动态地在细胞级和WSI信息之间聚合 | WSI |
MAMIL | 武汉理工大学 | KBS’23 | Multimodal multi-instance learning for long-term ECG classification | 利用多模态学习处理长时心电图分类 | ECG |
3.2 多示例偏标签 (MIPL)
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
ELIMIPL | 张敏灵 | IJCAI’24 | Exploiting conjugate label information for multi-instance partial-label learning | 理论 | |
DEMIPL | 张敏灵 | NeurIPS’23 | Disambiguated attention embedding for multi-instance partial-label learning | 去混淆注意力嵌入 | 理论 |
MIPLGP | 张敏灵 | ChinaSCI’23 | Multi-instance partial-label learning: Towards exploiting dual inexact supervision | 首次提出MIPL | 理论 |
3.3 多示例正和无标签学习 (PU-MIL)
正和无标签学习 (PU) 的训练集中只包含正样本和无标记样本,对应的问题有叶片上的异常结冰检测、诈骗邮件检测等。
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
PU-MIL-AD | 鲁汶大学 | KDD’23 | Learning from positive and unlabeled multi-instance bags in anomaly detection | 在MIL中首次引入PU学习的概念,并基于VAE进行异常检测 | Anomaly Detection |
3.4 多示例对抗攻击及防御 (MIL attack and denfense)
考虑MIL的弱监督设置,通过添加对抗扰动的方式愚弄MIL分类器,以解释模型的脆弱性和安全性。此外,对抗防御则用于降低MIL攻击者的效能。
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
CAF-GAN | 韩国航空航天大学 | IEEE TIFS’23 | A robust open-set multi-instance learning for defending adversarial attacks in digital image | 基于GAN的对抗防御及数字取证研究 | Anti-forensic |
MI-CAP&MI-UAP | 西南交通大学 | PR’23 | Interpreting vulnerabilities of multi-instance learning to adversarial perturbations | 首次在MIL中引入对抗攻击,以解释算法的脆弱性,后续可作为数据增强策略等 | 理论 |
3.5 多示例分布外检测 (MIL-OOD)
3.6 多示例多标签 (MIML)
3.7 多示例主动学习 (MIL Active)
方法名 | 团队 | 期刊/会议 | 全称 | 思想 | 领域 |
---|---|---|---|---|---|
MIDL | 中科院 | IEEE TPAMI‘23 | Multiple instance differentiation learning for active object detection | 提出了一种用于实例级主动学习的多示例差异化学习策略 | 目标检测 |
4 MIL应用概述
对于应用,重点关注数据集本身,以及相应的数据预处理策略。
4.1 全幻灯片分类 (WSI)
4.1.1 数据集
- Camelyon16:270训练 (159正常111异常)、129测试,包含实例级别标签;
- TCGA肺癌数据集:包含两个肺癌子数据集,分别为LUSC、LUAD,文件下载索引可以参照https://github.com/binli123/dsmil-wsi/tree/master/tcga-download;
- AGGC22:前列腺切除术和活检标本的H&E染色WSI数据集,其中训练:测试=168:73,详情参见CIMIL;
- PANDA:多三分类,包含实例级别标签,详情参见VINO;
- 注1:DSMIL提供了预处理版本;
- 注2:数据集的预处理一般可以使用CLAM;
4.1.2 预处理器
方法 | ResNet18 (512) | ViT-small (384) | ResNet50(1024) | CTransPath |
---|---|---|---|---|
CaMIL (AAAI’24) | √ | √ | ||
CIMIL (AAAI’24) | √ | |||
VINO(AAAI’24) | √ | |||
PAMIL (CVPR’24) | √ | |||
WiKG (CVPR’24) | √ | |||
IBMIL (CVPR’23) | √ | √ | √ | |
CSMIL | √ | |||
AdvMIL | √ | |||
ProDiv | √ |
- 注1:ResNet18括号后的数字表示每个区块 (patch) 提取后的维度;
4.1.3 WSI的分割策略
数据集 | 策略1 | 策略2 | 策略3 |
---|---|---|---|
Camelyon16 | √ | √ | |
TCGA-NSCLC | √ | √ |
- 策略1:5倍放大,256x256,不交叠;
- 策略2:20倍放大,256x256,不交叠 (可参见CLAM);
- 策略3:10倍方法,256x256,不交叠
4.2 视频异常检测 (VAD)
4.3 图像分类 (Image)
4.4 调制识别
致谢
- 感谢凌同学提供的代码仓库,其集成了经典与前沿的MIL方法,且提供了数据集和预训练模型的说明;
- 感谢罗同学提供的一些论文整理支持;