文章目录
- 0 要点
- 1 多示例背景介绍
- 2 理论MIL概述
- 2.1 传统MIL方法
- 2.2 注意力网络
- 2.3 自监督学习
- 2.4 因果推断/介入学习
- 2.5 图神经网络/图表示学习
- 2.6 强化学习
- 2.7 数据增强
- 2.8 对抗生成网络
- 2.9 大语言模型
- 3 MIL交叉领域
- 3.1 多模态多示例 (M3IL)
- 3.2 多示例偏标签 (MIPL)
- 3.3 多示例多标签 (MIML)
- 3.4 多示例对抗攻击及防御 (MIL attack and denfense)
- 3.5 多示例正和无标签学习 (PU-MIL)
- 3.6 多示例分布外检测 (MIL-OOD)
- 3.7 多示例主动学习 (MIL Active)
- 4 MIL应用概述
- 4.1 全幻灯片分类 (WSI)
- 4.2 视频异常检测 (VAD)
- 4.3 免疫库分类 (IRC)
- 致谢
0 要点
说明:本文在于能够让大家能够更加快速地了解MIL这个领域,因此将从以下几个方面重点介绍MIL (这里不详细介绍每一篇文章,只做概述)。
会议合集:https://github.com/Lionelsy/Conference-Accepted-Paper-List
代码合集:https://github.com/lingxitong/MIL_BASELINE
Github版本:https://github.com/InkiYinji/MIL-Review
- 注1:欢迎大家进一步交流,可以加入我建立的QQ群:649325831 (2024年1月15日建立);
- 注2:如果给出的文章包含代码,则可以点击其名称缩写获取;
- 注3:承2,如果包含博客讲解,可以点击其全称获取;
- 注4:承3,如果包含论文原文,可以点击会议缩写名获取;
- 注5:一些缩写:
- WSI:全幻灯片分类 (医学领域,目前最热门的MIL应用);
- VAD:视频异常检测;
- ECG:心电图; - 注6:对于每一个小节,其侧重点有所不同:
- 章节2 (理论MIL概述):关注算法的实现细节;
- 章节3 (MIL交叉领域):MIL与多标签、偏标签、对抗攻击、分布外检测的一些结合;
- 章节4 (MIL应用概述):着重数据集的说明及其相关处理;
- 注7:本人精力有限,希望能有更多的小伙伴和我一起完善这个博客~
- 注8:后续将逐步将本博客的内容迁移至我的Github
1 多示例背景介绍
概述:多示例学习 (MIL) 是一种典型的弱监督学习,其输入的单个样本被称为包 (bag),包中包含多个实例 (instance)。在训练阶段,通常只有包的标签可知,而实例的标签不可知或者获取成本极高。因此,概括性的,MIL与传统机器学习的主要区别在于:
- 弱监督场景:实例的数量巨大却没有标签,仅通过包标签来预测未知类,甚至预测实例标签是极具挑战性的;
- 数据结构:包是多个实例的集合,实例可以是向量、图像、视频等任意结构,因此传统机器学习可以看作是MIL的一种特殊情况;
纵观MIL发展历程,其可以分为几个阶段:
- 早期:从Dietterich团队的药物活性预测研究开始,尝试直接使用传统的机器学习方法解决MIL问题;
- 发展:尝试MIL问题的转换,通常使用嵌入函数或包相似性度量来将其简化为传统的机器学习问题;
- 深度:利用深度学习的强大特征提取及表征能力,直接预测包的标签,这也是目前MIL研究的重点;
- 应用:考虑更多背景信息,如视频的时序、医疗图像相邻区块的关联性,以更好地处理实际任务;
2 理论MIL概述
之所以优先介绍传统MIL方法,究其原因为:
- 传统MIL方法包含众多实用策略,其思想内核至今仍被前沿的深度MIL方法使用;
- 传统方法均可被深度MIL直接或间接复刻,通过对齐首要了解,可以为后续深度MIL方法学习打下基础;
2.1 传统MIL方法
传统MIL方法大致分为三种:
- 实例方法:首先预测实例标签,并通过MIL假设计算包标签;
- 包方法:设计类似于高斯核的MIL包距离度量,使得 k k kNN和SVM等基于距离矩阵的方法得以施展;
- 嵌入方法:将包转换为向量,使得传统机器学习策略生效,这也是目前MIL表征学习的基础;
2.2 注意力网络
注意力机制的引入是深度MIL发展史上的一次伟大变革,其以Ilse等人发表的ABMIL和GAMIL为伊始,并深刻影响着后续MIL算法的发展。后续的基于对比学习、介入学习等策略的MIL大都围绕其展开,只是方法的侧重有所不同。
注意:大部分方法都包含注意力机制。因此,只要当前方法没有侧重其它策略,都被归属到此类。
2.3 自监督学习
2.4 因果推断/介入学习
2.5 图神经网络/图表示学习
2.6 强化学习
2.7 数据增强
2.8 对抗生成网络
2.9 大语言模型
3 MIL交叉领域
3.1 多模态多示例 (M3IL)
3.2 多示例偏标签 (MIPL)
3.3 多示例多标签 (MIML)
3.4 多示例对抗攻击及防御 (MIL attack and denfense)
考虑MIL的弱监督设置,通过添加对抗扰动的方式愚弄MIL分类器,以解释模型的脆弱性和安全性。此外,对抗防御则用于降低MIL攻击者的效能。
详情参见
3.5 多示例正和无标签学习 (PU-MIL)
正和无标签学习 (PU) 的训练集中只包含正样本和无标记样本,对应的问题有叶片上的异常结冰检测、诈骗邮件检测等。
详情参见
3.6 多示例分布外检测 (MIL-OOD)
3.7 多示例主动学习 (MIL Active)
4 MIL应用概述
对于应用,重点关注数据集本身,以及相应的数据预处理策略。
4.1 全幻灯片分类 (WSI)
4.2 视频异常检测 (VAD)
4.3 免疫库分类 (IRC)
致谢
- 感谢凌同学提供的代码仓库,其集成了经典与前沿的MIL方法,且提供了数据集和预训练模型的说明;
- 感谢罗同学提供的一些论文整理支持;