摘要
深度学习在医学图像分析中取得了广泛的成功,导致对大规模的、医学专家注释的医学图像数据集的需求不断增加。然而,标注医学图像的高成本严重阻碍了深度学习在该领域的发展。为了降低注释成本,主动学习旨在选择信息最多的样本进行注释,并用尽可能少的标记样本训练高性能模型。在本次调查中,我们回顾了主动学习的核心方法,包括信息量的评估和抽样策略。我们首次提供了主动学习与其他标签高效技术(如半监督、自监督学习等)集成的详细总结。我们还总结了专门为医学图像分析量身定制的主动学习作品。此外,我们通过实验对不同AL方法在医学图像分析中的性能进行了彻底的比较分析。最后,我们就主动学习的未来趋势和挑战及其在医学图像分析中的应用提出了我们的观点。随附的论文列表和比较分析代码在github网站上。
Keywords
Active learning; Medical image analysis; Survey; Deep learning
1. 引言
医学成像可视化解剖结构和病理过程。它还提供病变检测、诊断、治疗计划和手术干预方面的关键信息。近年来,人工智能(AI)的兴起导致了医学图像分析的重大成功。人工智能驱动的医学图像分析系统已经接近人类专家在某些临床任务中的表现。值得注意的例子包括皮肤癌分类(Esteva et al., 2017),用CT进行肺癌筛查(Ardila et al., 2019,结肠镜检查时息肉检测 (Wang et al., 2018),以及全幻灯片图像中的前列腺癌检测(Tolkach et al., 2020)。因此,这些人工智能驱动的系统可以集成到现有的临床工作流程中,这有助于提高临床专家的诊断准确性(Sim et al., 2020) 并支持经验不足的临床医生(Tschandl et al., 2020).
深度学习(DL)模型是这些人工智能驱动的系统的核心,用于从原始图像中学习复杂模式并将其推广到更不可见的情况。利用其强大的特征提取和泛化能力,DL模型在医学图像分析领域也取得了显著成功(Zhou et al., 2021a)。DL的成功通常依赖于大规模的人工注释数据集。例如,ImageNet数据集 (Deng et al., 2009) 包含数以千万计的标记图像,被广泛用于开发用于计算机视觉(CV)的DL模型。医学图像数据集的规模不断扩大,但仍相对小于自然图像数据集。例如,脑肿瘤分割数据集BraTS由多序列3D MRI扫描组成。BraTS数据集从2013年的65名患者扩展 (Menze et al., 2014) 到2021年超过1200 (Baid et al., 2021)。后者相当于70多万张带注释的2D图像。 然而,高昂的标注成本限制了大规模医学图像数据集的建设,主要体现在以下两个方面:
1.细粒度标注医学图像是劳动密集型且耗时的。在临床实践中,自动分割有助于临床医生更准确地勾勒出不同的解剖结构和病变。然而,训练这样的分割模型需要像素级标注,这是极其繁琐的(Rajpurkar,2022年)。另一个案例是数字病理学。病理学家通常要求在高倍显微镜下对病理组织切片进行详细检查和解释。由于组织结构复杂,病理学家必须不断调整显微镜的放大倍数。因此,检查单个载玻片通常需要15至30分钟(Qu,2022年)。制作准确的注释对病理学家来说更具挑战性。总之,医学图像分析中的注释过程需要投入大量的时间和劳动力。
2、医学图像标注的高门槛导致成本居高不下。在CV中,像目标检测和分割这样的任务也需要细粒度的注释。然而,众包平台的广泛使用显著降低了在这些任务中获得高质量注释的成本(Kovashka,2016)。然而,众包平台在医学图像标注方面存在一定的局限性。首先,标注医学图像既需要医学知识,也需要临床专业知识。复杂的病例甚至需要多个资深专家进行讨论。其次,即使在相对简单的任务中,众包工作者在医学图像分析中也往往会提供比专业标注者质量更差的注释。例如,导致(Rädsch,2023)支持上述注释手术器械分割掩码的结论。众包平台也可能引发隐私问题(Rajpurkar,2022年)。然而,当注释者从众包工作者转变为临床专家时,我们将面临新的挑战。首先,招聘医生进行注释非常昂贵。例如,放射科医生通常需要大约60分钟才能在其多序列核磁共振成像卷(Menze et al., 2014)。在美国,放射科医生每小时的平均工资是221美元。此外,为了最大限度地减少某些情况下的个人偏见,通常让一名医生多次注释同一病例或让多名医生注释。多个注释轮和注释器引入注释器内部和注释器之间的可变性,处理这些可变性会导致额外的注释成本(卡里米等人,2020年)。综上所述,高质量的注释往往需要经验丰富的医生的参与,这固有地增加了医学图像的注释成本。
高标注成本是DL在医学图像分析中的主要瓶颈之一。主动学习(AL)被认为是降低标注成本的最有效解决方案之一。AL的主要思想是选择信息最多的样本进行标注,然后以监督的方式使用这些样本训练模型。在AL的一般实践中,注释一部分数据集可以达到注释所有样本的可比性能。因此,AL通过查询尽可能少的信息样本进行注释来节省注释成本。AL的过程如图1,我们将在第2.具体来说,我们将专注于训练深度模型的AL作品称为深度主动学习。
审查医学图像分析中的AL工作对于降低注释成本至关重要。Budd等人(2021)研究了人类在医学图像分析中开发和部署DL的作用,其中AL被认为是该过程的重要组成部分。在Tajbakhsh等人(2020),AL是训练具有不完美注释的高性能医学图像分割模型的解决方案之一。作为医学图像分析的标签高效深度学习方法之一,金等人(2023a)从模型和数据不确定性中总结了人工智能方法。机器学习或简历中也有一些关于人工智能的调查。解决(2009)提供了机器学习时代AL作品的概括性介绍和全面回顾。DL出现后,Ren等人(2021)综述了深度主动学习的发展及其在简历和自然语言处理中的应用。Liu等人(2022)总结了深度主动学习中模型驱动和数据驱动的样本选择器。詹等人(2022)重新实现的高影响力作品在深度主动学习中具有公平的比较。Takezoe等人(2023)回顾了深度主动学习在CV及其工业应用中的最新发展。
然而,上述调查有一定的局限性。首先,随着深度主动学习的快速发展,新的想法和方法不断涌现。因此,需要对AL进行更全面的调查,以涵盖最新的进展。其次,最近的趋势是将AL与其他标签高效技术相结合,相关调查也强调了这是未来的方向(Takezoe等人,2023年, 巴德等人,2021年)。然而,现有的调查仍然缺乏对这一主题的总结和讨论。第三,有限的调查评估了不同AL方法在医学成像数据集上的性能,表明几乎没有这样的努力。最后,高昂的注释成本强调了AL在医学图像分析中的重要性增加,但相关评论在这方面仍然缺乏全面性。
Fig. 2. Overall framework of this survey.
本次调查全面回顾了用于医学图像分析的AL,包括核心方法,与其他标签高效技术的集成,以及为医学图像分析量身定制的AL作品。我们首先使用关键字“Active Learning”在谷歌学术和arxiv上搜索相关论文,并通过引用扩大搜索范围。收录的论文主要属于医学图像分析。需要注意的是,由于AL在医学图像分析中的发展受到AL在CV中的进步的影响,因此也收录了通用CV领域的一些重要AL作品。忽略这些作品会破坏本次调查的逻辑和分类法。为了平衡不同领域的AL作品,我们首先在每个小节中呈现开创性的作品,其中可能包括通用CV领域的作品。然后,我们提供了该类别内与医学图像分析相关的AL论文的详细回顾。此外,本次调查中的大多数作品都发表在顶级期刊(如TPAMI、MedIA、TMI、TBME、JBHI等)和会议(如MICCAI、ISBI、MIDL、CVPR、ICCV、ECCV、ICML、ICLR、NeurIPS等)上。因此,本次调查涉及近164部相关的AL作品和234篇参考文献。本次调查的贡献总结如下:
-
通过详尽的文献检索,我们为AL提供了全面的调查和新颖的分类,特别是那些专注于医学图像分析的。
-
虽然以往的调查主要集中在评估信息量,但我们进一步总结了深度主动学习中不同的抽样策略,如多样性和阶级平衡策略,旨在为未来的方法改进提供参考。
-
根据当前趋势,该调查首次详细回顾了AL与其他标签高效技术的集成,包括半监督学习、自监督学习、基于区域的主动学习、生成模型和领域适应。
-
为了促进研究和为社区做出贡献,这项调查评估了几种流行的AL方法在多个医学成像数据集上的性能。代码也公开了,以提高可重复性。
本文在2介绍了AL的问题设置和数学公式,部分3讨论AL的核心方法,包括信息性评估(第3.1 & 3.2)和抽样策略(第3.3),节4回顾AL与其他标签高效技术的集成,第5总结了为医学图像分析量身定制的AL工作。实验设置、结果和分析在第6.我们讨论AL的现有挑战和未来方向7并在第节中结束整篇论文8.这项调查的整体架构载于图2.由于AL的快速发展,许多相关作品不在本次调查范围内。我们建议读者访问我们不断更新的网站3了解AL在医学图像分析中的最新进展。
2. 主动学习的问题和公式
AL通常涉及三种问题设置:成员查询合成、基于流的选择性抽样和基于池的主动学习(2009年结算)。在成员查询合成的情况下,我们可以连续查询输入空间中的任何样本进行标注,包括生成模型产生的合成样本(英语,1988年, 盎格鲁因,2004年)。在本次调查中,我们也将此设置称为生成主动学习。成员查询合成通常适用于低维输入空间。然而,当扩展到高维空间(例如图像)时,生成模型产生的查询样本可能无法被人类标记者识别。深度生成模型的最新进展在合成逼真的医学图像方面显示出巨大的前景,我们在第节中进一步讨论了它与AL的结合4.4.基于流的选择性抽样假设样本在连续流中一个接一个地到达,我们需要决定是否为传入的样本请求注释(科恩等人,1994年)。此设置适用于内存有限的场景,例如边缘计算,但它忽略了样本相关性。
大多数AL作品遵循基于池的主动学习,它从大量未标记数据中抽取样本,并请求oracle(例如医生)进行注释。此外,如果一次选择多个样本进行标记,我们可以进一步将此设置称为“批处理模式”。深度主动学习默认处于批处理模式,因为每次标记样本时重新训练模型是不切实际的。此外,一个标记样本并不一定会导致显着的性能改进。因此,除非另有说明,否则本次调查中的所有作品都遵循基于批处理模式池的主动学习的设置。
主动学习的流程图见图1.假设总共𝑇注释轮,主动学习主要包括以下步骤:
Fig. 1. Illustration of the process of active learning.
(1)样品选择:在的t第1轮注释,1\leq t\leq T ,信息量函数I用于评估未标记池中每个样本的信息量D_t^u. 然后,以一定的抽样策略选择一批样本 S .在医学图像分析中,主动学习大部分时间选择一批图像(即图像明智选择)。在本次调查中,除非特别说明,AL选择的采样单位是一张图像(可能是2D或3D)。然而,随着AL的发展,区域明智(Sections 4.3 ,4.5.2)或切片注释 (第 5.2.1)在AL 中采用。有关详细信息,请参阅这些部分。
具体来说,查询的数据集t第几轮D_t^q构造如下:
哪里x表示数据集中的样本,D_t^u和D_t^q是未标记和查询的数据集t ,分别f_{\theta_{t-1}}和\theta_{t-1}分别表示上一轮的深度模型及其参数。注释预算b是每轮查询的样本数,远少于未标记样本的总数,即,b=\left|D_t^q\right|\ll\left|D_t^u\right|.
(2)0racle注释:样本选择后,查询集D_t^q被发送到预言机(例如医生)进行注释,并将新标记的样本添加到标记的数据集中D_t^l.的更新D_t^l如下: D_t^l=D_{t-1}^l\cup\left\{\left(x,y\right)\mid x\in D_t^q\right\} 哪里y代表的标签x,和D_t^l和D_{t-1}^l表示圆形的标记集t和上一轮,分别。此外,查询的样本应从未标记集中删除D_t^u: D_t^u=D_{t-1}^u\setminus\left\{x\mid x\in D_t^q\right\} 值得注意的是,目前的一些作品将主动学习与交互式分割相结合。在交互式分割中,模型协助专家进行注释,从而降低注释过程的难度。有关更多详细信息请参阅第 5.2.4 .
(3) DL模型培训:在oracle注释之后,我们使用这一轮的标记集训练深度模型D_{t}^{l}以完全监督的方式。深层模型f_ \theta{t}受过训练D_{t}^{l}获得最佳参数\theta_{t}为圆t.数学公式如下: \theta_t=\underset{\theta}{\operatorname*{\arg\min}}\underset{(x,y)\in D_t^l}{E}L\left(f_\theta\left(x\right),y\right)=\underset{\theta}{\operatorname*{\arg\min}}\underset{(x,y)\in D_t^l}{E}\left(x,y;\theta\right) 哪里L(f_{\theta}(x),y)表示损失函数,它可以重写为L(x,y;\theta)为了简单起见.
(4)重复步骤1到3,直到达到注释预算限制或预期性能。最近,一些作品在主动学习中采用了一次性方式,无需多轮进行样本选择。请参阅第5.2.2.
值得注意的是,模型需要适当的初始化来启动AL过程。如果初始模型𝑓𝜃0被随机初始化,它只能产生无意义的信息。为了解决这个问题,大多数AL工作随机选择一组样本作为最初标记的数据集𝐷0𝑙和训练𝑓𝜃0在𝐷0𝑙.有关使用预训练模型更好地初始化AL的更多详细信息,请参阅第4.2.
3. 主动学习的核心方法
在本次调查中,我们认为信息量的评估和抽样策略是AL的核心方法。信息量代表了对每个样本进行注释的价值。更高的信息量通常表明请求这些样本进行标记的优先级更高。信息量的典型指标包括不确定性和代表性。基于信息量分数,使用某种抽样策略来选择少量未标记的样本进行注释。大多数AL作品只是根据信息量指标对这些样本进行排名,并根据注释预算(即top-k选择)选择最高的样本。然而,当前的信息量分数或多或少存在缺陷,它们可能会导致查询样本之间的冗余或类别不平衡等问题。因此,我们需要更先进的抽样策略来缓解这些因信息量指标不完善而产生的问题。
在本节中,我们回顾了两个主要的信息量指标,包括不确定性(第3.1)和代表性(第3.2)和抽样策略(第3.3)。作为这项调查的一项独特贡献,我们首次明确将抽样策略定义为人工智能的核心方法,并回顾了如何在人工智能中设计更好的抽样策略。此外,我们总结了本次调查中所有引用的人工智能工作。不确定性或代表性的方法和基本指标以及抽样策略详见表2.
3.1. 信息量评估:不确定性
尽管医学图像分析取得了很大进展,但安全性和可解释性仍然是在现实世界临床实践中部署DL模型的未解决问题。由于医学图像的高度可变性和有限的训练数据,DL模型的预测并不可靠和可信。正确评估和量化医学图像分析中的不确定性将允许模型警告数据中的模糊性、伪影和看不见的模式(格苏等人,2021年, 林曼等人,2023年)。这种不确定性的性质在AL中很有帮助,因为未标记样本中的新模式可以通过不确定性来识别。因此,不确定性在主动学习中经常被用作信息度量。在AL查询中,具有较高不确定性的样本被认为是困难的,更有可能被当前模型错误分类。对这些样本进行注释和训练有助于模型学习新模式并提高性能。
Table 1. 主动学习中基于预测概率的不确定性度量公式。在方程列中,𝑥代表样品,𝑓是深度模型,而𝐶是类的数量。在方向栏中,↑意味着更高的值表示更高的不确定性,而↓表示较低的值表示较高的不确定性。
Names | Equations | Direction |
---|---|---|
Prediction probability | \begin{aligned}&p=\text{Softmax}f_\theta x\in R^C,\\&p=p_1,p_2,\ldots,p_C\end{aligned} | – |
Least confidence (Lewis and Catlett, 1994) | \max_ip_i | ↓ |
Entropy (Joshi et al., 2009) | { { {-\sum_{i=1}^{C}p_{i}\log p_{i}}}} | ↑ |
Margin (Roth and Small, 2006) | \max_ip_i-\max_{j,j\neq k}p_j,k=\arg\max_ip_i | ↓ |
Mean variance (Gal et al., 2017) | -\frac1C\sum_{i=1}^Cp_i-p^2,p=-\frac1C\sum_{i=1}^Cp_i | ↑ |
追溯不确定性预测的成因,不确定性主要可分为两类:任性不确定性(AU)和认知不确定性(欧盟)(肯德尔和盖尔,2017)。AU(即数据不确定性)捕获数据中的嘈杂观测,例如MRI的运动伪影或医学图像分析中CT的金属伪影。AU不能通过获取更多数据来减少。高欧盟(即模型不确定性)表明样本包含模型尚未掌握的知识。因此,欧盟可以通过涉及更多数据来减少。然而,大多数AL作品并没有考虑AU和欧盟的分离。所以,AL中不确定性的术语主要是指预测不确定性,它是AU和欧盟的组成。这是因为明确分离AU和欧盟通常非常困难,并且在AL(卡尔等人,2024年)。在本次调查中,除非另有明确说明,否则所有不确定性均指预测性不确定性,这意味着非盟和欧盟之间没有进行分离。
深度AL中最直接的不确定性度量基于单次前向传递的预测概率。自机器学习时代以来,这些度量在AL中得到了广泛应用,它们的公式在表1.然而,由于深度神经网络中臭名昭著的过度自信问题(多灰等,2020, 郭等人,2017)。过度自信是指模型对其预测的置信度过高,即使它们可能不正确。对于错误分类的样本,它可能导致错误类别的高置信度(例如0.99)。对于不确定的样本,它会导致极端的置信度(例如0.99或0.01),而不是正常的置信度(例如0.6或0.4)。结果,过度自信会扭曲不确定性估计,因为它会影响所有类别的预测概率。
本节将基于不确定性的AL分为多重推理、基于梯度的不确定性、性能估计、不确定性感知模型和基于对抗的不确定性。基于不确定性的AL的分类显示在图3.
3.1.1 多重推论的不确定性
为了减轻过度自信,基于不确定性的AL的常见策略是在扰动下多次运行模型。主要思想是减少网络架构或训练数据引入的偏差。这些偏差通常会导致过度自信问题。通常使用两种方法来利用AL的多重推理结果。第一种方法是用多重推理的平均概率计算经典的不确定性度量。平均多重推理的预测概率有助于减少导致过度自信的个体偏差。另一种方法将不同预测结果之间的不一致作为不确定性量化。不一致程度较高的样本表明不确定性较高,适合在AL中进行注释。
在本节中,我们将介绍四种类型的多推理AL方法:Monte Carlo dropout(MC dropout)、模型集成、模型不一致和数据不一致。前两种使用多个推理结果的平均概率来计算不确定性指标,如熵和边距。最后两种基于不一致。对于扰动的来源,前三个扰动模型参数,而最后一个扰动输入数据。
Table 2. Methodology summarization of surveyed active learning works.
Year | Venues | Uncertainty | Representativeness | |||
---|---|---|---|---|---|---|
Method | Basic metrics | Method | Basic metrics | |||
Zhu and Bento (2017) | 2017 | arXiv | Single model | Distance to decision boundary | – | – |
Zhou et al. (2017) | 2017 | CVPR | Single model multiple inferences - Data disagreement | Entropy KL divergence | – | – |
Gal et al. (2017) | 2017 | ICML | Multiple inferences - MC dropout | Entropy, BALD, Least Confidence, Variance | – | – |
Yang et al. (2017) | 2017 | MICCAI | Multiple inferences - Model disagreement | Variance | Cover-based | Cosine similarity |
Wang et al. (2017) | 2017 | TCSVT | Single model | Least confidence, margin, entropy | – | – |
Ducoffe and Precioso (2018) | 2018 | arXiv | Adversarial samples | Distance to decision boundary | – | – |
Mackowiak et al. (2018) | 2018 | BMVC | Multiple inferences - Model disagreement | Vote entropy | – | – |
Xu et al. (2018) | 2018 | CVPR | Multiple inferences - Model ensemble | Variance | Cover-based | Cosine similarity |
Beluch et al. (2018) | 2018 | CVPR | Multiple inferences - Model ensemble | Entropy, BALD, least confidence, variance | – | – |
Sourati et al. (2018) | 2018 | DLMIA | Gradient-based uncertainty | Fisher information | – | – |
Sener and Savarese (2018) | 2018 | ICLR | – | – | Cover-based | L2 distance |
Kuo et al. (2018) | 2018 | MICCAI | Multiple inferences - Model disagreement | JS divergence | – | – |
Mahapatra et al. (2018) | 2018 | MICCAI | Multiple inferences - MC dropout | Variance | – | – |
Haußmann et al. (2019) | 2019 | IJCAI | – | – | – | – |
Zheng et al. (2019) | 2019 | AAAI | – | – | Cover-based | Cosine similarity |
Gissin and Shalev-Shwartz (2019) | 2019 | arXiv | – | – | Discrepancy-based | H-Divergence |
Yoo and Kweon (2019) | 2019 | CVPR | Performance estimation - Learnable | Loss | – | – |
Sinha et al. (2019) | 2019 | ICCV | – | – | Discrepancy-based | H-Divergence |
Tran et al. (2019) | 2019 | ICML | Multiple inferences - MC dropout | BALD | – | – |
Qi et al. (2019) | 2019 | JBHI | Single model | entropy | – | – |
Sadafi et al. (2019) | 2019 | MICCAI | Multiple inferences - MC dropout | Average IoU, class frequency | – | – |
Kirsch et al. (2019) | 2019 | NeurIPS | Multiple inferences - MC dropout | BALD | – | – |
Sourati et al. (2019) | 2019 | TMI | Gradient-based uncertainty | Fisher information | – | – |
Kasarla et al. (2019) | 2019 | WACV | Single model | Entropy | – | – |
Zheng et al. (2020) | 2020 | AAAI | – | – | Cover-based | Cosine similarity |
Shui et al. (2020) | 2020 | AISTATS | Single model | Entropy, least confidence | Discrepancy-based | Wasserstein distance |
Siddiqui et al. (2020) | 2020 | CVPR | Multiple inferences - MC dropout multiple inferences - Data disagreement | Entropy KL divergence | – | – |
Zhang et al. (2020) | 2020 | CVPR | Single model | Variance | Discrepancy-based | H-Divergence |
Gao et al. (2020) | 2020 | ECCV | Multiple inferences - Data disagreement | Variance | – | – |
Wang et al. (2020c) | 2020 | ECCV | – | – | Discrepancy-based | H-Divergence |
Agarwal et al. (2020) | 2020 | ECCV | – | – | Cover-based | Contextual diversity |
Lin et al. (2020) | 2020 | ECCV | – | – | Clustering-based | L2 distance |
Ash et al. (2020) | 2020 | ICLR | Gradient-based uncertainty | Gradient | – | – |
Casanova et al. (2020) | 2020 | ICLR | – | – | – | – |
Dai et al. (2020) | 2020 | MICCAI | Gradient-based uncertainty | Gradient | – | – |
Shen et al. (2020) | 2020 | MICCAI | Multiple inferences - MC dropout performance estimation - Surrogate | Entropy IoU of all result | Cover-based | Cosine similarity |
Liu et al. (2020) | 2020 | MICCAI | Performance estimation - Learnable | Loss | – | – |
Li and Yin (2020) | 2020 | MICCAI | Multiple inferences - Model ensemble | Margin | Discrepancy-based | Cosine similarity |
Wang et al. (2020b) | 2020 | MICCAI | – | – | – | – |
Hiasa et al. (2020) | 2020 | TMI | Multiple inferences - MC dropout | Variance | Cover-based | Cosine similarity |
Huang et al. (2020) | 2020 | TMI | Multiple inferences - Model disagreement | Hausdorff distance | – | – |
Su et al. (2020) | 2020 | WACV | Single model | Entropy | Discrepancy-based | H-Divergence |
Choi et al. (2021b) | 2021 | CVPR | Probability of misclassification | – | – | Class-balance |
Fu et al. (2021) | 2021 | C |