【翻译】A comprehensive survey on deep active learning in medical image analysis

摘要

深度学习在医学图像分析中取得了广泛的成功,导致对大规模的、医学专家注释的医学图像数据集的需求不断增加。然而,标注医学图像的高成本严重阻碍了深度学习在该领域的发展。为了降低注释成本,主动学习旨在选择信息最多的样本进行注释,并用尽可能少的标记样本训练高性能模型。在本次调查中,我们回顾了主动学习的核心方法,包括信息量的评估和抽样策略。我们首次提供了主动学习与其他标签高效技术(如半监督、自监督学习等)集成的详细总结。我们还总结了专门为医学图像分析量身定制的主动学习作品。此外,我们通过实验对不同AL方法在医学图像分析中的性能进行了彻底的比较分析。最后,我们就主动学习的未来趋势和挑战及其在医学图像分析中的应用提出了我们的观点。随附的论文列表和比较分析代码在github网站上。

Keywords

Active learning; Medical image analysis; Survey; Deep learning

1. 引言

医学成像可视化解剖结构和病理过程。它还提供病变检测、诊断、治疗计划和手术干预方面的关键信息。近年来,人工智能(AI)的兴起导致了医学图像分析的重大成功。人工智能驱动的医学图像分析系统已经接近人类专家在某些临床任务中的表现。值得注意的例子包括皮肤癌分类(Esteva et al., 2017),用CT进行肺癌筛查(Ardila et al., 2019,结肠镜检查时息肉检测 (Wang et al., 2018),以及全幻灯片图像中的前列腺癌检测(Tolkach et al., 2020)。因此,这些人工智能驱动的系统可以集成到现有的临床工作流程中,这有助于提高临床专家的诊断准确性(Sim et al., 2020) 并支持经验不足的临床医生(Tschandl et al., 2020).

深度学习(DL)模型是这些人工智能驱动的系统的核心,用于从原始图像中学习复杂模式并将其推广到更不可见的情况。利用其强大的特征提取和泛化能力,DL模型在医学图像分析领域也取得了显著成功(Zhou et al., 2021a)。DL的成功通常依赖于大规模的人工注释数据集。例如,ImageNet数据集 (Deng et al., 2009) 包含数以千万计的标记图像,被广泛用于开发用于计算机视觉(CV)的DL模型。医学图像数据集的规模不断扩大,但仍相对小于自然图像数据集。例如,脑肿瘤分割数据集BraTS由多序列3D MRI扫描组成。BraTS数据集从2013年的65名患者扩展 (Menze et al., 2014) 到2021年超过1200 (Baid et al., 2021)。后者相当于70多万张带注释的2D图像。 然而,高昂的标注成本限制了大规模医学图像数据集的建设,主要体现在以下两个方面:

1.细粒度标注医学图像是劳动密集型且耗时的。在临床实践中,自动分割有助于临床医生更准确地勾勒出不同的解剖结构和病变。然而,训练这样的分割模型需要像素级标注,这是极其繁琐的(Rajpurkar,2022年)。另一个案例是数字病理学。病理学家通常要求在高倍显微镜下对病理组织切片进行详细检查和解释。由于组织结构复杂,病理学家必须不断调整显微镜的放大倍数。因此,检查单个载玻片通常需要15至30分钟(Qu,2022年)。制作准确的注释对病理学家来说更具挑战性。总之,医学图像分析中的注释过程需要投入大量的时间和劳动力。

2、医学图像标注的高门槛导致成本居高不下。在CV中,像目标检测和分割这样的任务也需要细粒度的注释。然而,众包平台的广泛使用显著降低了在这些任务中获得高质量注释的成本(Kovashka,2016)。然而,众包平台在医学图像标注方面存在一定的局限性。首先,标注医学图像既需要医学知识,也需要临床专业知识。复杂的病例甚至需要多个资深专家进行讨论。其次,即使在相对简单的任务中,众包工作者在医学图像分析中也往往会提供比专业标注者质量更差的注释。例如,导致(Rädsch,2023)支持上述注释手术器械分割掩码的结论。众包平台也可能引发隐私问题(Rajpurkar,2022年)。然而,当注释者从众包工作者转变为临床专家时,我们将面临新的挑战。首先,招聘医生进行注释非常昂贵。例如,放射科医生通常需要大约60分钟才能在其多序列核磁共振成像卷(Menze et al., 2014)。在美国,放射科医生每小时的平均工资是221美元。此外,为了最大限度地减少某些情况下的个人偏见,通常让一名医生多次注释同一病例或让多名医生注释。多个注释轮和注释器引入注释器内部和注释器之间的可变性,处理这些可变性会导致额外的注释成本(卡里米等人,2020年)。综上所述,高质量的注释往往需要经验丰富的医生的参与,这固有地增加了医学图像的注释成本。

高标注成本是DL在医学图像分析中的主要瓶颈之一。主动学习(AL)被认为是降低标注成本的最有效解决方案之一。AL的主要思想是选择信息最多的样本进行标注,然后以监督的方式使用这些样本训练模型。在AL的一般实践中,注释一部分数据集可以达到注释所有样本的可比性能。因此,AL通过查询尽可能少的信息样本进行注释来节省注释成本。AL的过程如图1,我们将在第2.具体来说,我们将专注于训练深度模型的AL作品称为深度主动学习。

审查医学图像分析中的AL工作对于降低注释成本至关重要。Budd等人(2021)研究了人类在医学图像分析中开发和部署DL的作用,其中AL被认为是该过程的重要组成部分。在Tajbakhsh等人(2020),AL是训练具有不完美注释的高性能医学图像分割模型的解决方案之一。作为医学图像分析的标签高效深度学习方法之一,金等人(2023a)从模型和数据不确定性中总结了人工智能方法。机器学习或简历中也有一些关于人工智能的调查。解决(2009)提供了机器学习时代AL作品的概括性介绍和全面回顾。DL出现后,Ren等人(2021)综述了深度主动学习的发展及其在简历和自然语言处理中的应用。Liu等人(2022)总结了深度主动学习中模型驱动和数据驱动的样本选择器。詹等人(2022)重新实现的高影响力作品在深度主动学习中具有公平的比较。Takezoe等人(2023)回顾了深度主动学习在CV及其工业应用中的最新发展。

然而,上述调查有一定的局限性。首先,随着深度主动学习的快速发展,新的想法和方法不断涌现。因此,需要对AL进行更全面的调查,以涵盖最新的进展。其次,最近的趋势是将AL与其他标签高效技术相结合,相关调查也强调了这是未来的方向(Takezoe等人,2023年, 巴德等人,2021年)。然而,现有的调查仍然缺乏对这一主题的总结和讨论。第三,有限的调查评估了不同AL方法在医学成像数据集上的性能,表明几乎没有这样的努力。最后,高昂的注释成本强调了AL在医学图像分析中的重要性增加,但相关评论在这方面仍然缺乏全面性。

Fig. 2. Overall framework of this survey.

本次调查全面回顾了用于医学图像分析的AL,包括核心方法,与其他标签高效技术的集成,以及为医学图像分析量身定制的AL作品。我们首先使用关键字“Active Learning”在谷歌学术和arxiv上搜索相关论文,并通过引用扩大搜索范围。收录的论文主要属于医学图像分析。需要注意的是,由于AL在医学图像分析中的发展受到AL在CV中的进步的影响,因此也收录了通用CV领域的一些重要AL作品。忽略这些作品会破坏本次调查的逻辑和分类法。为了平衡不同领域的AL作品,我们首先在每个小节中呈现开创性的作品,其中可能包括通用CV领域的作品。然后,我们提供了该类别内与医学图像分析相关的AL论文的详细回顾。此外,本次调查中的大多数作品都发表在顶级期刊(如TPAMI、MedIA、TMI、TBME、JBHI等)和会议(如MICCAI、ISBI、MIDL、CVPR、ICCV、ECCV、ICML、ICLR、NeurIPS等)上。因此,本次调查涉及近164部相关的AL作品和234篇参考文献。本次调查的贡献总结如下:

  • 通过详尽的文献检索,我们为AL提供了全面的调查和新颖的分类,特别是那些专注于医学图像分析的。

  • 虽然以往的调查主要集中在评估信息量,但我们进一步总结了深度主动学习中不同的抽样策略,如多样性和阶级平衡策略,旨在为未来的方法改进提供参考。

  • 根据当前趋势,该调查首次详细回顾了AL与其他标签高效技术的集成,包括半监督学习、自监督学习、基于区域的主动学习、生成模型和领域适应。

  • 为了促进研究和为社区做出贡献,这项调查评估了几种流行的AL方法在多个医学成像数据集上的性能。代码也公开了,以提高可重复性。

本文在2介绍了AL的问题设置和数学公式,部分3讨论AL的核心方法,包括信息性评估(第3.1 & 3.2)和抽样策略(第3.3),节4回顾AL与其他标签高效技术的集成,第5总结了为医学图像分析量身定制的AL工作。实验设置、结果和分析在第6.我们讨论AL的现有挑战和未来方向7并在第节中结束整篇论文8.这项调查的整体架构载于图2.由于AL的快速发展,许多相关作品不在本次调查范围内。我们建议读者访问我们不断更新的网站3了解AL在医学图像分析中的最新进展。

2. 主动学习的问题和公式

AL通常涉及三种问题设置:成员查询合成、基于流的选择性抽样和基于池的主动学习(2009年结算)。在成员查询合成的情况下,我们可以连续查询输入空间中的任何样本进行标注,包括生成模型产生的合成样本(英语,1988年, 盎格鲁因,2004年)。在本次调查中,我们也将此设置称为生成主动学习。成员查询合成通常适用于低维输入空间。然而,当扩展到高维空间(例如图像)时,生成模型产生的查询样本可能无法被人类标记者识别。深度生成模型的最新进展在合成逼真的医学图像方面显示出巨大的前景,我们在第节中进一步讨论了它与AL的结合4.4.基于流的选择性抽样假设样本在连续流中一个接一个地到达,我们需要决定是否为传入的样本请求注释(科恩等人,1994年)。此设置适用于内存有限的场景,例如边缘计算,但它忽略了样本相关性。

大多数AL作品遵循基于池的主动学习,它从大量未标记数据中抽取样本,并请求oracle(例如医生)进行注释。此外,如果一次选择多个样本进行标记,我们可以进一步将此设置称为“批处理模式”。深度主动学习默认处于批处理模式,因为每次标记样本时重新训练模型是不切实际的。此外,一个标记样本并不一定会导致显着的性能改进。因此,除非另有说明,否则本次调查中的所有作品都遵循基于批处理模式池的主动学习的设置。

主动学习的流程图见图1.假设总共𝑇注释轮,主动学习主要包括以下步骤:

img

Fig. 1. Illustration of the process of active learning.

(1)样品选择:在的t第1轮注释,1\leq t\leq T ,信息量函数I用于评估未标记池中每个样本的信息量D_t^u. 然后,以一定的抽样策略选择一批样本 S .在医学图像分析中,主动学习大部分时间选择一批图像(即图像明智选择)。在本次调查中,除非特别说明,AL选择的采样单位是一张图像(可能是2D或3D)。然而,随着AL的发展,区域明智(Sections 4.3 ,4.5.2)或切片注释 (第 5.2.1)在AL 中采用。有关详细信息,请参阅这些部分。

具体来说,查询的数据集t第几轮D_t^q构造如下:

哪里x表示数据集中的样本,D_t^u和D_t^q是未标记和查询的数据集t ,分别f_{\theta_{t-1}}和\theta_{t-1}分别表示上一轮的深度模型及其参数。注释预算b是每轮查询的样本数,远少于未标记样本的总数,即,b=\left|D_t^q\right|\ll\left|D_t^u\right|.

(2)0racle注释:样本选择后,查询集D_t^q被发送到预言机(例如医生)进行注释,并将新标记的样本添加到标记的数据集中D_t^l.的更新D_t^l如下: D_t^l=D_{t-1}^l\cup\left\{\left(x,y\right)\mid x\in D_t^q\right\} 哪里y代表的标签x,和D_t^l和D_{t-1}^l表示圆形的标记集t和上一轮,分别。此外,查询的样本应从未标记集中删除D_t^u: D_t^u=D_{t-1}^u\setminus\left\{x\mid x\in D_t^q\right\} 值得注意的是,目前的一些作品将主动学习与交互式分割相结合。在交互式分割中,模型协助专家进行注释,从而降低注释过程的难度。有关更多详细信息请参阅第 5.2.4 .

(3) DL模型培训:在oracle注释之后,我们使用这一轮的标记集训练深度模型D_{t}^{l}以完全监督的方式。深层模型f_ \theta{t}受过训练D_{t}^{l}获得最佳参数\theta_{t}为圆t.数学公式如下: \theta_t=\underset{\theta}{\operatorname*{\arg\min}}\underset{(x,y)\in D_t^l}{E}L\left(f_\theta\left(x\right),y\right)=\underset{\theta}{\operatorname*{\arg\min}}\underset{(x,y)\in D_t^l}{E}\left(x,y;\theta\right) 哪里L(f_{\theta}(x),y)表示损失函数,它可以重写为L(x,y;\theta)​​为了简单起见.

(4)重复步骤1到3,直到达到注释预算限制或预期性能。最近,一些作品在主动学习中采用了一次性方式,无需多轮进行样本选择。请参阅第5.2.2.

值得注意的是,模型需要适当的初始化来启动AL过程。如果初始模型𝑓𝜃0被随机初始化,它只能产生无意义的信息。为了解决这个问题,大多数AL工作随机选择一组样本作为最初标记的数据集𝐷0𝑙和训练𝑓𝜃0在𝐷0𝑙.有关使用预训练模型更好地初始化AL的更多详细信息,请参阅第4.2.

3. 主动学习的核心方法

在本次调查中,我们认为信息量的评估和抽样策略是AL的核心方法。信息量代表了对每个样本进行注释的价值。更高的信息量通常表明请求这些样本进行标记的优先级更高。信息量的典型指标包括不确定性和代表性。基于信息量分数,使用某种抽样策略来选择少量未标记的样本进行注释。大多数AL作品只是根据信息量指标对这些样本进行排名,并根据注释预算(即top-k选择)选择最高的样本。然而,当前的信息量分数或多或少存在缺陷,它们可能会导致查询样本之间的冗余或类别不平衡等问题。因此,我们需要更先进的抽样策略来缓解这些因信息量指标不完善而产生的问题。

在本节中,我们回顾了两个主要的信息量指标,包括不确定性(第3.1)和代表性(第3.2)和抽样策略(第3.3)。作为这项调查的一项独特贡献,我们首次明确将抽样策略定义为人工智能的核心方法,并回顾了如何在人工智能中设计更好的抽样策略。此外,我们总结了本次调查中所有引用的人工智能工作。不确定性或代表性的方法和基本指标以及抽样策略详见表2.

3.1. 信息量评估:不确定性

尽管医学图像分析取得了很大进展,但安全性和可解释性仍然是在现实世界临床实践中部署DL模型的未解决问题。由于医学图像的高度可变性和有限的训练数据,DL模型的预测并不可靠和可信。正确评估和量化医学图像分析中的不确定性将允许模型警告数据中的模糊性、伪影和看不见的模式(格苏等人,2021年, 林曼等人,2023年)。这种不确定性的性质在AL中很有帮助,因为未标记样本中的新模式可以通过不确定性来识别。因此,不确定性在主动学习中经常被用作信息度量。在AL查询中,具有较高不确定性的样本被认为是困难的,更有可能被当前模型错误分类。对这些样本进行注释和训练有助于模型学习新模式并提高性能。

Table 1. 主动学习中基于预测概率的不确定性度量公式。在方程列中,𝑥代表样品,𝑓是深度模型,而𝐶是类的数量。在方向栏中,↑意味着更高的值表示更高的不确定性,而↓表示较低的值表示较高的不确定性。

NamesEquationsDirection
Prediction probability\begin{aligned}&p=\text{Softmax}f_\theta x\in R^C,\\&p=p_1,p_2,\ldots,p_C\end{aligned}
Least confidence (Lewis and Catlett, 1994)\max_ip_i
Entropy (Joshi et al., 2009){{{-\sum_{i=1}^{C}p_{i}\log p_{i}}}}
Margin (Roth and Small, 2006)\max_ip_i-\max_{j,j\neq k}p_j,k=\arg\max_ip_i
Mean variance (Gal et al., 2017)-\frac1C\sum_{i=1}^Cp_i-p^2,p=-\frac1C\sum_{i=1}^Cp_i

追溯不确定性预测的成因,不确定性主要可分为两类:任性不确定性(AU)和认知不确定性(欧盟)(肯德尔和盖尔,2017)。AU(即数据不确定性)捕获数据中的嘈杂观测,例如MRI的运动伪影或医学图像分析中CT的金属伪影。AU不能通过获取更多数据来减少。高欧盟(即模型不确定性)表明样本包含模型尚未掌握的知识。因此,欧盟可以通过涉及更多数据来减少。然而,大多数AL作品并没有考虑AU和欧盟的分离。所以,AL中不确定性的术语主要是指预测不确定性,它是AU和欧盟的组成。这是因为明确分离AU和欧盟通常非常困难,并且在AL(卡尔等人,2024年)。在本次调查中,除非另有明确说明,否则所有不确定性均指预测性不确定性,这意味着非盟和欧盟之间没有进行分离。

深度AL中最直接的不确定性度量基于单次前向传递的预测概率。自机器学习时代以来,这些度量在AL中得到了广泛应用,它们的公式在表1.然而,由于深度神经网络中臭名昭著的过度自信问题(多灰等,2020, 郭等人,2017)。过度自信是指模型对其预测的置信度过高,即使它们可能不正确。对于错误分类的样本,它可能导致错误类别的高置信度(例如0.99)。对于不确定的样本,它会导致极端的置信度(例如0.99或0.01),而不是正常的置信度(例如0.6或0.4)。结果,过度自信会扭曲不确定性估计,因为它会影响所有类别的预测概率。

本节将基于不确定性的AL分为多重推理、基于梯度的不确定性、性能估计、不确定性感知模型和基于对抗的不确定性。基于不确定性的AL的分类显示在图3.

3.1.1 多重推论的不确定性

为了减轻过度自信,基于不确定性的AL的常见策略是在扰动下多次运行模型。主要思想是减少网络架构或训练数据引入的偏差。这些偏差通常会导致过度自信问题。通常使用两种方法来利用AL的多重推理结果。第一种方法是用多重推理的平均概率计算经典的不确定性度量。平均多重推理的预测概率有助于减少导致过度自信的个体偏差。另一种方法将不同预测结果之间的不一致作为不确定性量化。不一致程度较高的样本表明不确定性较高,适合在AL中进行注释。

在本节中,我们将介绍四种类型的多推理AL方法:Monte Carlo dropout(MC dropout)、模型集成、模型不一致和数据不一致。前两种使用多个推理结果的平均概率来计算不确定性指标,如熵和边距。最后两种基于不一致。对于扰动的来源,前三个扰动模型参数,而最后一个扰动输入数据。

Table 2. Methodology summarization of surveyed active learning works.

YearVenuesUncertaintyRepresentativeness
MethodBasic metricsMethodBasic metrics
Zhu and Bento (2017)2017arXivSingle modelDistance to decision boundary
Zhou et al. (2017)2017CVPRSingle model multiple inferences - Data disagreementEntropy KL divergence
Gal et al. (2017)2017ICMLMultiple inferences - MC dropoutEntropy, BALD, Least Confidence, Variance
Yang et al. (2017)2017MICCAIMultiple inferences - Model disagreementVarianceCover-basedCosine similarity
Wang et al. (2017)2017TCSVTSingle modelLeast confidence, margin, entropy
Ducoffe and Precioso (2018)2018arXivAdversarial samplesDistance to decision boundary
Mackowiak et al. (2018)2018BMVCMultiple inferences - Model disagreementVote entropy
Xu et al. (2018)2018CVPRMultiple inferences - Model ensembleVarianceCover-basedCosine similarity
Beluch et al. (2018)2018CVPRMultiple inferences - Model ensembleEntropy, BALD, least confidence, variance
Sourati et al. (2018)2018DLMIAGradient-based uncertaintyFisher information
Sener and Savarese (2018)2018ICLRCover-basedL2 distance
Kuo et al. (2018)2018MICCAIMultiple inferences - Model disagreementJS divergence
Mahapatra et al. (2018)2018MICCAIMultiple inferences - MC dropoutVariance
Haußmann et al. (2019)2019IJCAI
Zheng et al. (2019)2019AAAICover-basedCosine similarity
Gissin and Shalev-Shwartz (2019)2019arXivDiscrepancy-basedH-Divergence
Yoo and Kweon (2019)2019CVPRPerformance estimation - LearnableLoss
Sinha et al. (2019)2019ICCVDiscrepancy-basedH-Divergence
Tran et al. (2019)2019ICMLMultiple inferences - MC dropoutBALD
Qi et al. (2019)2019JBHISingle modelentropy
Sadafi et al. (2019)2019MICCAIMultiple inferences - MC dropoutAverage IoU, class frequency
Kirsch et al. (2019)2019NeurIPSMultiple inferences - MC dropoutBALD
Sourati et al. (2019)2019TMIGradient-based uncertaintyFisher information
Kasarla et al. (2019)2019WACVSingle modelEntropy
Zheng et al. (2020)2020AAAICover-basedCosine similarity
Shui et al. (2020)2020AISTATSSingle modelEntropy, least confidenceDiscrepancy-basedWasserstein distance
Siddiqui et al. (2020)2020CVPRMultiple inferences - MC dropout multiple inferences - Data disagreementEntropy KL divergence
Zhang et al. (2020)2020CVPRSingle modelVarianceDiscrepancy-basedH-Divergence
Gao et al. (2020)2020ECCVMultiple inferences - Data disagreementVariance
Wang et al. (2020c)2020ECCVDiscrepancy-basedH-Divergence
Agarwal et al. (2020)2020ECCVCover-basedContextual diversity
Lin et al. (2020)2020ECCVClustering-basedL2 distance
Ash et al. (2020)2020ICLRGradient-based uncertaintyGradient
Casanova et al. (2020)2020ICLR
Dai et al. (2020)2020MICCAIGradient-based uncertaintyGradient
Shen et al. (2020)2020MICCAIMultiple inferences - MC dropout performance estimation - SurrogateEntropy IoU of all resultCover-basedCosine similarity
Liu et al. (2020)2020MICCAIPerformance estimation - LearnableLoss
Li and Yin (2020)2020MICCAIMultiple inferences - Model ensembleMarginDiscrepancy-basedCosine similarity
Wang et al. (2020b)2020MICCAI
Hiasa et al. (2020)2020TMIMultiple inferences - MC dropoutVarianceCover-basedCosine similarity
Huang et al. (2020)2020TMIMultiple inferences - Model disagreementHausdorff distance
Su et al. (2020)2020WACVSingle modelEntropyDiscrepancy-basedH-Divergence
Choi et al. (2021b)2021CVPRProbability of misclassificationClass-balance
Fu et al. (2021)2021CVPRAdversarial trainingDisagreement of classifiers, marginDiscrepancy-basedH-Divergence
Kim et al. (2021)2021CVPRPerformance estimation - LearnableRank of lossDiscrepancy-basedH-Divergence
Yuan et al. (2021)2021CVPRAdversarial trainingDisagreement of classifiers
Cai et al. (2021)2021CVPRSingle modelBvSB
Caramalau et al. (2021)2021CVPRSingle model (w/ GNN)MarginCover-basedL2 distance of GCN-augmented Features
Prabhu et al. (2021)2021ICCVSingle modelEntropy
Ning et al. (2021)2021ICCVDiscrepancy-basedL2 distance
Huang et al. (2021)2021ICCVPerformance estimation - SurrogateTemporal output discrepancy
Du et al. (2021)2021ICCVDiscrepancy-basedSemantic and distinctive scores
Shin et al. (2021)2021ICCVMultiple inferences - Model disagreementInequality
Rangwani et al. (2021)2021ICCVAdversarial samplesKL divergenceCover-based - SubmodularKL divergence Bhattacharya coefficient
Choi et al. (2021a)2021ICCVUncertainty-aware models - MDNVariance
Liu et al. (2021)2021ICCVGradient-based uncertaintyInfluence
Zhao et al. (2021)2021JBHIPerformance estimation - SurrogateDice
Zhou et al. (2021c)2021MedIASingle model multiple inferences - Data disagreementEntropy KL divergence
Wu et al. (2021)2021MedIAPerformance estimation - Learnable multiple inferences - Data disagreementLoss KL divergence
Zhou et al. (2021b)2021MICCAIPerformance estimation - LearnableDice
Xu et al. (2021)2021MICCAISingle modelDistance to mean probability
Wang and Yin (2021)2021MICCAIMultiple inferences - Model ensembleVarianceDiscrepancy-basedCosine similarity
Nguyen et al. (2021)2021MIDLSingle modelEntropyCover-basedL2 distance
Ash et al. (2021)2021NeurIPSGradient-based uncertaintyFisher information
Kothawade et al. (2021)2021NeurIPSCover-based - SubmodularGradient
Citovsky et al. (2021)2021NeurIPSSingle modelMargin
Nath et al. (2021)2021TMIMultiple inferences - Model ensembleEntropyDiscrepancy-basedMutual information
Mahapatra et al. (2021)2021TMISaliency mapsKurtosis multivariate radiomics features deep saliency features
Chen et al. (2021)2021TPAMISingle model (in Feature Space)Entropy
Kothawade et al. (2022b)2022AAAICover-based - SubmodularGradient
Xie et al. (2022b)2022AAAISingle modelMarginDensity-basedEnergy
Wang et al. (2022b)2022AAAIGradient-based uncertaintyGradient
Xie et al. (2022c)2022CVPRSingle modelMargin, Gradient
Zhang et al. (2022a)2022CVPRSingle model adversarial samplesEntropy KL divergenceDensity-basedMean cosine similarity of KNN
Zhang et al. (2022b)2022CVPRSingle modelEntropy
Parvaneh et al. (2022)2022CVPRMultiple inferences - Data disagreementInequality
Xie et al. (2022a)2022CVPRSingle modelEntropy
Quan et al. (2022)2022CVPRCover-basedCosine similarity
Wu et al. (2022a)2022CVPRSingle modelEntropyDiscrepancy-basedCosine similarity
Wang et al. (2022c)2022ECCVDensity-basedKNN density
Kothawade et al. (2022a)2022ECCVCover-based - SubmodularCosine similarity
Chen et al. (2022b)2022ECCVGradient-based uncertaintyGradient
Hwang et al. (2022)2022ECCVSingle modelMarginDiscrepancy-basedMMD
Yi et al. (2022)2022ECCVSingle modelLeast confidenceSelf-supervised learningLoss of pretext task
Wu et al. (2022b)2022ECCVSingle modelEntropyDensity-basedGMM
Mahmood et al. (2022)2022ICLRDiscrepancy-basedWasserstein distance
Hacohen et al. (2022)2022ICMLDensity-basedInverse average distance to KNN samples
Jin et al. (2022a)2022Information sciencesClustering-basedCosine similarity
Jin et al. (2022c)2022KBSClustering-basedL2 distance
Jin et al. (2022b)2022KBSClustering-basedL2 distance
Dai et al. (2022)2022MedIAGradient-based uncertaintyGradient
Zhou et al. (2022)2022MedIAPerformance estimation - learnableDice
Atzeni et al. (2022)2022MedIAPerformance estimation - SurrogateDice
Nath et al. (2022)2022MICCAIMultiple inferences - MC dropoutEntropy
Balaram et al. (2022)2022MICCAIUncertainty-aware model - EDLEntropy
Wu et al. (2022d)2022MICCAICover-basedCosine similarity
Bai et al. (2022)2022MICCAIMultiple inferences - Model disagreementEntropy-weighted dice distance
Kothawade et al. (2022c)2022MICCAIWCover-based - SubmodularGradient
Yehuda et al. (2022)2022NeurIPSCover-basedL2 distance
Mahapatra et al. (2022)2022TMISaliency mapsGraph-based methods
Li et al. (2022)2022TMICurriculum learning & Noisy sample detectionTop-k
Bengar et al. (2022)2022WACVSingle modelEntropy
Xie et al. (2023c)2023CVPRDiscrepancy-basedWasserstein distance
Lyu et al. (2023)2023CVPRMultiple inferences - Data disagreementCross entropy, variance
Jung et al. (2023)2023ICLRMultiple inferences - Model ensembleEntropy, variance ratio, BALD, margin
Xie et al. (2023a)2023ICLRUncertainty-aware model - EDLMutual information & Entropy expectation of dirichlet distribution
YearVenuesUncertaintyRepresentativenessSampling strategySemiSL
MethodBasic metricsMethodBasic metrics
Kim et al. (2023)2023ICCVSingle modelBvSB
Park et al. (2023)2023ICLRUncertainty-aware model - EDLMutual information
Sadafi et al. (2023)2023ISBIMultiple inferences - MC dropout multiple inferences - Model disagreementVariance inequality
Bai et al. (2023)2023MICCAIMultiple inferences - Model disagreement gradient-based uncertaintyKL divergence, gradientCover-basedL2 distance
Tang et al. (2023)2023MICCAIMultiple inferences - Model disagreementKL divergence
Qiu et al. (2023)2023MICCAISingle modelDistance to 0.5
Chen et al. (2023b)2023MIDLLoss of self-supervised pretext tasksTop-k
Qu et al. (2023a)2023NeurIPSMultiple inferences - Model disagreementVariance, entropy, overlap
Lou et al. (2023)2023TMIClustering-basedConsistency
Du et al. (2022)2023TPAMIDiscrepancy-basedSemantic and distinctive scores
Wan et al. (2023)2023TPAMIAdversarial TrainingDisagreement of Classifiers

Table 3. Surveyed works of active learning related to medical image analysis. “–” stands for such information is not available for not provided by the authors or not in the case.

见原文

MC辍学在每次推理期间随机丢弃深度模型中的某些神经元(Gal和Ghahramani,2016)。启用MC dropout后,模型会多次运行以获得不同的预测。Gal等人(2017)是深度人工智能的开创性工作。他们是第一个使用MC dropout计算不确定性指标的人,如熵、均方差和贝叶斯主动学习分歧(BALD)(Houlsby等人,2011)。结果表明,MC Dropout可以显着提高基于不确定性的深度AL的性能。此外,他们也是最早将深度AL应用于医学图像分析的人之一。在皮肤病变分析数据集ISIC 2016中,他们发现BALD始终优于随机基线。在脑细胞类型分类中,袁等(2020b)使用多个MC dropout运行的平均概率计算熵。顾等人(2018)在共聚焦显微内镜和胃肠镜的分类中,采用多次MC脱落运行的方差作为不确定性度量。

模型集成训练多个模型以在推理期间获得大量预测。Beluch等人(2018)在基于不确定性的AL中对模型集成和MC dropout进行了详细的比较。标准数据集中的结果表明,模型集成表现更好。对于AL诊断糖尿病视网膜病变,与随机基线相比,所提出的方法取得了显着改进。然而,模型集成在DL中需要大量的训练开销。为了降低计算成本,快照集成(黄等,2017)在循环学习率衰减的单次运行中获得多个模型。早期尝试Beluch等人(2018)表明快照集成导致比模型集成更差的性能。Jung等人(2023)通过在不同的AL轮中保持相同的优化轨迹以及参数正则化来改进快照集成。结果表明,改进的快照集成优于模型集成。此外,Nath等人(2021)采用斯坦变分梯度下降来训练一组模型,旨在确保多样性。他们提出的方法在CT上分割胰腺和肿瘤以及MRI上分割海马方面显示出其他竞争对手的优势。

模型分歧:我们可以利用不同模型输出之间的不一致,也可以称为按委员会查询(QBC)(Seung等人,1992年)。这类方法在AL中被广泛用于医学图像分析。建议性标注(SA)是AL用于医学图像分析的开创性工作(杨等,2017)。他们在无融资创业的情况下训练了多个分割网络。这些模型之间的方差被用作分歧度量标准。SA在病理图像上分割腺体和超声图像上分割淋巴结方面表现出卓越的性能。在腹部多器官分割中,Qu等人(2023a)训练了三种不同的分割模型,并采用了它们预测之间的方差。在超声图像的颈动脉内膜中层分割中,唐等人(2023)选择教师和学生模型预测之间具有最高Kullback-Leibler(KL)分歧的样本进行注释。在胶囊结肠镜的息肉分割中,白等人(2022)使用类激活映射(CAM)训练多个解码器(周等,2016)由一个分类网络生成。他们进一步提出了样本选择的模型不一致和CAM不一致。模型不一致包括预测概率的熵和不同解码器输出之间的Dice,而CAM不一致测量了CAM和所有解码器输出之间的Dice。该方法选择模型不一致和CAM不一致高的样本进行标注。然而,模型不一致低但CAM不一致高的样本被视为半监督训练的伪标签。在肋骨骨折检测中,黄等人(2020)采用Hausdorff距离测量不同凸轮之间的不一致性。此外,Mackowiak等人(2018)采用不同MC dropout推理之间的投票熵作为分歧度量。

数据分歧:由于训练多个模型的计算成本可能很高,因此测量输入数据不同扰动之间的差异也有助于AL。KL散度是量化分歧的常用指标。在COVID诊断中,Wu等人(2021)计算不同版本增强之间的KL散度作为差异度量,以选择信息丰富的CT扫描进行注释。Siddiqui等人(2020)计算3D场景中不同视点预测之间的KL差异,以选择AL的信息区域。此外,最近的工作采用了替代指标来计算分歧。Lyu等人(2023)提出了输入端委员会,该委员会随机增加输入数据以获得多个预测。他们进一步分别用交叉熵和方差测量不同预测之间的分类和定位差异。Parvaneh等人(2022)插值需求空间中的未标记样本和标记原型。如果插值样本的预测与相应原型的标签不一致,则表明未标记样本引入了新特征。因此,这些未标记的样本应该被发送进行注释。结果显示跨各种数据集和设置的进步。

3.1.2. 基于梯度的不确定性

基于梯度的优化是基于DL的医学图像分析的基石。每个样本的梯度反映了其对模型参数变化的贡献。更大的梯度长度表示样本对参数的巨大变化,因此暗示了很高的不确定性。此外,梯度独立于预测概率,这使得它们不太容易受到过度置信度的影响。经常被用作基于梯度的不确定性的三个指标:梯度、Fisher信息和影响函数。需要注意的是,本节中的梯度计算没有使用未标记样本不可用的地面实况标签。相反,相应的方法要么使用带有伪标签的监督损失(例如带有伪标签的交叉熵损失),要么使用无监督损失(例如熵损失),从而使梯度计算独立于真实标签。

渐变:较大的梯度范数(即梯度长度)表示对模型参数的影响较大,表明AL的不确定性较高。作为早期尝试,Otálora等人(2017)采用了经典的预期梯度长度(塞特尔斯等人,2007年)在眼底图像渗出液分类中选择有价值的样本进行注释。作为DL时代的热门开创性作品,Ash等人(2020)提出了不同梯度嵌入的批量主动学习(BADGE)。他们只计算网络最终层参数的梯度,梯度计算中最有信心的类作为伪标签。然后,在梯度嵌入上执行k-Means++以进行样本选择。结果表明,BADGE在不同的数据集、网络架构和超参数设置中具有竞争力。梯度已广泛用于医学图像分析的主动学习。Aklilu和杨(2022)将BADGE框架扩展到腹腔镜手术图像的语义分割。王等(2022b)从数学上证明了较大的梯度范数对应于测试损失的下限。因此,他们采用期望经验损失和熵损失进行梯度计算,这两者都消除了标记的必要性。前者是每个类的损失和类概率的加权和,如下所示:

\mathscr{L}_{exp}\left(x\right)=\sum_{i=1}^{C}\left[p_{i}\cdot\mathscr{L}\left(x,y_{i};\theta\right)\right]

哪里y_i是阶级的标签i​ .熵损失完全基于所有类别的概率,如下所示:

\mathscr{L}_{ent}\left(x\right)=-\sum_{i=1}^{C}p_{i}\log p_{i}

所提出的方法在低温电子断层扫描(cryo-ET)亚断层图分类中优于其他比较方法。此外,戴等人(2020)提出了一种新的基于梯度的主动学习方法在MRI脑肿瘤分割中。他们首先训练了一个变分自动编码器(VAE)(金马和韦林,2013)来学习数据流形。然后,他们训练了一个分割模型,并使用可用的标记数据计算骰子损失的梯度。样本选择由投影到数据流形上的梯度指导。他们的扩展工作(戴等,2022年)进一步证明了MRI全脑分割的卓越性能。

费舍尔信息在机器学习模型的AL中有效(Chaudhuri等人,2015, Sourati等人,2017)。Fisher信息(FI)根据数据分布反映模型参数的整不确定性。FI定义为平方梯度对模型参数的期望,公式如下:

\mathscr{I}_{Fisher}\left(x;\theta\right)=\mathbb{E}_{y}\left[\nabla_{\theta}^{2}\mathscr{L}\left(x,y;\theta\right)\right]

哪里𝐼是Fisher信息的符号。FI逆的轨迹通常用作AL的目标:

\underset{D^q\subset D^u}{\arg\min}\mathop{\mathrm{Tr}}\Big[\left(\sum_{x\in D^q}\mathscr{I}_{Fisher}\left(x;\theta\right)\right)^{-1}\left(\sum_{x\in D^u}\mathscr{I}_{Fisher}\left(x;\theta\right)\right)\Big]

通过求解方程。选择的样本可以帮助模型更快地收敛到最优参数。然而,基于FI的方法的计算成本随着模型参数的增加呈二次增长,这对于深度主动学习来说是不可接受的。Sourati等人(2018)以及他们的扩展工作(Sourati等人,2019)是第一个将FI纳入医学图像分析深度主动学习的公司。他们使用每一层的平均梯度来计算FI矩阵,从而降低了计算成本。由于没有地面实况标签,他们采用了预期的经验损失(即Eq。(5))用于梯度计算。这种方法在不同年龄组和病理条件下的大脑提取方面优于竞争对手。此外,Ash等人(2021)只计算了网络最后一层的FI矩阵。这项工作的梯度计算与BADGE的梯度计算相同(阿什等人,2020).

影响功能: Liu等人(2021)使用的影响函数(Koh和梁,2017)选择对模型性能带来最积极影响的样本。未标记样本的影响函数定义如下韦斯伯格和库克(1982):

\mathscr{I}_{Influence}\left(x;D^{l}\right)=-\Big(\sum_{(x,y)\in D^{l}}\nabla_{\theta}\mathscr{L}\left(x,y;\theta\right)\Big)H_{\theta}^{-1}\nabla_{\theta}\mathscr{L}\left(x,y;\theta\right)

哪里 H_{\theta}^{-1} 是标记集的Hessian矩阵,H_\theta=\sum_{(x,y)\in D^{j}}\nabla_{\theta}^{2}\mathscr{L}\left(x,y;\theta\right). 在公式中,第一项(即标记样本的梯度之和)和第二项(即Hessian矩阵)的梯度可以用地面实况标签导出。对于第三项,它们用由于地面实况标签不可用而导致的预期经验损失的梯度替换了真实梯度。

3.1.3业绩估计

在本节中,不确定性度量是对当前任务性能的估计。有两种类型的此类度量:测试损失或特定任务的评估度量。这些度量反映了预测误差的水平。例如,患者肿瘤分割中的低Dice分数表明模型未能产生准确的分割。为这些样本请求注释将有利于提高模型的性能。然而,由于地面实况标签的不可用,我们只能估计这些度量,而不是精确计算它们。估计性能主要有两种方法:替代度量和可学习的性能估计。

代理指标广泛用于医学图像分析的主动学习。例如,这些指标可以是损失或特定任务评估指标的上限或下限。在immunohistochemistry图像的乳腺癌分割中,沈等人(2020)计算了MC dropout所有预测的交集(IoU)。他们发现这个IoU和真实骰子系数之间有很强的线性相关性。在皮肤病变和X射线手骨分割中,赵等人(2021)通过深度监督计算中间层和最终层预测之间的平均骰子系数。他们发现这个平均骰子和真实骰子系数之间存在线性相关。此外,黄等人(2021)发现在有限的训练迭代中,样本的损失受到初始和最终网络输出之间差异的范数的限制。受此启发,他们提出了循环输出差异(COD)作为连续两轮注释之间模型输出的差异。结果表明,更高的COD与更高的损失相关。因此,他们选择了高COD的样本。他们还通过事后验证证明了与评估指标的线性相关性。

可学习性能估计:我们可以训练辅助神经网络模块来预测性能指标。作为该研究领域最具代表性的作品之一,主动学习的学习损失(LLAL)(Yoo和Kweon,2019)训练了一个额外的模块来预测没有其标签的样本的损失值。由于损失表明网络预测的质量,因此预测的损失是样本选择的自然不确定性度量。结果表明,预测的损失和实际损失密切相关。所提出的方法还优于几个AL基线。在CT扫描的肺结节检测中,Liu等人(2020)基于LLAL来预测每个样本和边界框的损失。在COVID诊断中,Wu等人(2021)采用预测损失和不同预测之间的分歧进行样本选择。吴等人。(2022c)在COVID诊断和结肠镜息肉分析的联合主动学习中进一步结合了损失预测和样本多样性。由于AL只关注未标记样本的不确定性排名,Kim等人(2021)将损失回归放宽到损失排名预测。因此,他们将LLAL中的损失回归器替换为RankCGAN中的排名器(Saquil等人,2018)。结果表明,在LLAL中,损失排序预测优于实际损失回归。周等人(2021b)以及他们随后的工作(周等人,2022)引入了一个质量评估模块,为每个切片提供预测的平均IoU分数。他们以交互方式选择每个卷中得分最低的切片进行注释。

3.1.4不确定性感知模型

在上述部分中,不确定性是基于DL中常用的确定性模型导出的。然而,一些模型可以固有地捕获不确定性,例如用于医学图像分析的VAE或概率U-Net(科尔等人,2018)。通过这种方式,它们不再输出点估计,而是输出可能预测的分布,从而减轻过度自信。我们在本次调查中将它们称为不确定性感知模型。它们只需要深度模型的单次前向传递,从而显着降低推理过程中的计算和时间成本。证据深度学习(EDL)和混合密度网络(MDN)通常用于AL中的不确定性感知模型。

证据深度学习用Dirichlet分布替换Softmax分布(森索伊等人,2018)。网络的输出被解释为狄利克雷分布的参数,因此预测遵循狄利克雷分布。如果模型对预测有信心,狄利克雷分布将是尖锐的。否则,它将是平坦的。EDL带来的另一个优势是AU和欧盟很容易获得狄利克雷分布。Chen等人(2023a)提出了一种基于EDL的用于医学图像分析的联邦AL方法。遵循联邦AL设置,他们在所有客户端和每个客户端保持一个全局模型。全局和局部模型的AU以及全局模型的EU用于样本选择。在胸部X射线分类中,Balaram等人(2022)修改了基于EDL的AL以适应多标签设置。具体来说,他们将EDL中的Dirichlet分布转换为多个Beta分布,每个分布对应一个类标签。然后他们计算Beta分布的熵作为AU进行注释。Park等人(2023)引入模型证据头自适应缩放目标检测中狄利克雷分布的参数,增强了训练稳定性。他们首先计算每个检测框的欧盟。然后,通过分层不确定性聚合获得样本级不确定性。此外,谢等人。(2023a)将EDL引入主动域自适应。选择具有高分布和数据不确定性的样本进行标注,它们都基于EDL。

混合物密度网络: 崔等人(2021a)将目标检测网络中的分类和定位头转换为MDN的架构(主教,1994年)。除了每个边界框的坐标和类别预测之外,MDN头还产生了分类和定位的方差。他们将这些方差作为样本选择的不确定性度量。结果表明,该方法与MC dropout和模型集成具有竞争力,同时显着减少了推理时间和模型大小。

3.1.5基于对抗性的不确定性

AL中的不确定性也可以对抗性地估计,包括对抗性样本和对抗性训练。

对抗样本帮助隐式测量样本到决策边界的距离,而更高的距离表示更高的不确定性。通过攻击深度模型,向原始样本添加精心设计的扰动会导致对抗性样本(古德费勒等人,2014b)。对抗性样本和原始样本之间的差异人眼几乎无法辨别。然而,深度模型会对对抗性样本产生极其自信但错误的预测。原因是对抗性攻击以最小的成本将原始样本推向决策边界的另一边,导致视觉上可忽略的变化但预测明显不同。从这个角度来看,对抗性攻击的强度反映了样本到决策边界的距离(许等,2019)。小扰动表明样本更接近决策边界,因此被认为更不确定。Ducoffe和Precioso(2018)采用DeepFool算法(穆萨维-德兹胡利等人,2016)用于对抗性攻击。要求对具有较小对抗性扰动的样本进行标记。Rangwani等人(2021)在扰动强度有限的情况下,通过最大化对抗性样本和原始样本预测之间的KL分歧来攻击深度模型。

对抗训练在训练特征提取器和目标冲突的分类器之间交替,旨在通过增加分类器分歧来暴露不确定样本。袁等人(2021)以及他们的扩展工作(万等人,2023年)在标记和未标记的数据集上用两个分类器实现了这一点,首先调整分类器,同时固定特征提取器以揭示更多不确定的样本,然后针对固定分类器调整特征提取器,以最小化标记和未标记样本之间的差距。几轮后,对分歧最大的样本进行注释。

3.2.评估信息量:代表性

虽然基于不确定性的方法在深度AL中发挥着至关重要的作用,但它们仍然面临着某些挑战:1.异常值选择:在AL中使用不确定性的目标是通过查询当前模型的硬样本来提高性能。然而,这些方法也可以选择损害模型训练的异常值(Karamcheti等人,2021年)。发生这种情况主要是因为基于不确定性的方法经常忽略样本本身的内在特征。2.分布失调:在需求空间中,不确定样本往往位于决策边界附近(2009年结算)。因此,基于不确定性的方法选择的样本的分布通常不同于整体数据分布。这种差异引入了数据集偏差并导致性能下降。如果在AL查询期间仔细考虑不同样本之间的关系,这种挑战可以得到缓解。总之,基于不确定性的AL缺乏对每个样本中携带的视觉信息以及不同样本之间关系的探索。上述挑战要求在AL中使用新的信息性度量。

AL采用代表性来克服不确定性带来的挑战。Representativeness-basedAL旨在选择能够代表整个数据集的样本子集。具体来说,代表性样本应该在成像风格或视觉内容等属性上具有视觉特色。在医学图像分析中,图像通常是高维的,因此对DL模型来说computation-intensive。此外,像病变或组织这样的重要信息并不总是直接可见或容易区分。一个好的特征表示大大降低了图像维度,也提取了医学图像中的解剖、组织学、病理学甚至功能信息。因此,representativeness-basedAL的查询过程通常是在需求空间进行的。此外,代表性样本也应该广泛分布在整个数据分布中,而不是集中在特定区域。换句话说,这些样本应该是多样化的。这是为了尽量减少查询结果中的冗余,并尽量保持原始数据分布。因此,需要适当的样本或分布距离和样本密度指标来评估数据集的景观。此外,医学图像的唯一性可能需要不同于自然图像的距离指标。本节介绍了四种类型的representativeness-basedAL:基于聚类的、基于覆盖的、基于差异的和基于密度的代表性AL。这些方法的分类显示在图4.

img

3.2.1基于集群的主动学习

随着医学图像分析中特征提取的进步,具有相似外观的图像倾向于在需求空间(郑等,2019)。因此,一种简单的方法是对数据嵌入进行聚类以选择有代表性的样本。这种方法将数据分组为几个集群,然后选择每个集群的形心样本。它利用数据中的固有结构进行有洞察力的分组,也很容易实现。K-Means是基于聚类的主动学习中最受欢迎的选择。普拉赫马迪等人(2021)对现成的自监督特征执行k-Means,然后选择聚类中心进行注释。基于自监督特征,金等人(2022b)采用k-Means++进行聚类和剪影系数来确定最佳聚类数。他们提出的方法在胸部X线的肺部分割和皮肤镜图像的病变分割中取得了值得称道的性能。在细胞核分割中,Lou等人(2023)使用K-Means进行粗级和细级聚类,旨在从病理图像中选择信息性斑块。在连接组学中,Lin等人(2020)提出了用于主动选择的双流聚类。他们首先预测了每个未标记样本的语义掩码,并简化了AL任务以判断每个预测ROI的正确性。此外,他们分别用分割掩码和未标记图像训练了VAE的两个特征提取器。对于双流聚类,他们首先应用具有掩码特征的掩码级聚类对具有相似外观的ROI进行分组。在每个掩码簇内,进一步执行图像级聚类。该方法在突触检测和线粒体分割方面取得了优异的性能。结果还表明,双流聚类通过防止图像特征主导结果,优于具有连接掩码和图像特征的聚类。

3.2.2基于覆盖的主动学习

我们可以将representativeness-basedAL表述为覆盖问题。覆盖问题的一个经典例子是设施位置,例如用广告牌覆盖城市的所有街道(法拉哈尼和希克马特法尔,2009年)。同样,基于覆盖的AL使用几个样本来覆盖整个数据集,这类似于使用几个球体来覆盖需求空间中的所有样本,每个球体的中心都是选定的样本。理想情况下,这些样本应该是有代表性的,并且包含其他样本的信息。这些方法通常涉及两个设置:集合覆盖和最大覆盖。这两个设置都是NP-hard,这意味着它们不能在多项式时间内最优求解。然而,使用贪心算法可以在线性时间内实现接近最优的解决方案,该算法迭代地选择覆盖大部分其他样本的样本进行注释(飞哥,1998年)。这两种变体在问题设置上略有不同。集合覆盖受到完全覆盖的约束,这意味着它不能省略数据集中的任何样本。为了实现这一目标,其覆盖球体的半径可能非常大,当选择的样本非常少时,异常值可能会被选择为球体的中心(耶胡达等人,2022年)。max cover的目标是尽可能多地覆盖整个数据集,打破集合覆盖的约束,从而避免异常值选择的问题。

套装封面:核心集(Sener和Savarese,2018)遵循k-Center位置的设置(Hochbaum和Shmoys,1985年),这也是集合覆盖问题的一个变体。他们采用最远优先遍历来解决选择代表性样本的k-Center问题。深度特征的L2距离用于衡量不同样本之间的相似性。Agarwal等人(2020)为AL引入了上下文多样性,这是一种在空间和语义上融合样本不确定性和多样性的指标。他们用上下文多样性代替了L2距离,并采用与样本选择相同的最远优先遍历Sener和Savarese(2018). Caramalau等人(2021)采用图卷积网络(GCN)对标记和未标记样本之间的关系进行建模。GCN使用标记数据集改进了未标记样本的特征表示。增强的特征表示进一步用于核心集采样。

最大覆盖范围:作为AL在医学图像分析方面的开创性工作,SA(杨等,2017)是将代表性概念引入AL的最初努力之一。SA首先选择高度不确定的样本,然后选择代表性样本进行注释。SA中代表性部分的表述遭循最大覆盖的设置。代表性度重基于深度特征的余弦柜似度。具体来说,样本x由查询数据集中最相似的样本表示D_{t}^{q} r(D_t^q,x)=\max_{x^{\prime}\in D_t^q}sim(x^{\prime},x) 哪里r是样本的代表性x关于D_t^q和sim\left(\cdot,\cdot\right)代表余弦相似度。此外,代表性R之间 D_{t}^{q}还有未标记的那套D_t^u如下: R(D_t^q,D_t^u)=\sum_{x\in\stackrel{\sim}{D}_t}r(D_t^q,x)

其中一个更大的R(D_t^q,D_t^u)表明D_t^q更好的代表D_t^u .需要注意的是,由于余弦相似度在 0到1之间,SA是最大覆盖问题的推广。但是他们仍然使用贪心算法来寻找样本x那个最大化 R(D_{t}^{q}\cup x,D_{t}^{u})-R(D_{t}^{q},D_{t}^{u}).后来的许多AL工作在SA上构建了基于封面的AL框架特别是在医学图像分析领域。 徐等人(2018)量化了SA中的分割网络,发现它提高了腺体分割的准确性,同时显着减少了内存使用。郑等人(2019)提出了代表性注释(RA),它省略了SA中的不确定性查询。RA训练VAE进行特征提取,并使用分层聚类划分需求空间。他们使用与SA相似的策略在每个集群中选择有代表性的样本。RA在组织学图像上的腺体分割、电子显微镜图像上的真菌分割和MRI上的全心脏分割方面取得了卓越的性能。在immunohistochemistry图像的乳腺癌分割中,沈等人(2020)将SA中的相似性度量从𝑠𝑖𝑚(⋅,⋅)到1−𝑠𝑖𝑚(⋅,⋅),这增强了所选样本的多样性。

此外,一些作品在最大覆盖范围内遵循与SA不同的配方。在医学图像的关键点检测中,Quan等人(2022)提出了一种有代表性的选择模板图像进行少镜头学习的方法,首先,他们使用自监督学习训练了一个特征提取器,并应用尺度不变特征变换描述符进行初始关键点检测,接下来,他们计算模板图像与整个数据集之间的平均余弦相似度,最后,他们挑选相似度最高的模板组合进行标注。Yehuda等人(2022)发现核心集(Sener和Savarese,2018),它遵循集合覆盖的设置,倾向于选择异常值,尤其是当注释预算较低时。为了解决这个问题,他们提出了普罗科夫,将设置从集合覆盖改为最大覆盖。借助自监督深度特征和基于图的贪心算法,普罗科夫有效地避免了基于覆盖的AL中的异常值选择。

子模块功能视图:集覆盖和最大覆盖都可以从子模集函数的角度来表述(Fujishige, 2005)。这些函数显示收益递减。具体来说,给定两组𝐴和𝐵, 𝐴⊂𝐵,对于每个元素𝑧那不在𝐵,一个子模集函数𝑔有那个𝑔(𝐴∪𝑧)−𝑔𝐴≥𝑔(𝐵∪𝑧)−𝑔(𝐵).此属性使子模集函数适用于AL。假设信息量函数𝐼是子模的。这意味着每个新查询的样本带来的信息量增益都比前一个少,这表明应该首先查询信息量大的样本。此外,如果我们可以根据单调和子模函数来表示优化问题,我们可以使用贪心算法在线性时间内得到接近最优的解。对于AL,如果𝐼是子模块化和单调的,这意味着我们可以贪婪地选择最大化的样本𝐼.在基于覆盖的AL中,像SA和RA这样的方法遵循子模函数的设置,但作者没有从这个角度展示他们的方法。引入子模函数将扩展AL的公式,并确保所选样本既具代表性又多样化。这类方法的典型步骤包括计算样本相似度,构建子模最佳化问题,并使用贪心算法(魏等,2015). Kothawade等人(2021)引入了基于子模块化信息度量的AL框架,有效地解决了稀有类稀缺、冗余和分布外数据等问题。在目标检测中,Kothawade等人(2022a)专注于少数类的样本。他们首先构建了一个包含某些感兴趣类样本的参考数据集。然后,与参考集相似的未标记样本通过子模互信息(SMI)进行注释。SMI用于衡量两个集合之间的相似性。假设两个集合𝐴, 𝐵和一个子模函数𝑔,SMI定义为\mathscr{I}_{𝑆𝑀𝐼}=𝑔(𝐴)+𝑔(𝐵)−𝑔(𝐴∪𝐵).请参考Kothawade等人(2022b)有关SMI的更详细定义.

3.2.3基于差异的主动学习

在基于差异的AL中,离标记集最远的未标记样本被认为是最具代表性的。主要思想是,如果我们对这样的样本进行多轮查询,标记集和未标记集的分布之间的差异将显著减少。因此,一小部分样本可以很好地代表整个数据集。这些方法的关键是测量两个高维分布之间的差异(即距离)。在本节中,我们展示了概率分布之间的四种差异:基于相似度的差异、H-散度、瓦瑟斯坦距离和最大均值差异(MMD)。

基于相似度的差异:作为一种实用且易于实施的指标,我们可以根据样本相似性来近似分布之间的距离。在腺体和MRI婴儿大脑分割中,李(2020)采用平均余弦相似度作为两个数据集之间的距离。他们选择了远离标记集且靠近未标记集的样本。Caramalau等人(2021)提出了不确定GCN,它使用GCN对标记和未标记样本之间的关系进行建模。他们选择了与标记集相似度最低的未标记样本。在目标检测中,吴等人。(2022a)构建具有样本特征和预测熵的原型。他们选择了与标记原型相去甚远的未标记样本。

H-散度借助判别器从生成对抗网络(GAN)估计分布距离(古德费勒等人,2014年a)。更具体地说,鉴别器试图区分标记和未标记的样本,H-散度与鉴别器的输出之间存在密切关系(Gissin和Shalev-Shwartz,2019)。变分对抗主动学习(VAAL)(辛哈等人,2019)将VAE与基于差异的AL的鉴别器相结合。在VAAL中,VAE将样本映射到潜在空间,同时鉴别器区分样本是否被标记。这两者受到对抗性训练的相互影响。VAE试图欺骗鉴别器判断所有样本都被标记,而鉴别器试图正确区分标记和未标记样本。经过多轮对抗性训练,VAAL选择了鉴别器认为最有可能被未标记的样本进行注释。VAAL启发了许多后续作品。Khanal等人(2023)采用多模态信息改进VAAL。对于多模态医学图像,他们仅使用一种模态的潜在代码修改VAE以重建两种模态的图像。该方法在脑肿瘤分割、分类和胸部x光分类上进行了评估。吉辛和沙莱夫-施瓦茨(2019)在没有对抗性训练的情况下训练判别器。Zhang等人(2020)用样本不确定性替换了鉴别器的二元标签。他们还将VAE的特征与监督模型的特征相结合。王等人。(2020c)采用神经网络模块进行样本选择。为了训练这样一个模块,他们在VAAL之上添加了另一个鉴别器,旨在区分未标记样本的真实和VAE重构特征。在对两个鉴别器进行对抗性训练后,该模块选择了不确定和有代表性的样本。Kim等人(2021)将主动学习的学习损失与VAAL相结合,将损失排名预测和VAE特征输入判别器。

瓦瑟斯坦距离广泛用于计算分布距离。水等人(2020)指出H-散度折衷了样本选择的多样性,而瓦瑟斯坦距离保证了查询样本的代表性和多样性。他们进一步提出了瓦瑟斯坦对抗主动学习(WAAL),它建立在VAAL的基础上,采用了一个额外的样本选择模块。他们通过最小化标记和未标记集之间的瓦瑟斯坦距离来训练这个模块。WAAL选择了高度不确定且最有可能未标记的样本进行注释。马哈茂德等人(2022)将AL表述为最优传输问题。他们旨在最小化具有自监督特征的标记集和未标记集之间的瓦瑟斯坦距离。他们进一步采用混合整数规划,保证了多样化样本选择的全局收敛性。此外,谢等人。(2023c)将候选者视为基于自监督特征的可持续优化变量,他们首先随机初始化候选样本,然后,最大化候选者与其最近邻的相似度,同时最小化候选者与标记样本的相似度,最后,选择最终候选者的最近邻进行标注,他们证明了目标等价于最小化标记样本与未标记样本之间的瓦瑟斯坦距离。

最大均值差用核技巧测量两个分布的距离作为它们的平均特征之间的距离(Gretton等人,2012)。在主动域适应中(将在第4.5), Hwang等人(2022)采用MMD测量源域和目标域之间的距离。然后,MMD用于选择目标域中具有代表性和多样性的样本。需要注意的是,瓦瑟斯坦距离属于积分概率度量(IPM)族,而MMD同时落入IPM和前面提到的H-散度的范围。请参阅赵等人(2022)对于概率分布之间差异的更详细分类。

3.2.4基于密度的主动学习

基于密度的主动学习倾向于从数据分布最密集的区域中选择样本。它采用密度估计来表征高维需求空间中的数据分布。似然是数据分布的估计密度,人口更密集的区域表示更高的似然。在这种情况下,有代表性的样本是具有高似然的样本。然而,这样的方法很容易造成样本选择的冗余。因此,像聚类这样的技术经常被用来提高样本选择的多样性。基于密度的AL直接估计数据分布,从而无需解决复杂的优化问题。在肩部MRI肌肉骨骼分割中,Ozdemir等人(2021)采用infoVAE(赵等,2017)来估计标记数据集中和未标记池中每个样本的密度。具体来说,MMD在infoVAE的训练中取代了KL散度作为正则化项。编码器的后验概率被用作密度度量。选择关于未标记池密度较高而关于标记数据集密度较低的样本进行注释。TypiClust(Hacohen等人,2022年)通过自监督编码器将样本投射到高维需求空间。样本的密度定义为与其k近邻的L2距离的倒数。此外,TypiClust预先进行聚类以确保所选样本的多样性。王等人。(2022c)提出了基于密度的AL的两个变体。第一个变体固定了特征表示。该过程类似于TypiClust,但它们最大化了所选样本之间的距离以确保多样性。另一个变体以端到端的方式。同时训练特征表示和样本选择。该变体使用可学习的k-Means聚类来联合优化具有局部平滑约束的聚类分配和特征表示。

值得注意的是,基于覆盖和基于密度的AL在概念和方法论上都有所不同。在概念上,基于覆盖的AL中的样本倾向于覆盖整个数据集。然而,它们不必位于数据分布的最密集区域。例如,Yehuda等人(2022)显示核心集(Sener和Savarese,2018),一种流行的基于覆盖的方法,倾向于在低预算区域选择异常值。在这种情况下,基于覆盖的AL与基于密度的AL相反,这也表明基于密度的AL可能是低预算区域更好的选择。从方法论的角度来看,基于覆盖的AL需要用贪心算法在线性时间内解决一个NP-hard问题。尽管这种算法产生了可接受的解,但几乎不可能知道如果能够实现最优解,AL的性能会如何。对于基于密度的AL,NP-hard问题被密度估计取代,这更computation-efficient。

3.3.抽样策略

有了成熟的信息量度量,大多数深度AL工作只是采用top-k来选择信息量最高的样本进行注释。然而,现有的信息量度量面临几个问题,如冗余和类别不平衡。由于医学图像的独特特性,这些问题更加严重。尽管可变性很高,但同一感兴趣区域(ROI)的医学图像可以分为几个组,每个组内的图像具有很高的相似性(郑等,2019)。此外,类别不平衡在医学图像分析中臭名昭著,因为健康对象的数量往往超过患病对象。我们可以在top-k选择上改进抽样策略,以有效解决上述问题,而不是提出更好的信息量指标。此外,特定的抽样策略也可以用于组合多个信息量指标。此外,随着深度AL的最新发展,越来越多的研究直接采用神经网络进行样本选择。在这种情况下,我们不再评估信息量,而是直接选择具有神经网络的信息量样本。遗憾的是,尽管抽样策略在AL中很重要,但以前的工作或调查很少讨论它们的具体属性。作为本次调查的贡献之一,我们系统地总结了AL中不同的抽样策略,包括多样性抽样、类别平衡抽样、混合抽样和可学习抽样。AL中不同抽样策略的分类显示在图5.

img

3.3.1多样性抽样

多样性策略旨在减少主动学习中的采样冗余,这意味着某些选定的样本彼此高度相似。多样性的缺乏导致注释预算的浪费。此外,训练集中的冗余导致深度模型过度拟合有限的训练样本,从而导致性能下降。因此,许多AL方法采用多样性抽样来减轻选定样本中的冗余。在本节中,我们讨论了多样性抽样的四种策略,包括聚类、最远优先遍历、行列式点过程(DPP)和针对某些信息性指标量身定制的特定策略。

聚类是多样性抽样最常用的策略之一。这种策略提高了整个需求空间的覆盖率,从而很容易提升多样性。Ash等人(2020)在梯度嵌入上采用k-Means++聚类来选择不同的不确定样本。此外,Citovsky等人(2021)用分层聚类增强了基于边距的不确定性采样。他们选择了每个集群内边距最小的样本。当查询数量超过集群数量时,来自较小集群的样本被优先排序。这种方法可以扩展到巨大的注释预算(例如,一百万)。郑等人(2019)在他们的实验中,聚类在多个医学成像数据集中显示出一致的性能改进,这表明聚类确实提高了采样多样性。

重要的是要强调本节中的聚类不同于第节中的聚类3.2.1.为了确保所选样本具有足够的代表性,基于聚类的AL一般选择最接近聚类中心的样本。然而,当聚类用于增强多样性时,我们不仅可以选择最接近聚类中心的样本,还可以选择不确定性最高的样本,甚至可以在每个聚类内随机选择。因此,聚类可以作为一种即插即用技术来方便地增强AL中的采样多样性。

行列式点过程是从更大的集合中选择子集的随机概率模型。DPP降低了对相似元素进行采样的概率,以确保结果的多样性。弄点肉胡子。(2019)使用两个DPP进行样本选择:不确定性DPP基于不确定性分数,而探索DPP旨在寻找决策边界附近的样本。然后,将来自两个DPP的采样结果发送给专家注释。然而,与聚类相比,DPP的计算量更大。Ash等人(2020)比较了使用k-Means++和k-DPP的性能和时间成本。结果表明,它们的性能相似,但k-Means++的时间成本明显低于k-DPP。此外,Mi等人(2020)在AL中采用DPP进行医学图像重建,请参阅第5.3有关详细信息。

随机选择也可以用于更好的多样性。在核磁共振前列腺分割中,Gaillochet等人(2023a)将整个数据集随机划分为不同的批次,这些批次被称为“随机批次”。选择不确定性得分最高的批次进行注释。实验结果表明,随机批次在极低的预算下一致地提高了各种基于不确定性的AL方法的性能。他们的扩展工作(Gaillochet等人,2023b)进一步说明了随机批次对前后海马分割的有效性。

最远优先遍历也是一种广泛使用的多样化查询策略,最早由Sener和Savarese(2018).这种策略要求采样点之间的距离尽可能大,这导致所选样本在需求空间中的分布更加均匀。Li等人(2023)对不同的初始标记数据集采用余弦距离的最远优先遍历策略。乳腺超声、肝脏CT和胸部X线分割实验表明最远优先遍历的有效性。此外,Agarwal等人(2020)Caramalau等人(2021)分别使用他们提出的上下文多样性和GNN增强特征通过最远优先遍历改进了多样性。

其他策略:在基于不确定性的AL中,BatchBALD(Kirsch等人,2019)将基于BALD的不确定性AL扩展到批处理模式。结果表明,与Gal等人(2017).基于FI的方法将AL表述为半定规划(SDP)问题以提高采样多样性,并采用各种方法来求解SDP。Sourati等人(2019)使用商业求解器求解SDP,而Ash等人(2021)提出了适应高维需求空间的贪心算法。在皮肤病变分析中,史等人(2019)引入了用于多样性采样的图像散列。在他们提出的方法中,每个图像的第一个主成分用于特征表示。然后他们使用局部灵敏度散列将相似的图像映射到相同的桶中。从每个桶中统一选择样本进行人工注释。

3.3.2类别平衡抽样

类不平衡是医学图像分析中DL的一个常见问题,其中一小部分类有许多样本,而其他类只包含几个样本(张2023b)。例如,类的长尾分布存在于医学图像分类的几乎所有任务中,如皮肤病变分类和全幻灯片图像分类。在不平衡数据集上训练会导致多数类过拟合和少数类欠拟合。除了处理训练过程中的类不平衡之外,AL还通过避免大多数类的过度注释和增强数据集构建过程中少数类的注释来缓解类不平衡。

分类:在一个不平衡的2019冠状病毒病数据集中,Chong等人(2021)评估多重信息性得分和抽样策略。结果表明,多样性抽样更有利于阶级不平衡。金等人。(2022c)假设靠近分布尾部的样本更有可能属于少数类。因此,尾部概率等价于少数类的可能性。具体来说,他们训练了一个VAE进行特征提取,并采用copula估计VAE特征的尾部概率。最后,通过聚类和不等概率采样选择信息丰富的样本。该方法在具有长尾分布的ISIC 2020数据集上得到了验证。Kothawade等人(2022c)使用子模互信息更多地关注少数群体的样本。他们在五种不同模式的医学分类数据集上取得了出色的结果,包括X射线、病理学和皮肤镜检查。在显微镜下的血细胞检测中,Sadafi等人(2019)当样本的少数类分类概率超过0.2时,要求对样本进行专家注释。此外,Choi等人(2021b)直接估计分类器对给定样本出错的概率,并使用贝叶斯规则将其分解为三个项。首先,他们训练一个VAE来估计给定预测类的数据的可能性。然后,根据VAE特征训练一个额外的分类器来估计类先验概率和错误标记特定类的概率。通过考虑所有三种概率,他们成功地缓解了AL中的类不平衡。所提出的方法在逐步类不平衡的CIFAR-10和CIFAR-100数据集上取得了良好的性能。对于基于不确定性的方法,Bengar等人(2022)引入了一个优化框架来保持类平衡。他们用该类中最有信心的样本来补偿少数类的查询,导致查询数据集中的类分布更加平衡。

分段:由于某些AL方法选择区域而不是整个图像进行注释,因此需要确保所选区域包含稀有或小物体(例如,头颈部多器官分割中的视交叉或视神经)。蔡等人(2021)吴等人(2022b)两者都提出了针对此类场景的类别平衡抽样策略,详见第4.3.

3.3.3混合取样

在人工智能中,越来越多的工作同时使用多个信息性指标。然而,如何有效地集成多个指标仍然是一个关键问题。这个问题通过本节讨论的混合抽样来解决。混合抽样的两种方法经常使用,包括多轮抽样和度量融合。

多轮抽样首先根据一个特定的信息量度量选择样本子集,并根据另一个信息量度量在该子集内继续样本选择。多轮采样因其方便而在AL中广泛用于医学图像分析(沈等,2020, 李和尹,2020, 王和尹,2021)。例如,SA(杨等,2017)基于不确定性进行代表性采样,以减少采样集中的冗余。

此外,吴等人(2022b)采用设置动态权重的自适应策略来调整代表性和不确定性抽样的预算。代表性抽样的权重最初较大,而在后期情况相反。这是因为代表性方法可以快速发现典型数据,而不确定性方法通过查询具有错误预测的样本来不断改进模型。

指标融合是另一种广泛使用的混合抽样方法。它直接组合不同的信息量指标。例如,可以直接总结所有指标并选择具有最高值的样本进行注释。指标融合也广泛用于医学领域的AL(李等,2024, 周等人,2021c, 吴等人,2021)。此外,排名批处理模式(卡多佐等人,2017年)可以自适应地融合AL中的多个指标。

3.3.4可学习抽样

前面提到的AL方法通常遵循“两步”范式,首先涉及信息量的评估,然后根据特定的启发式(即抽样策略)选择样本。然而,可学习抽样跳过信息量评估,直接使用神经网络进行样本选择。在这种情况下,神经网络被称为“神经选择器”。

可学习抽样最常见的方法之一是将样本选择制定为强化学习(RL)问题,其中学习者和数据集被认为是环境,神经选择器作为代理。代理通过选择有限数量的样本进行注释与环境交互,环境返回奖励来训练神经选择器。在医学图像分类中,王等(2020b)采用演员-评论家框架,其中评论家网络用于评估神经选择器选择的样本的质量。该方法在眼底图像的肺CT疾病分类和糖尿病视网膜病变分类中表现出色。此外,Howmann等人(2019)采用概率策略网络作为神经选择器,环境返回的奖励鼓励神经选择器选择多样且具有代表性的样本,使用REINFORCE算法训练神经选择器(威廉姆斯,1992年). Agarwal等人(2020)利用上下文多样性作为RL奖励和训练双向长短期记忆网络作为神经选择器。

有关AL中可学习抽样的更多工作,例如将AL表述为少镜头学习或通过元学习训练神经选择器,请参阅Liu等人(2022).

4. 主动学习和其他标签效率高的技术的集成

如第1部分所论述,高昂的标注成本严重拖累了DL在医学图像分析中的发展尽管AL在医学图像分析中得到了广泛的应用,但已经提出了各种方法来减少训练深度模型所需的大量标记数据,例如半监督和自监督学习等。这些方法,包括主动学习,统称为标签高效深度学习(金等人,2023a)。标签高效学习是一个广泛的概念,包括所有旨在提高注释效率的相关技术。在医学图像分析中AL的现实世界实践中,通过将AL与其他标签高效技术集成,仍有更高的标签效率空间。以医学图像分割中AL的例子为例,由于许多样本在AL的循环中没有标记,我们可以通过将AL与半监督学习集成,进一步包括它们以实现更好的性能。自监督学习在医学图像分析中的快速发展引入了许多强大的预训练模型(塔勒布等人,2020)。这些模型在医学图像分析的AL中也很有价值,因为它们具有卓越的特征提取能力。对于另一种情况,由于医学成像中的ROI通常很小,我们可以选择和注释包含AL中ROI的信息区域,而不是注释整个图像。因此,将主动学习与其他标签高效技术相结合具有提高注释效率的巨大潜力。然而,现有的调查尚未系统地组织和分类这一研究领域。因此,作为本次调查的主要贡献之一,我们全面回顾了AL与其他标签高效技术的集成,包括半监督学习、监督自学习、领域适应、基于区域的注释和生成模型。此外,每个被调查的工作如何与其他标签高效技术相结合总结于表2.

4.1.半监督学习:利用未标记的数据

半监督学习(Chen等人,2022a, 韩等,2024)旨在通过在监督训练时利用未标记的数据来提升性能。通过在医学图像分析中集成AL和半监督学习,可以进一步减少对繁琐的人类注释的需求。原因在于AL和半监督学习相辅相成。具体来说,应该从医院信息系统中收集大量未标记的图像,为一些临床应用训练DL模型。在AL的帮助下,DL模型在用某种AL方法构建的最优标记数据集上进行训练,这减少了医生的注释工作量。然而,在AL周期的模型训练期间,海量未标记样本闲置。通过将AL与半监督学习相结合,可以在标记和未标记样本上训练模型(Jiménez等人,2023年)。本节将从伪标记和一致性正则化的角度介绍AL和半监督学习的集成。

4.1.1伪标签

伪标记(李等人,2013)是半监督学习中最直接的方法之一。它使用模型对未标记数据的预测作为伪标签,并将它们与标记数据相结合进行监督训练。尽管可以将伪标签分配给所有未标记样本进行训练,但它可能会引入噪声。为了缓解这种情况,Wang等人(2017)提出了具有成本效益的主动学习(CEAL),将伪标记与基于不确定性的AL相结合。具体来说,CEAL将最不确定的样本发送给专家注释,并将伪标签分配给最有信心的样本。许多后续工作都建立在CEAL的思想之上。Gorriz等人(2017)在黑色素瘤分割中采用CEAL框架,并使用MC dropout进行不确定性估计。在医学图像分割中,赵等人(2021)用密集的条件随机场细化伪标签。此外,Li等人(2022)提出了一种在组织病理学图像前列腺癌格里森分级中选择甲骨文注释和伪标记样本的新方法。他们采用课程学习将所有样本分为硬样本和易样本。硬样本都被送去进行甲骨文注释。对于容易的样本,他们根据训练损失评估标签噪声的存在。低训练损失的容易样本用于伪标签以辅助训练,而高损失的容易样本被认为是嘈杂的,被排除在训练之外。

4.1.2一致性正规化

一致性正则化旨在在输入数据或模型参数的扰动下强制执行相似的输出。最大化一致性作为未标记样本的无监督损失,有助于提高鲁棒性,减少过度拟合,并提高模型性能。许多工作将现有的基于一致性的半监督方法集成到AL的训练过程中。在胸部x光分类中,Balaram等人(2022)将几种半监督方法与AL结合起来,以进一步降低注释成本,包括Mein教师(Tarvainen和Valpola,2017),增值税(宫藤等人,2018)和没有老师(Unnikrishnan等人,2021年). 黄等人(2021)将他们提出的COD与MEMET(Tarvainen和Valpola,2017),彰显优越性能。王等人。(2022c)将基于密度的AL与现有的不同的半监督学习方法相结合。结果表明,该方法优于其他主动学习方法,在半监督学习中表现出色。

一致性也可用于样本选择。高等人(2020)引入了一个半监督主动学习框架。这里的一致性用于半监督训练和评估信息量。在这个框架中,样本通过随机增强多次输入模型。通过最小化多个输出之间的方差来实现未标记样本的一致性损失。他们进一步选择不太一致的样本进行注释。结果表明,将AL与半监督学习相结合显着提高了性能。

此外,张等人(2022a)将AL与伪标记和一致性正则化相结合。未标记的图像首先经历强和弱数据增强。当弱增强图像的置信度超过某个阈值时,他们将这些样本用于半监督训练。具体来说,弱增强图像的预测被分配为伪标签,强增强图像的输出被强制与伪标签一致。然而,当置信度低于阈值时,他们将这些样本用于AL。使用平衡不确定性选择器和对抗不稳定性选择器来选择用于oracle注释的样本。他们用MRI图像验证了他们提出的方法在对转移性硬膜外脊髓压迫分级中的有效性。

4.2.自我监督学习:利用预先训练的模型

将半监督学习与AL相结合已经取得了成功的应用。然而,它的有效性受到数据集大小的限制。这种限制对于相对较小的医学成像数据集尤其明显。在临床实践中,大量原始医学图像存储在医院信息系统中,无需人工注释。自我监督学习(克里希南等人,2022年)可能是挖掘隐藏在这些原始图像中的信息的重要工具。它的想法是在数据本身的监督下训练模型,从而允许在大型未标记数据集上进行预训练。许多研究表明,自我监督的预训练模型可以通过在医学图像分析中对一些随机选择的标记样本进行微调来获得令人印象深刻的性能(Azizi等人,2021年, 唐等人,2022b)。一个自然的期望是将主动学习策略与自监督学习相结合,旨在提高注释效率,而不仅仅是随机抽样(Lüth等人,2023年)。此外,这些模型还可以作为强大的特征提取器,为人工智能提供良好的初始化。在本节中,我们将首先介绍自监督模型如何解决人工智能中的冷启动问题,然后探索将人工智能与自监督学习集成的不同方法。

4.2.1主动学习中的冷启动问题

当前的AL方法通常需要一个初始标记数据集来训练模型以进行启动并确保可靠的信息性评估。然而,当初始标记集很小甚至不存在时,这些AL方法的性能急剧下降,有时甚至比随机抽样(Chen等人,2023b, Hacohen等人,2022年, 耶胡达等人,2022年)。研究还表明,简单地将自监督学习与AL基线相结合会导致比随机抽样更差的性能(孟加拉等人,2021年, 谢等人,2023b)。这种现象被称为冷启动问题,普遍存在于各个领域的AL中,包括医学图像分析(刘等人,2023a)。解决冷启动问题对于提高AL的疗效至关重要,特别是在注释成本极高的医学领域。AL中冷启动问题的一个关键解决方案是选择最优的初始标记样本集,这需要与现有AL方法不同的策略。

早期的尝试集中在利用完全监督的预训练模型来解决AL中的冷启动问题。周等人(2017)以及他们随后的工作(周等人,2021c)使用ImageNet预训练模型在医学图像分析中从完全未标记的数据集中选择样本进行注释。他们将熵和分歧作为信息量指标,其中分歧是同一样本的不同斑块之间预测概率的KL分歧。他们还引入了随机性来平衡探索和利用。在两个结肠镜数据集和一个CT肺栓塞检测数据集上的实验显示出优于其他竞争对手的性能。

自监督预训练模型为有效解决AL中的冷启动问题提供了良好的初始化。ALPS(袁等人,2020a)率先在AL中引入冷启动问题,并采用自监督预训练模型来解决这个问题。基于对比学习特征提取器,CALR(金等人,2022a)采用BIRCH聚类,选择每个簇内信息密度最大的样本进行标注。与k-Means相比,BIRCH聚类对异常值的敏感性较低,可以进一步识别噪声样本。TypiClust(Hacohen等人,2022年)理论上证明查询典型样本对于较低的注释预算更有利因此,基于自监督特征,TypiClust从每个k-Means集群的高密度区域中选择样本。除此之外,Yehuda等人(2022)采用基于图的贪心算法根据自监督特征选择最优初始样本。在CT分割中,Nath等人(2022)提出了ProxyRank,为自监督预训练设计了新的借口任务。该模型被训练为通过腹部软组织窗口学习阈值分割。结果表明,所提出的方法在选择初始样本方面显着优于随机抽样。为了基准不同冷启动AL方法在3D医学图像分割中的有效性,刘等人(2023a)在五个MSD数据集上复制ALPS、CALR、TypiClust和ProxyRank(安东内利等人,2022年)。结果表明,TypiClust在四个竞争对手中脱颖而出。然而,没有一种方法在所有五个数据集上始终优于随机选择,这需要在医学图像分析中进一步探索冷启动AL。

4.2.2主动学习与自监督学习相结合

特点:最简单的方法是利用自监督预训练模型的高质量特征。许多研究都基于强大的自监督特征提取器(普拉赫马迪等人,2021年, 金等人,2022a, Hacohen等人,2022年, 耶胡达等人,2022年).

伪装任务在自监督学习中,旨在直接从数据本身派生监督。在大规模未标记数据上解决这些借口任务,模型获得反映数据特征的有用特征表示。不同的借口任务对应不同的预训练范式,典型的包括旋转预测(吉达里斯等人,2018),对比学习(他等人,2020),和蒙面图像建模(他等人,2022年)等。相关作品通常为AL采用借口任务的丧失。在Chen等人(2023b),对比学习的损失被用来解决医学图像分析中AL的冷启动问题。他们假设损失较高的样本更能代表数据分布。具体来说,他们用动量对比学习在目标数据集上进行预训练(他等人,2020),然后使用k-Means聚类将未标记的数据划分为多个聚类,选择每个聚类内对比损失最高的样本进行注释。然后他们选择每个聚类中对比损失最高的样本进行注释。所提出的方法解决了传统AL方法的偏差造成的类不平衡,以及在初始标记数据集数量有限时无法检测异常的问题。该方法在PathMNIST、ProducMNIST和BloodMNIST(等人,2023年). Yi等人(2022)发现借口任务的损失与下游任务的损失之间存在很强的相关性。因此,他们最初专注于注释借口任务损失较高的样本,后来转向损失较低的样本。结果表明,旋转预测在不同的借口任务中表现最好。

其他:此外,最近的作品以其他方式利用自监督学习。张等(2022b)在分类任务的AL中引入了一位注释。在这种情况下,预言机只返回预测是对还是错,而不是其特定的类标签。采用对比学习将正确的预测拉近,并将错误的预测从预测的类中推开。结果表明,所提出的方法在位信息方面优于其他AL方法。Du等人(2021)将对比学习集成到AL中以解决类分布不匹配问题,其中未标记的数据包括标记数据集的类分布之外的样本。在这项工作中,采用对比学习过滤不匹配类的样本,并通过仔细设置负样本来突出样本信息量。他们的扩展工作(杜等人,2022年)提供了更多的理论分析和实验结果,并将现有的标签信息整合到所提出的框架中。

4.3.基于区域的主动学习:较小的标签单元

大多数AL作品在医学图像分析中需要预言机标记完整图像。然而,标记完整图像会在分割或检测等细粒度任务中引入冗余,导致注释预算的使用效率低下。以腹部多器官分割为例,容易分割的大器官(如肝脏或脾脏)不需要详尽的注释。相反,这些预算最好花在难以分割的小器官上,如食道和肾上腺。为了解决这个问题,可以将图像划分为非重叠区域以提高注释效率,专家可以选择注释图像中的特定区域,这被称为“基于区域的主动学习”。本节从补丁和超像素的角度介绍基于区域的主动学习,这意味着本节中提到的AL方法选择图像中的补丁或超像素进行注释。

4.3.1补丁

补丁最常用于基于区域的主动学习,通常表示为方形框。Mackowiak等人(2018)结合不确定性和注释成本来选择用于注释的信息补丁。在眼底图像的视网膜血管分割中,徐等人(2021)选择注释不确定性最高的补丁。此外,他们利用潜在空间混合来鼓励标记和未标记样本之间的线性化,从而利用未标记数据来提高性能。卡萨诺瓦等人(2020)采用深度强化学习自动选择信息补丁进行注释。在病理图像的灰质和白质分割中,莱等人(2021)首先将整个幻灯片图像分割成多个块。在每个块的置信度(即最大预测概率)下,使用大小为5×5的均值滤波器来聚合相邻块的置信度。结果,一个聚合度量对应于一个5×5块的区域,并选择不确定性最高的区域进行注释。此外,邱等人(2023)对整个幻灯片图像采用具有非方形斑块的自适应区域选择。他们通过仔细定位每张幻灯片上的信息区域来动态确定每个非方形斑块的大小,而不是采样方形斑块。与方形斑块基线相比,所提出的方法证明了注释效率和对AL超参数的鲁棒性的提高。

4.3.2超像素

超像素也广泛用于基于区域的主动学习。基于超像素的AL最初使用基于颜色和纹理的超像素生成算法对图像进行预分割(阿仙塔等人,2012, 范登伯格等人,2012),然后计算每个超像素的信息量。每个超像素的信息量度量是其组成像素的平均值。Siddiqui等人(2020)采用不同视点之间的不确定性和分歧来选择信息丰富的超像素进行注释。在OCT分割中,Kadir等人(2023)提出了基于边缘的熵和散度来选择高度不确定的超像素进行注释。在三个数据集上进行了实验来说明他们方法的有效性。对于超像素选择,蔡等人(2021)提出了主导标记,这是超像素中所有像素的多数类标签。他们将主导标记分配给超像素中的每个像素,从而无需详细描绘。他们进一步引入了类平衡采样策略,以更好地选择包含少数类的超像素。结果表明,在相同的标记点击次数下,具有超像素的主导标记显着优于具有补丁的精确标记。作为后续工作,Kim等人(2023)提出了分别自适应合并和分割空间相邻、相似和复杂的超像素。这种方法产生了比蔡等人(2021)带有主导标签。Li等人(2023)利用超像素估计区域一致性,即预测与每个超像素的主导类之间的差异。结合熵和多样性等其他指标,他们选择最不确定的前景和背景超像素来降低注释成本。

4.4.生成模型:数据增强和生成主动学习

近年来,深度生成模型的进步使得高质量生成和灵活的条件生成成为可能。例如,经过训练的模型可以在肺面罩上生成相应的肺部x光扫描。通过集成生成模型,我们可以进一步提高人工智能的注释效率。在本节中,我们从数据增强和生成主动学习两个方面讨论人工智能如何与生成模型相结合。

4.4.1作为数据扩充的合成样本

最简单的方法认为生成模型产生的合成样本是高级数据增强。这些方法利用标签条件生成模型。因此,保证所有合成样本都被正确标记,因为指定标签是数据生成的先决条件。这种方法使我们能够在没有任何额外注释的情况下获取更多标记样本。Tran等人(2019)认为生成模型产生的大多数合成样本信息不丰富。因此,他们首先采用BALD不确定性来选择样本进行注释,然后在这些标记数据上训练VAE-ACGAN以生成更多信息的合成样本。Mahapatra等人(2018)使用条件GAN生成具有不同疾病的胸部X射线,以增强标记数据集。然后,使用MC Dropout选择和注释高度不确定的样本。在AL和合成样本的帮助下,他们仅使用35%的数据就实现了接近完全监督的性能。训练条件生成模型需要大量标记数据,而AL中的标记数据集通常相对较小。为了解决这个问题,Lou等人(2023)提出了一个有条件的SinGAN(Shaham等人,2019),只需要一对图像和掩码进行训练。SinGAN提高了核分割的注释效率。Chen等人(2022b)集成隐式语义数据增强(ISDA)(王等,2021)变成AL。他们最初使用ISDA来增强未标记的样本,然后在不同的数据增强之间选择具有较大多样性的样本进行注释。该模型在原始数据及其增强上进行训练。Mahapatra等人(2024)训练了一个VAE来合成信息丰富和非冗余的样本。这些样本是通过在VAE的潜在空间中首次采样并将其馈送到VAE解码器生成的。此外,采用标签保留和冗余避免分数来挑选信息最丰富的合成样本。所提出的方法在胸部X射线分类和MedMNIST的多个玩具数据集中进行了测试(等人,2023年).

4.4.2生成性主动学习

生成式主动学习选择生成模型产生的合成样本进行oracle注释,因此不需要大型的未标记样本池。这种方法的优势在于它能够通过生成模型持续搜索数据流形。值得注意的是,本节中的作品遵循成员查询合成的设置,而最后一节中的作品遵循基于池的主动学习的设置。出现这种区别是因为最后一节中的生成模型仅用于增强现有的标记数据集。朱和便当(2017)试图生成带有GAN的不确定样本用于专家注释。不幸的是,生成样本的质量很低,并且包含许多具有不可区分类别的样本。由于专家发现很难注释低质量的合成样本,因此需要替代方法来注释这些样本。Chen等人(2021)首先训练了一个双向GAN来学习数据流形,然后他们选择需求空间中的不确定区域,并使用双向GAN在这些区域内生成图像,最后,他们使用基于物理的模拟为生成的样本提供标签,在CT主动脉瓣狭窄的钙化水平预测中,与随机生成相比,他们将注释效率提高了多达10倍。

4.5.主动域适应:应对分布转移

领域适配(DA)(关刘,2021)在医学图像分析中具有广泛的应用,它旨在将知识从源域转移到目标域,从而最大限度地降低注释成本。目前,DA最常见的设置是无监督域自适应(UDA),其中源域被标记,而目标域被未标记。以腹部多器官分割为例,我们可以训练一个域自适应分割模型,其中标记的MR图像与未标记的CT图像一起在CT域上实现良好的性能(刘等,2023b)。然而,UDA的性能仍然落后于目标域中的完全监督学习。选择和注释信息样本将有助于弥合这一差距。这种设置被称为主动域自适应(ADA)。为了在ADA中获得更好的查询,应该考虑关于目标域的不确定性和代表性。后者在ADA中通常被称为域性或目标性。本节回顾了图像级和区域级ADA。

4.5.1图像主动域自适应

在本节中,ADA方法执行图像级选择,这涉及大多数ADA工作。苏等人(2020)是第一个引入ADA概念并将领域对抗学习与AL相结合的人。通过域判别器和任务模型,他们进行重要性抽样,以选择不确定且与源域高度不同的目标域样本。傅等人(2021)ADA结合了委员会查询、不确定性和领域性。他们采用领域判别器来选择高领域度的样本,并使用高斯核来过滤目标领域的异常和源相似样本。随机抽样也用于提高多样性。帕布等人(2021)对目标域样本进行k-Means聚类,并选择聚类中心进行注释。聚类中心由不确定性加权,从而确保选择的样本是不确定和多样化的。在分割任务中,宁等人(2021)在ADA中引入了锚的概念。他们从源域图像中连接不同类别的特征。这些连接的聚类中心被称为锚。然后他们计算每个目标样本与其最近的锚之间的距离。要求距离最高的目标样本进行注释。谢等人(2022b)介绍了能量的概念(LeCun等人,2006)转化为ADA。能量与数据分布的可能性成反比。在这项工作中,使用在源域上训练的模型来计算目标域样本的能量。选择高能量的样本进行注释,这表明它们代表了目标域,并且与源数据有很大不同。黄等人(2023)选择的样本具有高不确定性和与其最近的原型不一致的预测。在医学图像分析的背景下,Chen等人(2023a)在联邦主动学习的设置中解决了域转移问题。他们提出了一个基于EDL的框架,该框架具有跨所有客户端的全局模型和每个客户端的本地模型。在这项工作中,欧盟与全局模型和本地数据之间的域转移有关。因此,全局和本地模型的AU由欧盟校准,从而提高了性能。多个医学成像数据集上的结果显示了其在降低注释成本方面的有效性。在鼻咽癌肿瘤分割中,Wang等人(2023)提出了一种源-域和目标-域双参考策略来选择信息样本进行标注,具体而言,对源样本的特征进行聚类,聚类中心为参考样本,选择与参考样本相似度最高和最低的目标样本进行标注,分别作为领域不变样本和领域特定样本进行处理。

4.5.2按区域主动调整领域

为了更好地利用注释预算,一些ADA作品还选择图像中的补丁或超像素进行注释。Shin等人(2021)提出了LabOR,它首先使用UDA预训练模型为目标样本生成伪标签,用于训练两个分割头。他们最大化了两个头之间的分歧,并注释了表现出最多分歧的区域。LabOR仅用2.2%的目标域注释就实现了接近完全监督的性能。在谢等人。(2022a),使用不确定性和区域杂质来选择和注释信息最多的补丁。区域杂质测量像素邻域内唯一预测类的数量,它呈现边缘信息。他们使用极小的补丁(例如,大小为3×3)进行注释,并以仅5%的注释成本实现了接近完全监督的性能。吴等人(2022b)提出了一种基于密度的方法来选择目标域中最具代表性的超像素进行注释。他们采用高斯混合模型(GMM)作为源域和目标域超像素的密度估计器,旨在选择目标域中密度高和源域中密度低的超像素。

5. 医学图像分析的主动学习

由于显着降低注释成本的潜力,AL在医学图像分析中越来越受到关注。医学成像的独特特性要求我们设计专门的AL方法。在前两个部分的基础上,本节将重点介绍为跨不同任务的医学图像分析量身定制的AL作品,包括分类、分割和重建。

此外,在表3,我们在本次调查中列出了与医学图像分析相关的所有AL工作,提供了使用数据集的名称、其模态、ROI以及相应的临床和技术任务。

5.1. 医学图像分类的主动学习

常见的临床任务,如疾病诊断、癌症分期和预后预测,可以表述为医学图像分类。大多数医学影像分类中的AL工作直接采用通用方法,例如在第3.3.2缓解医学影像数据集的长尾效应。然而,某些医学图像分类模式需要专门设计AL算法。例如,胸部x光片的分类通常涉及多标签的思想。此外,病理全幻灯片图像的分类通常需要制定为多实例学习问题。本节将介绍专门针对胸部x光片和病理全幻灯片图像分类问题的AL工作。

5.1.1胸部X光片和多标签分类

胸部X线检查对于筛查和诊断肺部、心血管、骨骼和其他胸部疾病至关重要。计算机辅助诊断在这一领域已经得到广泛研究,包括旨在降低医生注释成本的AL工作。Mahapatra等人(2021)引入显著性图来选择信息丰富的样本进行注释。为了将每像素显著性图聚合成一个标量,他们探索了三种不同的方法,包括计算显著性图的峰度、利用多元放射组特征以及结合自编码器和聚类的深度特征。结果表明,使用深度特征的聚合性能最好。Nguyen等人(2021)引入了一个要点集来选择决策边界附近的样本。此外,高熵的不确定样本被送去注释,而自信的样本被分配为伪标签。此外,它们采用动量更新来增强样本预测的稳定性。为了处理注释噪声,Bernhardt等人(2022)提出了一个名为“主动标签清洗”的框架。该框架根据估计的标签正确性和标签难度对样本进行排名。在胸部X射线数据集上的实验表明,与随机选择相比,该方法通过减少专家注释有效地降低标签噪声来提高性能。

然而,在诊断胸部X光时,多种疾病和异常往往同时并存。因此,引入了多标签分类,允许将每个样本分类为多个类别(Baltruschat等人,2019)。因此,用于胸部X射线分类的AL算法必须适应多标签设置。建立在显着性图之上,Mahapatra等人(2022)进一步引入GNN对不同标签之间的相互关系进行建模。在这项工作中,每个类都被视为图中的一个节点,类之间的关系表示为边。他们采用各种技术来聚合不同类之间的信息。作为后续工作,Mahapatra等人(2024)进一步介绍了图多套变压器(Baek等人,2021年)比GNN更强大的标签间关系。

5.1.2病理全幻灯片图像和多实例学习

与X射线、CT和MRI等方式相比,病理全玻片图像(WSI)提供了细胞水平的微观细节,这使得它们对于癌症分期和预后预测等任务至关重要。然而,WSI非常大,最大分辨率达到100,000×100,000像素。为了处理这些大图像进行深度学习,WSI通常被分成许多小补丁。全监督方法需要补丁级甚至细胞级的注释,导致注释成本很高。AL可以有效提高注释效率。例如,在对乳房病理图像进行分类时,Qi等人(2019)使用熵作为不确定性度量。发送不确定的补丁进行注释,而那些熵较低的补丁被给予伪标签以辅助训练。在补丁级组织学组织分类的AL中,胡等人(2023)提出了分类课程查询,以动态调整每个类的不确定性抽样权重。他们进一步提出了带有错误预测的负预训练,以更好地区分视觉上相似的类。为了从WSI获得细粒度的细胞注释,范德瓦尔等人。(2021)在AL的帮助下,提出了一种基于人工智能的人类增强标签系统。使用主动学习者来选择下一个最佳注释补丁,并训练分类器来建议注释。具体来说,Core-Set(Sener和Savarese,2018)被用作主动学习者。病理学家的实验表明,它能够将工作量减少约90%,并略微提高各种细胞标记任务的数据质量。

然而,病理学家可能只在现实世界的临床场景中提供WSI级别的注释。因此,研究的一个流行方向是将WSI分类制定为弱监督多实例学习(MIL)(Qu等人,2022年)。在这个框架中,整个WSI被视为一个包,每个WSI中的补丁被视为该包中的实例。训练有素的MIL学习者可以根据WSI级别的标签自动识别相关补丁,从而显着降低注释成本。例如,经过训练的MIL分类器可以通过注释WSI中是否存在癌症转移来自动发现相关补丁。尽管如此,与任务相关的补丁往往比不相关的补丁多,这使得MIL收敛更具挑战性。在基于MIL的病理WSI分类中,AL过滤掉不相关的补丁并选择信息性补丁进行注释。基于基于注意力的MIL,Sadafi等人(2023)采用MC Dropout估计每个补丁的注意力和分类不确定性,然后将每个WSI中最不确定的补丁发送给专家注释。Qu等人(2023b)发现除了与靶点相关的斑块(例如,肿瘤、淋巴结和正常细胞)外,WSIs还包含许多不相关的斑块(例如,脂肪、基质和碎片)。因此,他们采用了开放式AL(宁等,2022),其中未标记池包含目标和非目标类样本。他们将特征分布与预测不确定性相结合,以选择目标类的信息丰富且相关的补丁进行注释。

5.2.医学图像分割的主动学习

分割是医学图像分析中最常见的任务之一,能够精确定位解剖结构或病理病变。然而,训练分割模型需要像素级标注,对于医生来说既费时又费力。因此,主动学习在医学图像分割中得到了广泛应用,并成为降低标注成本的重要方法。基于医学成像的独特特性,本节将重点介绍AL中用于医学图像分割的专门设计,包括基于切片的标注、一次性标注和标注成本。

5.2.1基于切片的注释

在CT和MRI等3D模式中,相邻的2D切片通常表现出显着的语义冗余。因此,仅注释每个样本的关键切片可以降低注释成本。本节中提到的AL作品选择3D体积内的2D切片进行注释。Representativeness-based方法已广泛应用于这一工作。例如,郑等人(2020)利用自动编码器学习每个切片的语义特征,然后使用类似于RA(郑等,2019)。具体来说,他们最初训练了三个2D分割网络和一个3D分割网络,其中2D网络的输入是来自不同平面的切片。这些分割网络被用来生成四组伪标签,随后训练最终的3D分割网络。结果表明,这种基于切片的策略优于均匀采样。基于这种方法,彭等人(2022)在3D膝关节软骨和骨骼分割中采用了类似的策略。此外,吴等人。(2022d)在自动编码器中加入了一个自我关注模块,以增强切片级特征学习。

还引入了不确定性方法来选择关键切片。周等人(2021b)引入了质量评估模块,以选择预测平均IoU得分最高的切片。在CT图像的肌肉分割中,Hiasa et al. (2020)选择关键切片和重点地区。这项工作采用聚类来选择关键切片,并进一步选择每个关键切片中不确定性高的区域进行注释。

近年来,提出了结合不确定性和代表性的混合策略用于基于切片的注释。在肩部MRI肌肉骨骼分割中,Ozdemir等人(2021)采用多次MC dropout运行的方差作为不确定性度量。infoVAE估计的后验概率(赵等,2017)被用作代表性指标。Li等人(2024)提出了一种混合策略来选择下肢肌肉骨骼分割中的信息切片,其中不确定性用贝叶斯U-net估计,代表性基于余弦相似度。他们进一步采用互信息来最小化样本冗余Nath等人(2021).所提出的方法在MRI和CT数据集上均取得了令人印象深刻的性能。

5.2.2一次性注释

目前,大多数AL作品都需要多轮标注。然而,这种设置在医学图像分割中可能不切实际。多轮标注要求医生对每一轮标注都随时可用,这在实践中是不现实的。如果医生不能按时完成标注,则必须暂停AL过程。相比之下,一次性标注消除了与医生进行多次交互的需要。它还允许在单轮中选择有价值的样本,从而降低时间成本。一次性标注和冷启动AL都旨在选择最优化的初始注释。然而,前者允许更高的注释预算,并将与专家的交互次数严格限制为只有一次。大多数相关作品结合了自监督特征和特定的采样策略来实现一次性标注。例如,RA(郑等,2019)是医学图像一次分割中最早的工作之一。他们应用VAE特征和代表性策略在一次拍摄中选择信息丰富的样本进行注释。RA在病理图像的腺体分割、全心MRI图像和电子显微镜图像的真菌分割中表现出色。吴等人。(2022d)提出了一个一次拍摄选择关键切片进行标注的representativeness-based框架,他们采用自学习学习每个切片的语义表示,并用它将专家标注传播到不同的切片。金等人(2022b)将对比学习的特征与最远优先采样相结合,实现一次性注释。所提出的方法在ISIC 2018和肺部分割数据集上证明了有效性。此外,金等人(2023b)利用自动编码变换进行自监督特征学习。他们根据可达距离选择和注释高密度的样本。

5.2.3注释成本

当前的AL工作通常假设每个样本的注释成本相同。然而,在医学图像分割中并非如此,在医学图像分割中,注释不同样本的时间可能会有很大差异。AL技术可以通过考虑注释成本(例如注释时间)更好地支持医生。在检测CT扫描的颅内出血时,Kuo等人(2018)将预测不一致与注释时间相结合,选择样本进行注释。具体来说,他们采用Jensen-Shannon散度来衡量多个模型输出之间的不一致。每个样本的注释时间由分割边界的长度和连通分支的数量来估计。在这项工作中,AL被框定为0-1背包问题,并使用动态规划来解决这个问题以选择信息丰富的样本。在脑肿瘤分割中,沈等人(2021)根据查询的切片和已经标记的切片之间的距离推导出切片的注释成本。具体来说,较低的距离代表较低的注释成本。基本原理是标记相似切片的注释成本将比不熟悉的切片便宜。在大脑结构分割中,Atzeni et al. (2022)进一步考虑了多个感兴趣区域之间的空间关系,以更准确地估计注释成本。此外,使用前几轮的平均骰子系数来预测当前分割结果的平均骰子。他们选择并注释了可以最大化平均骰子的区域。

5.2.4互动分段

尽管自动分割在医学成像中取得了成功,但由于领域转移或看不见的投资回报率,临床应用中仍有可能出现错误。交互式分割(巴德等人,2021年, 罗等,2021)可以根据点击、边界框或涂鸦的用户输入对当前分割进行实时调整。因此,交互式分割可以在医生的指导下快速调整模型以适应当前的临床应用。为了灵活起见,当前的交互式分割方法接受任何位置的注释。然而,当模型本身可以建议在哪里进行注释时,这样的范式会更高效,这正是主动学习所擅长的。因此,将AL和交互式分割相结合将进一步降低注释成本。在本节中,所有提到的论文都与不同的标记单元进行了交互式工作。在DL时代之前,苏等人(2015)已经将AL集成到交互式细胞分割中。他们选择了信息量最大的超像素进行交互式注释,并具有预期的预测误差。在核磁共振胎儿大脑分割中,王等人。(2020a)提出了一种用于交互式细化的不确定性引导框架。他们开发了一种新颖的网络架构,可以同时产生多个分割结果,不同预测之间的方差作为不确定性度量。人类专家获取不确定性最高的切片进行交互式细化。在3D医学图像的交互式分割中,周等人(2022)提出了一个质量预测器,它根据每个切片的当前分割产生一个预测的IoU分数。通过交互式分割网络,质量预测器建议分数较低的切片用于专家注释,可以是涂鸦、边界框或极端点击的形式。在Li等人(2023),选择信息最多的前景和背景超像素进行交互式注释。

5.3.医学图像重建的主动学习

AL也可以应用于医学图像重建。AL方法可以帮助最小化需要长成像时间的模态所需的观察。这加快了成像过程,缩短了患者的等待期。在本节中,我们将探讨AL在MRI、CT和电子显微镜重建中的应用。请参考表4更多细节。

深度学习已被应用于加速MRI采集和重建。一种常见的做法是通过固定掩模减少k空间采样,并使用深度模型重建采样不足的MRI(秦等,2018)。为了进一步提高成像速度,可以应用AL中的可学习采样来选择k空间中的下一个测量位置。例如,Zhang等人(2019)采用对抗性学习来训练评估器在k空间中选择下一行。Pineda等人(2020)利用强化学习训练双深度Q网络进行k空间主动采样。Bakker等人(2020)在强化学习中采用策略梯度来训练k空间自适应采样的策略网络。策略网络的奖励基于获取前后结构相似度的提高。此外,Bakker等人(2022)探讨了如何共同优化重建和采集网络。

除了MRI成像,AL还被用于CT重建,如以下所示王等人。(2022a).他们自适应地选择适合个体患者的扫描角度,从而减少辐射暴露和扫描持续时间。在电子显微镜中,Mi等人(2020)首先将低分辨率图像增强到高分辨率,然后预测感兴趣区域的位置和重建误差。基于重建误差的加权DPP用于选择需要重建的像素。结果表明,加权DPP既保持了低重建误差,又保持了空间多样性。

Table 4. Summarization of surveyed works of active learning in medical image reconstruction.

YearVenuesModalityROIsDatasetClinical Task
Jin et al. (2019)2019arXivMRIHeartCardiac atlas projectMRI reconstruction
KneefastMRIMRI reconstruction
Zhang et al. (2019)2019CVPRMRIKneefastMRIMRI reconstruction
Mi et al. (2020)2020MICCAIElectron microscopyMouse CortexSNEMI3DAccelerated acquisition of electron microscopy
Human Cerebrumin-house
Pineda et al. (2020)2020MICCAIMRIKneefastMRIMRI reconstruction
Bakker et al. (2020)2020NeurIPSMRIKneefastMRIMRI reconstruction
BrainfastMRIMRI reconstruction
Wang et al. (2022a)2022arXivCTLungAAPMCT reconstruction
SpineVerSeCT reconstruction

6. 主动学习在医学影像分析中的表现评估

在医学图像分析领域,现在有越来越多的AL作品。尽管发展迅速,但用于医学图像分析的AL仍然面临着几个限制其在现实世界临床任务中应用的问题。一方面,缺乏对医学成像数据集上的AL方法的综合评估。大多数AL作品在标准数据集上进行实验,如CIFAR-10、CIFAR-100或MedMNIST。然而,现实世界的医学成像数据集往往包含较少的可用数据和较高的分析复杂度(Varoquaux和Cheplygina,2022年)。一些AL工作专注于医学成像的特定领域,并取得了优异的性能,但它们推广到更广泛应用方面的潜力仍然值得怀疑。除此之外,不同的AL方法表现出不一致的性能,可能不一定优于随机抽样。在分类任务的AL中,Munjal等人(2022)强调了缺乏始终优于AL的方法以及随机抽样表现相对较好的事实。在第4.2,我们还提到,当注释预算较低时,AL方法不如随机抽样。因此,我们不确定哪种AL方法符合我们的要求,以及这种方法是否能优于最直接的基线随机抽样。

为了澄清上述问题,我们对多个医学影像数据集上的不同AL方法进行了综合评估。采用的三个数据集被整个医学影像社区广泛使用。它们还对应于不同的模式、器官和任务(例如分类和分割)。我们选择最具代表性和流行的AL方法来评估医学影像数据集。此外,我们还提供了数据集拆分、网络架构和训练超参数的详细信息,以获得更好的重现性。代码也可以在我们随附的网站上找到。

6.1. 实验设置

Table 5. Training, validation, and testing splits of each dataset. Unless specified otherwise, the figures presented in this table represent the number of images of each split.

NCT-CRC-HE-100KISIC 2020ACDC
Training90,00020,869656 (slices)
Validation10,000231910 (volumes)
Testing7180 (CRC-VAL-HE-7K)993820 (volumes)
6.1.1数据集

在本次调查中,我们选择了三个医学影像数据集进行AL方法的性能评估,包括两个分类数据集和一个分割数据集。描述和数据集拆分如下,其中数据集拆分汇总表在表5.

NC T-CRC-HE-100K (凯瑟等人,2019):该数据集包含来自86张人类结直肠癌和正常组织的苏木精和伊红(H&E)染色组织学载玻片的100,000个贴片。所有贴片在0时为224×224。5μm每个像素。这些补丁被分成九类不同的组织,包括脂肪(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌症相关基质(STR)和结肠直肠腺癌上皮(TUM)。对于数据集分割,我们将数据集以9:1的比例划分为训练和验证集,并使用了与测试集相同的作者提供的附加数据集CRC-VAL-HE-7K。CRC-VAL-HE-7K与NCT-CRC-HE-共享相同的采集方案和组织类别100K但包含来自50名非NCT-CRC-HE-100K患者的7180个补丁。

ISIC 2020 (Rotemberg等人,2021年): ISIC 2020由来自2000多名患者的33,126张皮肤镜图像组成。每个图像都被医生、长期随访或组织病理学标记为良性或恶性。ISIC 2020包含32,542张良性病变图像,只有584张恶性病变图像。我们以6:1:3的比例拆分了训练、验证和测试集的数据集。

ACDC (伯纳德等人,2018):该数据集包含来自100名患者的短轴心脏电影磁共振图像。在这项调查中,我们只采用了每位患者的舒张末期框架来评估不同的AL方法,这导致了总共100次扫描。每次扫描对应于左心室(LV)、心肌(MYO)和右心室(RV)的人类注释分割掩模。我们遵循了从罗等人(2022),分别包含训练、验证和测试集中的70、10和20个扫描。由于沿𝑧-轴,与3D分割相比,2D分割更合适。因此,我们使用2D切片训练分割模型,并使用3D体积对其进行评估白等人(2017).因此,训练集由656个切片组成。

6.1.2评价指标

我们对每个数据集的任务采用了不同的评估指标。对于NCT-CRC-HE-100K的多类分类,我们采用了准确度(ACC)来评估分类性能。由于ISIC 2020的二分类任务存在严重的类不平衡,我们采用了接收器工作特征曲线下的面积(AUC)进行评估。对于ACDC的分割任务,使用了骰子相似系数(DSC)和平均表面距离(ASD)两个众所周知的指标。DCS的范围从0%(不重叠)到100%(完美分割),较低的ASD表示分割预测与地面实况之间的更好对齐。为了评估整体性能,我们提出了LV、MYO和RV的平均DSC和ASD。测试集上的评估指标被报告为最终结果。

6.1.3主动学习设置

在这项研究中,我们进行了𝑇=5轮次注释。为了研究每轮查询样本的数量(即注释预算)如何影响不同AL方法的性能,我们设置了不同级别的注释预算𝑏对于每个数据集。以下Lüth等人(2023),高(𝑏=1000)和低(𝑏=50)预算用于NCT-CRC-HE-100K和ISIC 2020的分类任务Gaillochet等人(2023b),我们采用了10片的预算(𝑏=10)用于ACDC分割。考虑到所涉及数据集的大小,分类的低预算(𝑏=50)和分割(𝑏=10)提供了一个观察不同AL方法在低数据区性能的机会。在主动学习过程开始之前,我们随机选择初始标记池来训练初始模型。初始池的大小等于注释预算。模型训练和样本选择被播种。我们用不同的随机种子运行特定预算和数据集的每种主动学习方法五次,并报告均值和方均差作为结果。

6.1.4比较方法
6.1.4比较方法

为了公平性和重现性,我们使用以下方法进行了评估:随机:主动学习的基线,它随机抽取未标记的样本。信心、熵和保证金 (刘易斯和卡特利特,1994, 乔希等人,2009, 罗斯和小,2006):这些方法都是经典的基于不确定性的AL方法,以预测概率作为不确定性得分计算置信度、熵、裕度,置信度越低、熵越高、裕度越低表示不确定性越高。DBAL (Gal等人,2017):该方法集成了熵和MC dropout以获得更好的不确定性估计。在样本选择期间,模型在所有dropout层激活的情况下多次运行,并使用所有MC dropout运行的平均概率来计算熵。秃头 (Gal等人,2017):该方法计算BALD作为不确定性分数,旨在最大化预测和模型参数之间的互信息。该方法还使用了MC dropout。核心集 (Sener和Savarese,2018):该方法使用每个样本的特征嵌入进行基于覆盖的采样。为了平衡计算时间和性能,我们使用k-Center-Greedy进行样本选择。为了研究距离度量对AL性能的影响,我们提出了一个名为“Core-Set-Cosine”的Core-Set变体,将原始L2距离替换为余弦距离。为了避免混淆,将原始Core-Set称为“Core-Set-L2”。徽章 (阿什等人,2020):该方法采用梯度作为不确定性估计,并利用k-Means++来提高多样性。具体来说,分类任务使用交叉熵损失的梯度,而分割任务使用骰子损失和交叉熵损失之和的梯度。

需要注意的是,分割中基于不确定性的方法与分类方法略有不同。具体来说,我们首先产生像素分数,然后在分割任务中利用平均分数进行样本选择。

表6.不同主动学习方法对多类病理组织分类的准确性我们用均值和均方差报告了最初标记的数据集和其他主动学习轮的测试性能。最好和第二好的结果分别用红色和蓝色加粗。

img

表7.二元皮肤病变分类的不同主动学习方法的AUC。我们报告了最初标记的数据集在ISIC 2020上的测试性能以及其他均值和均方差的主动学习轮。最佳和次优结果分别以红色和蓝色粗体显示。

img

6.1.5实施细节

分类:对于所有分类任务,我们使用ResNet-18(他等人,2016)作为主干,损失函数是交叉熵。我们使用带有动量的随机梯度下降对100个时代进行训练,批量大小为128。学习率和动量分别设置为0.01和0.9。此外,采用余弦学习率衰减以更平滑地收敛。在两个分类数据集中,输入图像的数据增强是不同的。在NCT-CRC-HE-100K中,我们只使用了随机水平翻转。对于ISIC 2020,我们遵循了来自庄等人(2018)其中包括随机裁剪、翻转、旋转、仿射变换和颜色抖动。

分段:我们使用了5级U-Net(Ronneberger等人,2015年)进行分割。编码器或解码器的每个级别都包含两个块。每个块由2D卷积、概率为0.1的dropout层、批量归一化和泄漏的ReLU激活组成。分割损失是交叉熵损失和Dice损失的组合。我们使用Adam优化器(金马和巴,2014)用于批量大小为32的4000次迭代。学习率为0.001,同时沿多项式调度的训练迭代衰减。数据增强包括随机翻转、旋转90度和旋转任意度。

在NVIDIA GeForce RTX 3090和4090 GPU上进行了实验,CUDA版本为11.3。代码使用Python(版本3.8.10)和PyTorch框架(版本1.11.0)实现。

6.2.实验结果和性能分析

6.2.1病理组织分类的主动学习结果

我们首先评估了主动学习在病理组织分类任务上的表现,测试准确度的结果显示在表6.保证金在低预算情况下表现良好。原因是这种方法利用了类似类的错误预测信息,这与胡等人(2023). BADGE在低预算场景中表现良好,主要是由于k-Means++聚类。然而,它在高预算场景中的性能下降,这可能表明当训练集和测试集之间存在分布偏移时,梯度嵌入不太适合AL。本节的结果要求更深入地研究AL方法对分布偏移的可推广性。

6.2.2皮肤病变分类的主动学习结果

我们还对ISIC 2020数据集进行了彻底的评估,该数据集对应于一个具有严重类别不平衡的二分类问题。测试拆分的AUC显示在表7.需要注意的是,置信度和保证金在二元设置中是等价的,因此我们只报告前者的结果。在低预算场景中,与基于不确定性的方法相比,Core-Set及其变体获得了更好的性能。它表明,当预算较低且任务极其困难时,representativeness-based方法或具有改进多样性的方法比基于不确定性的方法更受青睐。在所有基于不确定性的方法中,BADGE因其增强多样性的聚类操作而在某些回合中脱颖而出。对于高预算,Core-Set变体的性能仍然具有竞争力。然而,基于不确定性的方法的性能有所提高。这里的结果展示了注释预算如何影响基于不确定性和representativeness-based方法的性能,其中前者适合更高的预算,而后者适合更低的预算。

表8.用于心脏MRI分割的不同主动学习方法的平均DSC和ASD。我们用均值和均方差报告了最初标记数据集的ACDC和其他主动学习轮的测试指标。最佳和次优结果分别以红色和蓝色粗体显示。

img

6.2.3MRI心脏分割的主动学习结果

对于分割,我们在ACDC数据集上评估了不同的AL方法。我们在表8. BADGE在多轮平均DSC中取得了最好或第二好的性能。在较低预算情景的前几轮,核心集在平均DSC和ASD上都表现良好。这两种方法都在一定程度上提高了采样多样性。然而,对于后几轮,基于不确定性的方法和随机抽样在平均DSC和ASD中的性能有所提高。这一结果与上一节的发现一致。

6.2.4图像之间不同距离的有效性

距离测量在AL中起着重要作用,可能会显着影响AL算法的性能。在本节中,我们评估了AL中最流行的两个距离的性能,即L2和余弦距离。这两个距离是基于特征嵌入的。距离测量在AL中起着重要作用,可能会显着影响AL算法的性能。在本节中,我们评估了 AL中最流行的两个距离的性能,即L2和余弦距离。这两个距离是基于特征嵌入的。假设x 代表样本本身及其对应的特征嵌入是\mathbf{z}=[z_1,z_2,\ldots,z_d] ,d是特征维度。基于特征嵌 入,两幅图像之间的L2距离x^{\alpha}和x^{b}如下: \mathrm{L2}\left(x^{a},x^{b}\right)=\mathrm{L2}\left(\mathbf{z}^{a},\mathbf{z}^{b}\right)=\sqrt{\sum_{i=1}^{d}\left(z_{i}^{a}-z_{i}^{b}\right)^{2}}

而余弦距离为:

Cosine\left(x^{a},x^{b}\right)=1-\frac{\mathbf{z}^{a}\cdot\mathbf{z}^{b}}{\|\mathbf{z}^{a}\|\cdot\|\mathbf{z}^{b}\|}=1-\frac{\sum_{i=1}^{d}z_{i}^{a}z_{i}^{b}}{\sqrt{\sum_{i=1}^{d}z_{i}^{\alpha^{2}}}\sqrt{\sum_{i=1}^{d}z_{i}^{b^{2}}}}

为了进行实验,我们将Core Set中的L2距离替换为余弦距离。

Core-Set-L2和Core-Set-Cosine之间的性能比较说明于 图6. NCT-CRC-HE-100K数据集的结果显示,所有预算级别的L2和余弦距离之间没有显着差异。在ISIC 2020中,L2距离在早期轮次中趋于更好,表明其能够快速启动模型,而当预算较高时,Core-Set-Cosine显着优于Core-Set-L2。在ACDC数据集上,Core-Set-L2在早期轮次中也优于Core-Set-Cosine, 但选择更多样本后的性能相似。这些结果表明,距离度量在医学图像分析中使用的AL方法的性能中起着重要作用,应根据目标任务和预算仔细选择它们。一般来说,L2距离更适合低预算场暴,而当预算较高时,余弦距离可能是更好的选择。

img

图6. 所有三个数据集上L2和余弦距离之间的性能比较。我们使用Core-Set作为基本AL方法。

7. 课题与未来展望

目前,标注稀缺性是阻碍医学图像分析发展的显著瓶颈。AL通过选择性地查询信息最多的样本进行标注,从而提高标注效率。本调查回顾了深度主动学习的最新发展,重点关注信息量的评估、采样策略、与其他标签高效技术的集成以及AL在医学图像分析中的应用。在本节中,我们将讨论AL在医学图像分析中面临的现有挑战及其未来展望。

7.1. 走向具有更好不确定性的主动学习

在AL中,不确定性起着关键作用。然而,如果不确定性更直接地突出了模型的错误,那将是有益的。我们可以通过查询具有不准确预测的样本来提高模型的性能。

最近,许多工作都采用可学习的性能估计来进行深度模型输出的质量控制。例如,最近提出的分段任何模型(SAM)(Kirillov等人,2023年)为每个掩模提供IoU估计以评估其质量。在医学图像分析中,自动化质量控制对于确保深度模型输出的可靠性和安全性至关重要(科尔伯格等人,2012)。例如,王等人。(2020d)在心脏MRI分割中采用深度生成模型进行可学习的质量控制,其中预测的骰子分数与真实分数显示出很强的线性关系。此外,Billot等人(2023)使用额外的神经网络来预测脑组织分割结果的骰子系数。总体而言,可学习性能估计可以准确预测模型输出的质量。因此,深入研究它们基于不确定性的AL的潜力对于有效解决过度自信问题至关重要。

此外,改进模型预测的概率校准是缓解过度置信度问题的有希望的方法。校准(郭等人,2017, 多灰等,2020)反映了模型预测概率和地面实况之间的一致性。一个校准良好的模型应该显示出置信度和准确性之间的强相关性。例如,如果一个完美校准的息肉分类器在数据集上给出了0.9的平均置信度分数,这意味着90%的这些样本确实应该有息肉。在现实中,深度模型普遍存在过度置信度的问题,这本质上意味着它们没有得到很好的校准。目前,只有少数基于不确定性的AL作品考虑了概率校准。例如,Beluch等人(2018)发现模型集成比MC Dropout具有更好的标定。谢等人。(2023a)通过考虑狄利克雷分布中所有可能的预测结果来减轻校准错误。然而,这些方法仅限于提出更好的不确定性度量和事后验证校准质量。现有的校准方法(郭等人,2017, 丁等人,2021)直接调整了预测概率的分布。然而,这些方法需要额外的标记数据集,从而限制了它们的实际适用性。因此,将概率校准集成到基于不确定性的AL中代表了一个值得探索的有价值的研究方向。

在第3节中提到的所有方法中3.1,基于对抗的不确定性目前在医学图像分析的AL中应用有限。由于对抗样本倾向于接近分类边界,它们可以被视为不确定样本,选择它们进行训练可以潜在地提高训练模型的鲁棒性。在医学图像分析中探索这种想法,特别是在联邦学习场景中,可能是未来工作的一个有趣话题。

7.2. 迈向更具代表性的主动学习

Representativeness-basedAL有效地利用特征表示和数据分布进行样本选择。基于覆盖和基于差异的AL方法隐式捕获数据分布,而基于密度的AL显式估计。然而,后者需要补充策略来确保多样性。对于基于差异的AL,我们可以选择两个概率分布之间距离的更好度量(赵等,2022)。此外,基于差异的人工智能目前在医学图像分析中的应用有限。考虑到医学图像的特殊性,为医学图像寻找合适的度量标准可能是人工智能在医学成像领域未来发展的一个有希望的方向。

作为基于密度的AL的核心,高维空间中的密度估计一直具有挑战性,流行的密度估计方法,如核密度估计和GMM,在应用于高维空间时可能会遇到挑战,在未来的研究中,我们可以考虑引入为高维空间量身定制的密度估计器,如归一化流(Papamakarios等人,2021年)可能是高维空间密度估计的合适选择。

7.3. 走向弱注释的主动学习

在部分4.3,我们讨论了基于区域的主动学习,它只需要对样本进行区域级的注释。然而,仍然需要对区域内的所有像素进行注释。一些现有的作品已经将弱注释与AL结合起来,以简化注释器的任务。在目标检测任务中,Vo等人。(2022)使用图像级注释训练深度模型。他们选择了具有框中框预测结果的样本,并用边界框对其进行注释。此外,Lyu等人(2023)采用分歧来选择哪些对象值得注释。不是注释图像中的所有对象,而是只需要对象子集的框级注释。在实例分割的AL中,唐等人。(2022a)只需要对每个对象的类标签和边界框进行注释,没有细粒度分割掩码的注释。在未来的研究中,基于弱注释的AL是一个值得深入探索的方向。

7.4. 通过更好的生成模型实现主动学习

在部分4.4,我们总结了生成模型在AL中的应用。然而,现有的工作主要集中在使用GAN作为样本生成器。最近,扩散模型(Kazerouni等人,2023年)在实现最先进的生成质量方面取得了进步。此外,以稳定扩散(Rombach等人,2022年),彻底改变了图像生成领域。他们的高质量、文本引导的生成结果能够实现更灵活的图像生成。通过使用ControlNet(张等人,2023a),扩散模型可以学习遵循更详细的条件,如草图或分割掩模。探索深度AL中扩散模型的潜力是未来研究的一个有希望的途径。

7.5. 通过基础模型实现主动学习

随着视觉基础模型的兴起,例如对比语言-图像预训练(CLIP)(拉德福德等人,2021年)和山姆(Kirillov等人,2023年)和大型语言模型(LLM),如GPT-4(OpenAI,2023年),医学图像分析和计算机视觉中的深度学习正在经历范式转变。这些基础模型(Bommasani等人,2021年)为艾尔的发展提供了新的机遇。

AL与计算机视觉和医学图像分析深度学习中的训练范式密切相关。从从头开始训练的初始方法到使用监督或自监督预训练模型的“预训练-微调”策略,这些范式通常需要对整个网络进行微调。基础模型包含丰富的知识。当与最近出现的参数有效微调(PEFT)或快速调整技术(胡等,2022年, 贾等人,2022年),我们只能调整模型权重的最小子集(例如,5%)以快速转移到下游任务。随着微调参数数量的减少,AL有可能进一步减少所需注释样本的数量。白等人(2023)在肝脏肿瘤分割中集成了快速调整与AL。在公开可用数据集上训练的分割模型通过新型提示更新器转移到内部数据集。通过不确定性和多样性的混合AL策略,所提出的方法使用大约5%的样本和6%的可调参数达到了完全监督调整的可比性能。因此,有必要研究现有AL在PEFT或快速调整下的适用性,并探索最适合PEFT的AL策略。

在自然语言处理中,LLM已经占据了主导地位。由于大多数研究者无法对LLM进行调谐,他们依赖于上下文学习,这为LLM提供了有限的示例来转移到下游任务。我们相信视觉上下文学习将在未来的研究中发挥至关重要的作用。因此,选择最合适的提示进行视觉上下文学习将成为AL的一个重要研究方向。

8. 结论

主动学习对医学图像分析中的深度学习很重要,因为它有效地降低了人类专家产生的注释成本。本次调查全面回顾了深度主动学习中的核心方法,其与不同标签高效技术的集成,以及为医学图像分析量身定制的主动学习工作。本次调查还通过实验对不同的医学影像数据集和任务进行了性能分析。我们进一步讨论了其当前面临的挑战和未来的前景。综上所述,我们认为深度主动学习及其在医学图像分析中的应用具有重要的学术价值和临床潜力,具有充足的进一步发展空间。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zomnlin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值