深度主动学习综述（Deep Active Learning）

最新推荐文章于 2024-09-03 09:05:42 发布

静候：花开

最新推荐文章于 2024-09-03 09:05:42 发布

阅读量6.3k

点赞数 8

原文

Abstract

主动学习试图通过标记最少量的样本使得模型的性能收益最大化。而深度学习则对数据比较贪婪，需要大量的数据供给来优化海量的参数，从而使得模型学会如何提取高质量的特征。近年来，由于互联网技术的快速发展，使得我们处在一个信息洪流的时代，我们拥有海量的未标记数据。借此，深度学习引起了研究人员的强烈兴趣，并且得到了快速的发展。和深度学习（deep learning，DL）相比，研究人员对于主动学习（AL）的研究兴趣相对较低。这主要是由于在深度学习兴起之前，传统的机器学习所需要的标注样本相对较少。因此，早期的主动学习很难体现出应有的价值。尽管深度学习已经在各个领域取得了突破性进展，但是这绝大部分的成功都要归功于现有的大量标注数据集的公开。然而，大量高质量的标注数据集的获取需要消耗大量的人力，在一些需要很高专业知识的领域这是不被允许的，尤其是在语音识别、信息提取、医学图像等领域。因此，主动学习逐渐受到了应有的重视。
一种很自然的想法是能否使用主动学习来减少样本标注的成本，同时保留深度学习强大的学习能力。因此，深度主动学习出现了。尽管相关的研究已经相当的丰富，但是缺乏一个对深度主动学习全面的survey。本文正是要填补这项空白，我们为现有的工作提供了一个形式上统一的分类方法，并进行一个全面系统的概述。此外，我们还从应用的角度对DAL的发展进行了分析和总结。最后，我们对DAL中存在的困惑、问题进行了讨论，并给出了一些DAL可能的发展方向。

1. Introduction

在机器学习社区中深度学习和主动学习都有着重要的应用。他们凭借着各自优异的特性吸引了大量研究人员的兴趣。具体来说，DL已经在各种具有挑战性的任务上取得了前所未有的突破，但这很大程度上归功于海量标注数据集的公开。因此，DL在一些需要丰富知识的专业领域受限于高昂的样本标注代价。另一方面，从理论上讲，有效的AL算法可以实现在标注工作效率方面的指数级加速。这种巨大的标注代价节省潜力令人着迷。此外，经典的AL算法也存在难以处理高维数据的困境。因此，这种明显互补的优势使得DL与AL的结合DAL被研究人员给予厚望。深度主动学习已经被广泛的应用在了各个领域，例如图像识别，目标检测等。尽管相关的工作已经相当的丰富，但是深度主动学习仍然缺乏一个统一的分类框架。为了填补这项空白，在本文中我们将对现有的深度主动学习的相关工作做一个全面的概述，并提供一个形式化的分类方法。接下来，我们将首先简要的回顾深度学习与主动学习在各自领域中的发展现状。然后，在Section 3中进一步给出DL与AL结合必要性和所面临的挑战。

1.1 deep learning

DL试图通过模拟人脑的结构来建立合适的模型。1943年提出的（McCulloch-Pitts）模型被认为是现代数字图书馆的开端。随后，在1986反向传播引入到神经网络的优化中，为后续的DL快速发展奠定了基础。同年，递归神经网络（RNNs）首次被提出。1998年，LeNet网络首次出现，代表了深度神经网络（DNN）最早的应用之一。然而，这些开创性的早期工作受到当时可用计算资源的限制，没有得到应有的重视和调查。2006年，深度信念网络（DBNs）被提出并用于探索更广泛的网络，这促使神经网络被命名为DL。2012年，在ImageNet比赛中，DL模型AlexNet一举夺得冠军。AlexNet使用ReLU激活函数有效地抑制了梯度消失问题，而多gpu的使用大大提高了模型的训练速度。随后，DL开始在各种比赛中赢得冠军，并在各项任务中不断刷新纪录。从自动化的角度来看，DL的出现改变了机器学习中特征的手动设计，可以很方便的自动提取。正是由于这种强大的自动特征提取能力，DL在许多领域显示出前所未有的优势。经过几十年的发展，DL领域的相关研究工作相当丰富。在图1a中，我们展示了一个标准的深度学习模型示例：卷积神经网络（CNN）。在此基础上，将相似的cnn应用到各种图像处理任务中。此外，RNN和生成性对抗网络（GAN）也被广泛使用。从2017年开始，DL逐渐从最初的特征提取自动化转向模型体系结构设计的自动化；然而，这仍有很长的路要走。近年来，由于大量现有注释数据集的出版，DL在机器翻译、语音识别、图像分类等多个领域取得了突破。然而，这是以大量手动标记的数据集为代价的，并且DL对数据有很强的贪婪属性。虽然在现实世界中，获取大量未标记的数据集相对简单，但手动标记数据集的成本很高；对于那些需要高度专业知识的字段，这一点尤为明显。例如，COVID-19患者肺部病变图像的标记和描述需要有经验的临床医生来完成，而要求这样的专业人员完成大量的医学图像标记显然是不切实际的。类似领域还包括语音识别、医学影像学、推荐系统、信息提取、卫星遥感和机器人学等，因此迫切需要一种在注释少量样本时最大化模型性能增益的方法。
在这里插入图片描述
(a)一个常见的深度学习model：卷积神经网络
(b)基于池的主动学习周期：使用查询策略在无标记池U中查询样本交给检测器进行标注，然后将查询的样本添加到标记训练数据集L中继续训练，接着使用新学习的知识进行下一轮查询。重复这个过程，直到标注预算被耗尽或者达到预先设定的终止条件。
©深度主动学习的典型例子: 深度学习model的参数θ在初始化标签训练集L0上进行初始化或者预训练，无标记池U的样本通过深度学习model提取特征。然后基于相应的查询策略挑选样本，并在oracle中查询标签，形成新的标签训练集，接着在L上训练深度学习model，同时更新。重复这个过程，直到标注预算被耗尽或者达到预先设定的终止条件。

1.2 active learning

AL就是这样一种方法。它的目的是从未标记的数据集中选出最有用的样本，交给oracle（如人工注释器）进行标注，从而在保持性能的同时尽可能降低标注成本。根据应用场景，AL方法可分为成员查询综合、基于流的选择性抽样和基于池的AL。成员查询合成是指学习者可以请求查询输入空间中任何未标记样本的标签，包括学习者生成的样本。此外，基于流的选择性抽样和基于池的抽样的关键区别在于，前者独立判断数据流中的每个样本是否需要查询未标记样本的标签，而后者则根据整个数据集的评价和排序来选择最佳查询样本。虽然基于池的场景在本文的应用中似乎更为常见，显然，基于流的选择性采样的应用场景更适合于涉及小型移动设备的场景，在这些场景中需要实时性。在图1b中，我们展示了基于池的主动学习循环的框架图。在初始状态下，我们可以从未标记的数据池中随机选择一个或多个样本，将该样本交给oracle查询标签，得到带标签的数据集L，然后利用监督学习对模型进行训练。接下来，我们利用这些新知识选择下一个要查询的样本，将新查询到的样本添加到L中，然后进行训练。重复此过程，直到用完标签预算或达到预定义的终止条件。它不同于DL，它采用人工或自动的方法来设计具有高性能特征提取能力的模型。AL从数据集入手，主要通过设计详细的查询规则，从未标记的数据集中选择最佳样本并查询其标签，以最大限度地降低标注成本。因此，查询规则的设计对AL方法的性能至关重要。相关研究也相当丰富。例如，在一组给定的未标记数据集中，主要的查询策略包括基于不确定性的方法，基于多样性的方法和预期的模型变化。此外，许多研究者还研究了混合查询策略，考虑到查询样本的不确定性和多样性，并试图在这两种策略之间找到平衡点。由于基于不确定度的单独采样通常会导致采样偏差，当前选择的样本不能代表未标记数据集的分布。另一方面，只考虑促进抽样多样性的策略可能会导致标签成本的增加，因此可能会选择大量信息含量较低的样本。更多经典的查询策略在中进行了研究。尽管已有大量与人工智能相关的研究，但人工智能仍然面临着向高维数据（如图像、文本和视频等）扩展的问题；因此，大多数人工智能的工作往往集中在低维问题上。此外，AL经常根据预先提取的特征查询高值样本，不具备特征提取能力。

2. DL与AL结合的必要性与挑战

DL在高维数据处理和自动特征提取方面具有很强的学习能力，而AL在有效降低标注成本方面具有显著的潜力。因此，一个明显的方法是将DL和AL结合起来，因为这将极大地扩展它们的应用潜力。这种联合方法被称为DAL，是考虑到这两种方法的互补优势而提出的，研究人员对这一领域的研究结果有很高的期望。然而，尽管AL对查询策略的相关研究已经相当丰富，但是将其直接应用到DL中仍然相当困难。这主要是由于：

标签样本的数据不足。AL通常依赖于少量的标记样本数据来学习和更新模型，而DL通常非常贪婪数据。传统的AL方法提供的训练样本不足以支持传统DL的训练。此外，AL中常用的逐个样本查询方法也不适用于DL上下文。
模型不确定性。基于不确定性的查询策略是人工智能研究的一个重要方向。在分类任务中，虽然DL可以使用softmax层来获得标签上的概率分布，但事实表明他们过于自信。因此，随机响应比这个随机抽样的结果更不可靠。
处理管道不一致。AL和DL的处理管道不一致。大多数人工智能算法主要集中在分类器的训练上，所使用的各种查询策略大多基于固定的特征表示。然而，在DL中，特征学习和分类器训练是联合优化的。因此，只有在AL框架中对DL模型进行微调，或者将它们作为两个独立的问题来处理，可能会导致不同的问题。

图2。两种批查询策略的比较图，一种只考虑信息量，另一种同时考虑信息量和多样性。点的大小表示样本中的信息量，而点之间的距离表示样本之间的相似度。灰色的点表示要在批中查询的采样点。

为了解决第一个问题，研究人员考虑使用生成网络进行数据扩充或者为高置信度样本分配伪标签，以扩展标记的训练集。一些研究人员还使用了标记和未标记的数据集来结合AL周期的监督和半监督训练。另外，以往基于启发式的AL查询策略在DL中已经被证明是无效的，因此对于经典AL中的逐个查询策略，很多研究者都把注意力集中在批量样本查询策略的改进上，同时考虑信息量和批量样品的多样性。为了解决DL中忽略模型不确定性的问题，一些研究者将Bayesian deep learnin应用于AL上下文中查询较少的高维小批量样本，有效地缓解了DL模型对输出结果过于自信的问题。此外，为了解决流水线不一致问题，研究人员考虑修改AL和DL的组合框架，使所提出的DAL模型尽可能通用，这种方法可以扩展到各个应用领域。这对DAL的推广具有重要意义。例如，在DL中嵌入了AL的思想，因此提出了一种任务无关的体系结构设计。我们将在第3节详细讨论和总结DAL中使用的各种策略。

3. 深度主动学习

在这一部分，我们将提供一个全面和系统的概述有关的工作。图1c显示出了DAL模型架构的典型示例。深度学习模型的参数θ被初始化或预先训练在标签训练集L0上，而未标记样本池U的样本则被用来通过深度学习模型提取特征。接下来的步骤是根据相应的查询策略选择样本，在oracle中查询标签，形成新的标签训练集L，同时在L上训练深度学习模型。重复此过程，直到用完标签预算或达到预定义的终止条件。
从图1c中的DAL框架示例中，我们可以将DAL框架大致分为两部分：即对未标记数据集的AL查询策略和DL模型训练方法。以下第3.1节和第3.2节将分别对此进行讨论和总结。最后，我们将在第3.3节讨论DAL在模型推广方面所做的努力。

3.1 DAL中的查询策略优化

在这里插入图片描述
3.1.1批次模式DAL（BMDAL）。DAL与经典AL的主要区别在于DAL

DAL与经典AL的主要区别在于DAL采用的是基于batch的样本查询方式。在传统的AL中大部分算法采用 one by one 的方式进行查询，这导致学习模型被频繁训练，而训练数据却几乎没有变化。这种查询方式得到的训练集在DL模型的训练中不仅低效且极易引起过拟合。因此，BMDAL的研究是必要的。在BMDAL的语境中，在每一个获取步骤，我们依据所使用的获取函数以及在上训练过的深度模型对候选的未标记数据样本的batch进行评分, 从而选择一批新的数据样本，这个问题可以被表述为：
一个天真的想法是基于one-by-one的策略，连续查询一个批次的样本。例如，A采用批量获取的方法，选择查询BALD获取分数最高的前个样本。显然，这种方法是不可行的，因为这极有可能选择一组信息丰富但却相似的样本。类似的样本为模型提供的信息基本上是相同的，这不仅浪费标注资源，模型也很难真正学到有用的信息。因此，BMDAL的核心在于查询一组信息丰富且多样的样本。Fig.2展示了这种想法的一个示意图。
基于batch查询策略构成了AL与DL相结合的基础，相关的研究也非常的丰富。我们将在下面几个小节中对BMDAL上的查询策略进行详细的概述与讨论

3.1.2基于不确定性的混合查询策略

由于基于不确定性的方法形式简单且较低的计算复杂度，它是AL中是非常受欢迎的一种查询策略。这种查询策略主要用在一些浅层的模型（如，SVM或KNN）当中，这主要是由于这种模型的不确定性可以通过传统的不确定性采样方法（Margin Sampling, Least Confidence and Entropy ）进行准确测量。
有很多DAL方法直接采用了这种基于不确定性的采样策略，但是，正如3.1.1所分析的那样这很容易导致批查询样本的多样性不足（没有充分利用数据分布的相关知识），进而导致DL模型训练性能低下甚至失效。一种可行的策略是在一个批查询中采用混合查询策略，以显式或者隐式的方式同时考虑样本的信息量、多样性或者表示形式。
早期的Batch Mode Active Learning (BMAL)算法性能往往过于依赖样本之间相似性的度量。此外，这些算法往往仅善于利用（学习者倾向于仅关注当前决策边界附近的样本，对应于高信息量的查询策略），导致查询到的批量样本集中的样本无法代表特征空间的真实数据分布（批量样本集的多样性不足）。基于这个观察，A使用深度神经网络来学习样本的特征表示，并显式的计算样本之间的相似性。同时平衡利用和探索（在模型训练初期学习者采用随机采样的策略来进行探索）进程，从而更为准确的测量样本之间的相似度。
另一方面, DBAL通过将信息量以权重的方式添加到K-means的优化目标中，深入研究了在mini-batch的样本查询设置下同时考虑样本信息量与多样性的混合查询策略。DBAL可以方便的完成从广义线性模型到DL的拓展，不仅增加了DBAL的可拓展性且增加了小批量主动查询样本的多样性。这种混合查询策略是相当流行的，例如，WI-DL 主要考虑深度信念网络（DBN）的两个阶段，在无监督特征学习阶段主要考虑数据的代表性，而在监督微调阶段来兼顾数据的不确定性，然后将两个指标进行整合，最后使用提出的weighted incremental dictionary learning （WI-DL）算法进行优化。
尽管上述改进已经取得了不错的性能，但是仍然存在一个待解的隐患。事实上，基于多样性的策略并非对于任何数据集都是合适的。数据集的类别内容越丰富批处理的大小越大，基于多样性的方法效果就越好。反之，使用基于不确定性的查询策略表现效果则相对更好。这些特性取决于数据集的统计特性，而在BMAL中数据往往是不熟悉的且可能是无组织的。因此，无法知道具体哪种AL查询策略更加合适。基于此，Batch Active learning by Diverse Gradient Embeddings (BADGE)对在幻觉梯度空间中表示时不同且大小的点组进行采样，从而在一个批次中同时考虑模型的预测不确定性和样本的多样性。最重要的是，BADGE可以实现在预测不确定性和样本多样性之间的自动平衡，而不需要手动的超参数调整。不同于BADGE以一种隐式的方式来考虑这种混合查询策略，
Wasserstein Adversarial Active Learning (WAAL) 提出了一种在不确定性和多样性之间显式的折中的混合查询策略。此外，WAAL通过采用Wasserstein距离，将AL中的交互过程建模为分布匹配，并从中得出损失，进而将WAAL分解为两个阶段：DNN参数优化与查询批次选择。
TA-VAAL（2020）也探索这种混合查询策略的平衡。TA-VAAL认为基于不确定性的方法没有很好的利用整体的数据分布，而基于数据分布的方法往往忽视了任务中的结构。因此，TA-VAAL提出将损失预测模块和RankCGAN概念整合到变分对抗主动学习（VAAL）中，以便同时考虑数据分布和模型的不确定性。TA-VAAL在各种平衡和不平衡的基准数据集上都取得了很好的性能。TA-VAAL与VAAL的结构图被展示在图6。实际上，尽管混合查询策略表现出更为优异的性能。但相比之下由于基于不确定性的AL查询策略与DL的softmax层的输出结合更为方便，因此，基于不确定性的查询策略仍然被广泛使用。

3.1.3 深度贝叶斯主动学习（DBAL）
对于给定的新的数据点, 通过以下方式进行预测：DBAL将贝叶斯卷积神经网络同AL方法进行结合，使BALD适应了深度学习环境，从而为高维数据开发了一个新的AL框架。它正是采用上述方法首先对CNN权重将进行了高斯先验建模，然后使用变分推断来获得网络预测的后验分布。此外，在实践当中，研究人员往往也使用一种功能强大成本低廉的Monte随机正则化技术来获得后验样本，并在真实数据集上有着很好的表现。并且，这种正则化技术已被证明等价于变分推理。
但是，A core-set approach 指出DBAL由于需要批量采样的存在，并不适合大型数据集。需要指出的是，DBAL为了获得更好的置信度估计允许在测试时使用dropout，但在Discriminative Active Learning的分析认为该方法的性能与使用神经网络的softmax分数作为不确定性采样的性能相似。这需要引起警惕。
此外，A指出基于不确定性的DBAL方法可能会受到对抗性示例的愚弄，一个微小的扰动可能会导致不可接受的性能损失。DEBAL认为在变分推断方法中的模式崩溃现象导致了DBAL方法的过度自信的预测。为此，DEBAL通过将集成方法的表达能力与MC-dropout相结合在没有交易代表性的情况下获得更好的不确定性。
另一方面，BatchBALD则选择拓展BALD到批量查询，不再计算单个样本与模型参数之间的互信息，而是重新计算了批量样本与模型参数之间的互信息来共同对批量的样本进行评分。因此BatchBALD可以更为准确的评估共同互信息。
受到有关贝叶斯核心集最新研究的启发，ACS-FW重新构建了批处理结构，以优化对整个数据集引起的对数后验的稀疏子集近似。ACS-FW通过使用这种相似性，同时使用Frank-Wolfe算法大规模启用有效的贝叶斯AL，并且使用随机投影使得ACS-FW得到了进一步的推广。ACS-FW和其他查询策略相比查询的样本在整个数据流行上拥有更好的覆盖。
DPEs则引入了一种可拓展的深度概率集合技术，它使用正则化的集合来逼近深度BNN，并在一系列大规模的视觉AL实验来评估DPEs的分类效果。
ActiveLink也是受到贝叶斯深度学习最新进展的启发。它对现有的神经链接预测因子采取贝叶斯的观点，通过利用知识图的基础结构拓展了不确定性采样的方法，从而实现了一个新颖的深度主动学习方法。并且ActiveLink注意到尽管AL可以采样高效的样本，但在AL的过程中每次迭代都需要从头开始重新训练模型，这对DL模型的训练是不可接受的。一个直接的解决方案是使用新选择的数据增量地训练模型，或者将它与现有的训练数据结合起来。但这会导致模型要么偏向少量新选择的数据，要么偏向于过程早期选择的数据。为了解决这种偏差问题，ActiveLink采用了一种基于元学习的有原则的无偏差增量训练方法。即，在每次AL迭代中，ActiveLink使用新选择的样本更新模型参数，并通过基于前一次迭代中选择的样本对模型进行泛化来逼近模型的未来预测的元目标。这使得ActiveLink可以在新选择的数据和之前选择的数据的重要性之间取得平衡，从而实现对模型参数的无偏估计。
除了上述DBAL工作外，由于BNN较少的参数量以及与传统AL相似的不确定性采样策略，使得DBAL的研究相当的广泛，相关的DBAL工作还有很多。
3.1.4基于密度的方法
基于密度的方法主要是指从集合（核心集）的角度来考察样本的选择。核心集的构建正是这样一种具有代表性的查询策略。这种想法主要受到核心集数据集压缩思想的启发，试图使用核心集来代表整个原始数据集的特征空间的分布，从而降低AL的标注成本。Farthest First Active Learning (FF-Active) 正是基于这种想法使用表示层上神经激活空间中的最远优先遍历从池中查询连续点。值得一提的是，FF-Active与Exploration-P 类似在AL的早期阶段使用随机查询的方法增强AL的探索能力，从而避免AL陷入batch样本多样性不足的陷阱。
类似的为了解决批量查询中的采样偏差问题，增加批量查询样本的多样性。Core-set approach 尝试采用构建核心子集的方法来解决此问题。并进一步通过解决K中心问题来构建核心子集，使得在已选的核心集上学习的模型与其余数据相比更有竞争力。但由于Core-set approach需要在未标记的数据集上构建一个较大的距离矩阵，因此这个搜索过程在计算上相当的昂贵。并且这种劣势在大规模的未标记数据集上将变得更加明显。\cite{Du2019BuildinganActivePalmprintRecognitionSystem}将DAL应用于高维且复杂的掌纹识别数据上。与核心集的思想类似，将AL视为一个二分类任务，期待标注样本集与未标注样本集拥有相同的数据分布并使得二者难以区分，即试图找到与原始数据集具有相同分布的核心标记子集。具体来说，由于启发式的生成模型模拟数据分布难以训练且不适合掌纹这种高维复杂的数据。因此作者考虑判断样本是否能被高度肯定的区分来自于未标注数据集还是标注数据集。那些可以被明确区分的样本明显与核心标注子集的数据分布有着显著的差异，这些样本将被的添加到标注数据集中，进行下一轮的训练。
先前的基于核心集的方法往往只是尝试查询的数据点尽可能的覆盖所有点的数据流行而没有考虑密度，导致查询到的数据点过度代表来自流行稀疏区域的样本点。与类似\cite{Du2019BuildinganActivePalmprintRecognitionSystem} ，Discriminative Active Learning (DAL) 也将主动学习是一个二元分类任务，试图使查询的标记数据集与未标记数据集无法区分。DAL突出的是它可以按照密度成比例的从未标记数据集中进行采样，而不会偏向位于稀疏流行域的样本点。并且DAL提出的方法并不局限于分类任务在概念上易于转移到其他新的任务上。
除了相应的查询策略外，一些研究者也考虑了批量查询大小对查询性能的影响，例如，\cite{BatchBALD2019，Zhdanov2019Diverseminibatch，Ash2019DeepBatchActive，Pinsler2019Bayesian}主要研究了较小批量下查询策略的优化，而\cite{Chitta2019Training}建议扩大AL的查询规模进行大规模采样（一次采样10k或500k）。并通过集成了数百个模型并重用中间检查点方式用较小的计算代价高效的实现了在大规模标记数据集上的训练数据分布式搜索。\cite{Chitta2019Training}也证明了使用整个数据集进行训练的性能并不是性能的上限，基于子集的AL可能有更好的性能。
基于密度的方法主要从数据分布的角度来考虑核心子集的选择，相关的研究方法相对较少，它为样本的查询提供了一种新的可能。

3.1.5 其他方法

还有一些研究不像以上查询方法那样如此集中，我们将它们总结在下面。
A将启发式的AL算法重新定义为强化学习问题，通过明确的选择策略来引入一个新的描述。
与先前的大多数基于不确定性的方法不同，DFAL \cite{Ducoffe2018Adversarial} 认为这些方法容易受到对抗性示例的愚弄，因此DFAL将重点放在决策边界附近示例的研究。并主动利用这些对抗性示例在输入空间分布上提供的信息来近似它们到决策边界的距离，这种对抗性查询策略可以有效提高训练CNN的收敛速度。
另一方面，AL旨在利用数据的相对重要性标注尽可能少的的数据高效的训练一个性能符合要求的模型。因此，数据集本身的属性对DAL的性能也有着重要的影响。为此，GA研究了常见数据集中图像数据的相对重要性，提出了一种通用的数据分析工具，可以帮助我们更好的了解数据集中训练示例的多样性。GA发现并非所有的数据集都可以在一个小的子样本集上完成训练，因为一些数据集中的样本重要性的相对差异几乎可以被忽略。因此，在AL中盲目的使用较小的子数据集也是不可取的。
\cite{Beluch2018PowerEnsemblesActive}发现与MC-dropout和基于密度的方法相比，基于集合的AL可以在获取过程中有效的抵消数据集中的类别不平衡，导致更多的校准预测不确定性，从而获得更好的性能。
一些研究者也注意到在传统的AL工作流程中往往将获取函数视为固定的已知的先验，而这种获取函数是否合适，只有等标记预算被消耗殆尽才能进行观察。这导致无法对获取函数进行灵活快速的调优。因此使用强化学习对获取函数进行动态调优或许是一个不错的选择。
RAL提出选择将BNN作为获取函数的学习预测器。然后，BNN预测器提供的所有概率信息会被合并从而得到一个全面的概率分布，接着概率分布被送到一个BNN概率策略网络，该网络在每个标记回合中基于oracle的反馈进行强化学习。这种反馈会对采集函数进行微调从而不断改善获取函数的质量。在Fig4中展示了传统AL与RAL的管道对比。
在这里插入图片描述
标准的AL，RAL and DRAL的管道对比。(a)标准的AL管道通常由三个部分组成。Oracle提供一组标记数据，预测器（此处为BNN）用来学习这些数据，并为指南提供了可预测的不确定性，该指南通常是固定的，硬编码的获取函数，它为Oracle挑选下一个样本从而重新开始循环。（b）RAL用策略BNN代替固定获取函数，该策略BNN以概率状态进行学习，并从oracle获得反馈，以强化学习的方式学习如何选择下一个最优的样本点（红色的新部分）。因此，RAL可以更加灵活地调整获取函数以适应现有的数据集。（c）DRAL为person Re-ID任务设计了一个深度强化主动学习框架。对于每个查询锚点（探针），代理（增强型主动学习者）将在主动学习过程中从图库池中选择实例交给oracle以获得带有二进制反馈（正/负）的人工注释。状态评估所有实例之间的相似关系，根据oracle的反馈计算奖励从而调整代理的查询。

DRAL采用了类似的想法，为person Re-ID任务设计了一个深度强化主动学习框架。DRAL使用强化学习的思想对获取函数进行动态的调整，从而获得高质量的查询样本。
另一方面，Active-iNAS注意到先前的大多数DAL方法都假定已经为当前的任务设计合适的DL模型，从而主要集中在研究如何设计有效的查询机制上。而事实上已有的DL模型对当前的DAL任务并不一定是最优的。为此Active-iNAS对这一假设发起挑战，在进行主动学习的同时使用神经架构搜索技术（NAS）动态地搜索有效的模型架构。
还有一些工作致力于为DAL提供一个方便性能对比的平台。\cite{Munjal2020Towards}对DAL方法的鲁棒性和可复现性进行了详细的探讨和研究，并给出了许多有用的建议。
总的来说，这些查询策略并非相互独立，而是相互联系的。基于Batch的BMDAL为AL查询的样本在DL模型上的更新训练提供了基础。尽管DAL中的查询策略丰富且复杂，但它们大都是为了在BMDAL中兼顾查询批次的多样性与不确定性。而先前基于不确定性的方法往往忽视batch中的多样性，因此，这些方法大致可以被归为两类。它们要么在输入或学习表示空间中设计明确鼓励批次多样性的机制，要么直接测量整个批次的互信息(MI)。

3.2 DAL中的数据不足

AL通常只需要少量的标记样本数据来实现学习和模型更新，而DL则需要大量的标记数据来进行有效的训练。因此，AL和DL的结合要求尽可能多地使用数据策略，而不消耗太多的人力资源来实现DAL模型训练。大多数以前的DAL方法通常只对查询策略所采样的标记样本集进行训练。然而，这忽略了现有未标记数据集的存在，这意味着相应的数据扩展和训练策略没有得到充分利用。这些策略有助于改善DAL训练中标记数据不足的问题，而不增加人工标记成本。因此，对这些策略的研究也是相当有意义的。例如，CEAL通过为模型预测中的高置信度样本分配伪标签，以及通过查询策略采样的标记数据集来丰富训练集。这个扩展的训练集也被用于DL模型的训练。该策略如图4所示。
在这里插入图片描述
图4。CEAL将未标记数据集中的样本逐步输入初始化的CNN，然后CNN分类器输出两类样本：少量不确定样本和大量具有高预测置信度的样本。通过oracle对少量不确定样本进行标记，并利用CNN分类器对大量高预测置信度样本进行伪标记。然后使用这两种类型的样本对CNN进行微调，并重复更新过程。

另一个非常流行的策略是对有标记和未标记的数据集进行无监督训练，并结合其他策略来训练整个网络结构。例如，WI-DL[99]指出，完整的DBN训练需要大量的训练样本，在AL环境下，将DBN应用于有限的训练集是不切实际的。因此，为了提高DBN的训练效率，WI-DL结合了对所有数据集的无监督特征学习和对标记数据集进行有监督的微调。同时，也有研究者考虑使用生成性对抗网络（Generative atteriral Networks，GAN）进行数据扩充。例如，GAAL首次将产生式对抗网络（Generative atrial Network，GAN）引入AL查询方法。GAAL的目标是使用生成性学习来生成比原始数据集更多的信息的样本。然而，随机数据扩充并不保证生成的样本将比原始数据中包含的信息更多，因此可能会浪费计算资源。因此，BGADL扩展了GAAL[187]的思想，提出了一种贝叶斯生成式主动深度学习方法。更具体地说，BGADL结合了生成性对抗性主动学习（GAAL）、贝叶斯数据扩充[163]、辅助分类器生成对抗网络（ACGAN）和变分自动编码器（V AE）[83]方法，目的是生成属于不同类别的分解区域样本[140]。GAAL和BGADL的结构比较如图5所示。
在这里插入图片描述
随后，V AAL和ARAL借鉴了以前的几种方法[99162187]，不仅利用标记和未标记的数据集训练网络，而且将生成性对抗性学习引入到网络体系结构中，用于数据扩充，从而进一步提高了网络的学习能力。

VAAL，ARAL和TA-VAAL的结构对比。1）VAAL使用标记数据和未标记数据采用半监督的方式来学习数据的潜在的表示空间，根据潜在空间选择信息量最大的未标记数据进行标注。2）TA-VAAL拓展了VAAL，将损失预测模块和RankCGAN整合到变分对抗主动学习（VAAL）中，以便同时考虑数据分布和模型不确定性。3）ARAL也拓展了VAAL，ARAL不仅使用了真实数据集（由标注数据集和未标注数据集组成）和还使用了生成数据集来共同训练网络。整个网络由编码器、生成器、鉴别器、分类器和采样器构成，模型的所有部分被共同训练。更多的细节可以查看ARAL。

具体的，VAAL注意到基于不确定性的batch查询策略除了容易导致样本多样性不足的问题，实际上还非常容易受到异常值的干扰。此外，对于高维数据基于密度的方法容易受到p-范数的限制，导致计算的距离过于集中。为此，VAAL提出使用对抗学习表示的方法来区分标记数据与未标记数据的潜在空间的编码特征，从而削弱异常值的干扰。并且VAAL使用标记数据和未标记数据以半监督的方式来共同训练 variational autoencoder (VAE) 试图欺骗对抗网络预测所有的数据点均来自标记池，以此来解决距离集中的问题。VAAL在大规模的数据集上可以学习有效的低维潜在表示，并通过共同学习表示形式和不确定性提供了一种有效的主动学习采样方法。
接着，ARAL拓展了VAAL，旨在使用尽可能少的人工标注样本但充分利用已有的或生成的数据信息来提升模型的学习能力。除了使用标记数据集与未标记数据集，ARAL还使用了深度生产网络生产的样本来共同训练整个模型。ARAL由VAAL与对抗表示学习两部分组成，通过VAAL学习标记和未标记数据潜在的特征表示空间，并据此选择信息量最大的未标记样本，同时使用真实数据与生成数据通过对抗表示学习来增强模型的学习能力。类似的TA-VAAL也拓展了VAAL，TA-VAAL将来自VAAL的全局数据结构和来自学习损失的局部任务相关信息用于样本的查询。我们将ARAL，VAAL和TA-VAAL的框架展示在Fig6.与ARAL和VAAL利用标记数据集与未标记数据集进行对抗表示学习不同，SSAL尝试了一种新的训练方式。SSAL跨AL周期的使用无监督、监督和半监督学习的方式，在尽可能不增加标注成本的情况下充分利用已有的信息进行训练。具体来说，在主动学习开始前，首先利用标记数据和未标记数据进行无监督预训练，在每个AL学习周期首先在标记数据集上进行监督训练，然后在所有数据集上进行半监督训练。这在训练方法上是一种新的尝试，并且作者发现与采样策略之间的差异相比，这种模型训练方式在性能提升上有着令人惊讶的提升。
正如上面说分析的那样，这种在训练方式和数据利用技巧上的探索也是非常有必要的，它在性能上的增益甚至可能超过改变查询策略所代来的性能增益。这实际上是在不增加标注代价的情况下对已有数据信息的充分利用，有助于缓解AL查询样本数量不足以支撑DL模型更新的问题。

3.3 通用框架DAL

如2.3中所述的，由于AL和DL在处理管道上的不一致，仅在AL框架中对DL模型进行微调或者简单的组合AL与DL将它们视为两个分割独立的问题可能会引起分歧。例如，A 首先将DL模型在两个不同类型的会话数据集上进行离线的监督训练以使骨干网络拥有基本的对话能力，然后启用在线AL阶段与人类用户进行互动，根据用户的反馈来以一种开放式的方法来改进模型。AL-DL为有DBNs的DL模型提出了一个主动标记方法。ADN为情感分类提出了一种主动深度网络架构。[23]为CAPTCHA的识别提出了一种使用CNN进行的主动学习算法。然而，上述方法往往首先在标记数据集上对深度模型进行常规的监督训练，然后基于深度模型的输出进行主动采样。类似的相关工作还有很多，这种将AL和深度模型的训练视为两个独立问题的割裂化处理方式增加了两个问题产生分歧的可能。尽管这种方法在当时也取得了一定的成功，但一个将DL和AL两个任务紧密结合的通用框架对DAL的性能提升与推广都有着至关重要的作用。
在这里插入图片描述

CEAL\cite{Wang2017CostEffectiveActive}是第一个结合AL与DL解决深度图像分类问题的工作之一。CEAL将深度卷积神经网络合并到AL中，提出了一个新颖的DAL框架。它通过将来自未标注数据集中的样本逐步送入CNN，由CNN分类器输出两种类别的样本：少量不确定性的样本和大量高预测置信度样本。通过orcal为少量不确定性样本进行标注，同时使用CNN分类器为大量的高预测置信度样本自动分配伪标签。然后，使用这两种类型的样本对CNN进行微调，并重复这个更新过程。在Fig2中，我们展示了CEAL的总体框架图。类似的，HDAL也采用了类似的框架用于人脸识别任务中，它将AL与深度CNN模型进行结合从而一体化的同时考虑特征学习和AL查询模型的训练。

此外，Fig1©中展示了一个非常常见的DAL任务的通用框架，相关的工作包括\cite{Yang2017Suggestive, Du2019BuildinganActivePalmprintRecognitionSystem，He2019Towards， Zhao2020Deeply, Lv2020Deep}等。具体的来讲，\cite{Yang2017Suggestive}提出使用全卷积网络和AL进行结合的框架来解决使用少量标注进行医学图像分割的问题。它首先将FCN在少量的标注数据集上进行训练，然后将未标注数据集中的样本通过FCN进行特征提取，并使用这些特征来对未标注样本进行不确定性和相似度估计。这种类似于2.1.2中的策略有助于选择具有高度不确定性和多样化的样本被添加到标注数据集中，从而开始下一阶段的训练。
\cite{Du2019BuildinganActivePalmprintRecognitionSystem}为掌纹识别任务提出了一个类似的DAL框架。不同的是，受到域适应的启发，\cite{Du2019BuildinganActivePalmprintRecognitionSystem}将AL视为一个二分类任务，期待标注样本集与未标注样本集拥有相同的数据分布并使得二者难以区分，这样就可以直接在少量的标注数据集上进行监督训练了，从而减轻标注负担。
\cite{Lv2020Deep}为缺陷检测提出了一个DAL框架。它根据检测模型输出的特征进行不确定性抽样以产生用于注释的候选样本列表。为了进一步兼顾采样样本中缺陷类别的多样性，\cite{Lv2020Deep}设计了平均边距的方法来控制每个缺陷类别的采样比例。以采样训练和选择样本的迭代模式来有效的训练检测模型。
不同于以上方法往往只利用DL模型的最后输出的作为样本不确定性或多样性的判别依据(Active Palmprint Recognition\cite{Du2019BuildinganActivePalmprintRecognitionSystem}使用了第一个全连接层的输出)，\cite{He2019Towards，Yoo2019LearningLossActive，Zhao2020Deeply}他们还使用了DL模型的中间隐藏层的输出。正如Section 3.1.3和Section 2.3中所分析的那样，由于深度模型与浅层模型之间学习范式的差异导致了传统的基于不确定性的查询策略无法直接应用于DL模型。此外，与浅层模型不同，深层模型可以被视为由特征提取阶段与任务学习阶段两部分组成。而仅仅使用DL模型最后一层的输出作为样本预测不确定性的评估依据是不准确的。因为DL模型的不确定性实际上是由特征提取和任务学习两个阶段的不确定性共同组成。这种思想的示意图被展示在Fig.4。
在这里插入图片描述

为此，AL-MV \cite{He2019Towards}将来自CNN中间不同隐藏层的特征视为多视图数据，同时考虑两个阶段的不确定性，并设计了AL-MV算法来实现对各层的不确定性进行自适应加权，从而更加准确的测量样本的不确定性。
LLAL也是用了类似的想法，LLAF设计了一个损耗预测模块的小型参数模块附加到目标网络，使用目标网络的多个隐藏层的输出作为损耗预测模块的输入。通过学习损耗预测模块来预测未标记数据集的目标损耗，并以top-k的策略选择查询样本。LLAL以较小的参数代价实现了与任务无关的AL框架设计，并在多种主流的视觉任务（即，图像分类、目标检测和人体姿态估计）上都取得了有竞争力的性能表现。
类似的\cite{Zhao2020Deeply}采用了相似的策略实现了一个手指骨骼分割任务的DAL框架。\cite{Zhao2020Deeply}将Deeply Supervised U-Net作为分割网络，然后将多级分割隐藏层的输出以及最后一层的输出作为AL的输入，综合这些输入信息作为样本信息量大小的评估依据。我们以LLAL为例在Fig6中展示这种想法的总体网络结构。
在这里插入图片描述
LLAL的总体框架图。黑色的线表示训练模型参数的阶段，优化由目标损失和损失预测损失构成的总体损失。红色的线表示AL的样本查询阶段。将DL模型的多个隐藏层的输出作为loss预测模块的输入，根据预测损失挑选top-K个未标记数据点通过oracle赋予标签。

通用框架的研究对DAL的发展和推广是非常有益处的，这种任务无关的框架可以更加方便的被移植到其他领域。当前的DL与AL之间融合还主要集中在DL主要负责特征提取，AL主要负责样本查询，因此更加深度紧密的融合有助于DAL取得更加优异的性能，当然这还需要研究人员更多的探索和努力。

DAL 的各种应用

如今，DAL已经被应用包括但不限于视觉数据处理（例如目标检测，语义分割等），NLP（例如情感分析，问答等），语音和音频处理，社交网络分析，医学图像处理，野生动物保护，工业机器人和灾害分析等领域。
如同DL在计算机视觉领域被广泛应用一样，DAL的提出第一个被期待发挥潜力的领域就是计算机视觉。本节我们主要讨论DAL在视觉数据处
NLP一直以来都是一个非常具有挑战性的任务。NLP旨在使计算机理解复杂的人类语言，帮助人类处理各种与自然语言相关的任务。数据标签不足也是NLP任务所面临的一个关键性的挑战。下面我们介绍一些NLP领域最著名的DAL方法。
Sentiment Analysis
深度主动学习的出现是令人兴奋的，有望在保持性能的情况下，成数量级的减少标注代价。为此，DAL也被广泛的应用于其他领域。
这些应用包括但不限于基因表达、机器人、可穿戴设备数据分析、社交网络和心电信号分析等。
总的来说，DAL目前的应用主要集中在视觉图像处理任务中，对NLP和其他领域也有着相对零散的应用。和DL与AL相比，DAL目前仍然处于研究的初级阶段，相应经典作品还相对较少，但仍然有着和DL一样广阔的应用场景和实用价值。

讨论与未来方向

以上问题说明，我们首先急需为DAL的工作设计一个通用的性能评估平台，并确定一个统一的高性能的RSB。其次，不同的DAL的方法的可复现性也是一个重要的问题，高度可复现的DAL方法有助于对不同DAL进行性能评估，应在一致的设置下使用通用的评估平台进行实验，并共享实验设置快照。别外，相同实验条件下的不同初始化的多次重复性实验是被要求的，这可以有效避免因实验设置问题所引起的误导性结论。那些互相不一致的研究需要引起研究人员足够的重视，以便弄清其中原理。另一方面，充足的消融实验和转移实验也是必须的，前者可以让我们更容易看清是哪些改进带来了性能增益，后者可以确保我们的AL选择策略的确可以对数据集无差别的选择高质量样本。
目前的DAL方法的研究方向主要集中在AL选择策略的改进，训练方法的优化以及任务无关的模型改进。
正如Section2所分析的那样，AL选择策略的改进目前主要集中在以显式或者隐式的方式将基于不确定性和多样性的查询策略考虑在内。并且混合型的选择策略越来越受到研究人员的青睐。
训练方法的优化主要集中在对未标记数据集，标记数据集或者使用GAN等方法扩充数据，然后跨AL周期的进行无监督学习、半监督学习、监督学习的混合型训练方法。这种训练方法甚至表现出比选择策略改进更有前途的性能提升，实际上这弥补了DL模型需要大量标注训练样本而AL选择标注样本的数量有限的问题。此外，对无标记数据集或者生成数据集的使用也有利于充分利用已有的信息，而并不增加额外的标注代价。此外，增量训练的方式也是一个重要的研究方向，在每次循环中从头开始训练深度模型在计算资源上是不可接受的。而简单的增量训练又会导致模型参数的偏差问题，但是在资源节省上的巨大诱惑是相当吸引人的。然而，相关的研究仍然是相当匮乏的，但这仍然是一个非常有前景的研究方向。
任务无关也是一个重要的研究方向，这有助于使得DAL的模型可以更加直接广泛的被推广到其他任务。然而相关的研究还是不足的，并且相应的DAL方法往往只关注了基于不确定性的选择方法。由于DL自身更加容易与基于不确定性的AL选择策略相融合，因此我们相信在与任务无关的研究方向上未来基于不确定性的方法还将继续占据主导地位。另一方面，明确显式的将基于多样性的选择策略考虑在内或许也是一个不错的选择，当然，这也面临着很大的挑战。
此外，需要指出的是一味的追求在更小的子集上训练模型的想法是不可取的，因为在一些内容丰富类别多样拥有海量样本的数据集中样本重要性的相对差异几乎可以被忽略。
显然上述的这些改进方向之间并不冲突，因此一种混合的改进策略是未来一个重要的发展方向。
总的来说，DAL的研究在标注代价和应用场景上都有着巨大的实际应用价值，但当前的DAL的研究仍然处于初级阶段，未来还有很长一段路要走。