Semi-Supervised Active Learning with Temporal Output Discrepancy 阅读笔记

详细内容见论文原文《Semi-Supervised Active Learning with Temporal Output Discrepancy》

摘要

  尽管深度学习能够胜任一系列任务,它仍然高度依赖于大量的已标注数据,而获取已标注数据是昂贵且耗时的。为了降低数据标注的开销,可以通过主动学习交互式地请求oracle对未标注数据集的一小部分有信息含量的样本进行标注。受到“具有更高损失的样本通常对模型更有价值”这一事实的启发,作者在本文中提出了一种新的深度主动学习方法,当未标注样本被认为会产生高损失时,请求oracle进行标注。该方法的核心是一个评价指标Temporal Output Discrepancy (TOD),该指标通过评估模型在不同优化步骤的输出的差异性来估计样本的损失。作者的理论研究表明,TOD的下界是累积的样本误差,因此TOD能够用于选择具有信息含量的未标注样本。在TOD的基础上,作者进一步提出了一种有效的未标注样本采样策略 (unlabeled data sampling strategy),以及一种无监督学习指标 (unsupervised learning criterion),该指标通过利用未标注数据来提高模型性能。鉴于TOD的简易性,作者所提出的主动学习方法十分有效、灵活,并且可以应用于多种任务 (task-agostic)。实验结果证明,在图像分类和语义分割任务中,该方法优于主动学习的SOTA方法的性能。

1 引言

  大规模已标注数据集对深度学习模型的高性能是必不可少、至关重要的。因为获取已标注数据通常是昂贵的,所以人们广泛研究了包括无监督学习、半监督学习、弱监督学习在内的学习策略,以缓解这一问题。在本文中,作者关注于主动学习,该方法旨在在有限的标注预算下,选择性地对未标注样本进行标注,以获得高性能模型。

  在现有的主动学习方法中,主要有两类方法,分别是基于多样性的方法 (diversity-aware)基于不确定性的方法(uncertainty-aware)。基于多样性的方法旨在选择能够表示数据集分布的丰富样本。该方法在类别较少的低维数据和分类器中表现良好。基于不确定性的方法旨在根据当前模型选择最不确定的样本。然而,不确定性的启发算法(如:到决策面的距离、后验概率的熵)通常是针对特定任务的,需要针对任务专门设计(如:图像分类、目标检测和语义分割)。

  在本文中,作者考虑到:具有更高损失的样本应该比具有较低损失的样本更具有信息含量。特别实在有监督学习中,当样本被正确标注后,全部样本的平均损失函数会在学习过程中逐渐最小化。此外,在训练模型的每次迭代过程中,会根据每个样本的损失反向传播误差,而具有高损失的样本通常会对训练模型的参数带来有信息含量的更新。在本文中,作者将这些证据推广到主动学习问题中,并提出一种简单却有效的损失估计器Temporal Output Discrepancy (TOD)。当缺少样本标签 (ground-truth)时,它可以仅依靠训练模型来估计一个样本的潜在损失 (potential loss)。作者的理论研究证明,TOD能够很好地衡量样本损失。

  在TOD的基础上,作者提出了一个深度主动学习框架,该框架利用一种新的未标注样本采样策略进行数据标注,并结合半监督训练方法,以利用未标注数据提升任务模型的性能。特别的,主动学习过程可以被分为一系列的训练循环,该过程是从少量的已标注样本开始的。在每一个训练循环的末尾,作者通过选择样本策略 Cyclic Output Discrepancy (COD) 估计未标注数据集中的每个样本,并选择COD最高的样本进行数据标注。其中,COD是TOD的变体。新标注的样本将被移动至已标注数据集,用于下一轮的模型训练。此外,在未标注样本的帮助下,作者用从TOD中推导出的正则项来增强任务学习目标,以半监督学习的方式提升主动学习的性能。

  与现有的深度主动学习算法相比,该方法更加有效、灵活,且更加易于实现,因为该方法并没有引入额外的可学习模型(如:loss prediction module [54]或对抗网络 [43, 57])进行不确定性估计。在实验中,作者所提出的主动学习方法在多个图像分类和语义分割数据集上取得超过SOTA的性能。此外,消融实验证明TOD能够很好地估计样本损失,并且有利于主动样本选择和任务模型学习。

  本文的贡献可以总结为以下几点:

  1. 本文提出了一种简单但有效的损失估计方法TOD,并在理论和实验中验证了TOD的有效性。
  2. 本文通过将TOD应用于样本选择策略和半监督学习方法中,提出了一种新的深度主动学习框架。
  3. 作者在图像分类和语义分割任务中进行主动学习实验,评估了所提出的方法的有效性。

2 相关工作

主动学习 主动学习是通过逐步标注样本,使模型获得高性能,同时减少标注成本。现有的方法可以分为两类:请求-生成方法 (query-synthesizing)请求-获取方法 (query-acquiring)。请求-生成方法利用生成模型合成新的具有信息含量的样本。例如,ASAL [33]使用生成对抗网络 (GANs)来生成高熵值样本。在本文中,作者关注于请求-获取主动学习方法,该方法通过样本选择策略,在未标注样本池中选出最具信息含量的样本。

  请求-获取方法可以分为基于多样性的方法和基于不确定度的方法。基于多样性的方法会选择能够最好表示数据集分布的样本。一种经典的基于多样性的方法是core-set策略,该策略基于中间特征的核心集距离。根据理论和实验,它在小规模类别和维度下效果较好。

  基于不确定的方法根据训练的模型选择最不确定的样本。人们提出了很多相关的方法,如期望误差减少的蒙特卡洛估计、到决策面的距离、后验概率的间隔,以及后验概率的熵。

  基于多样性和不确定度的方法是互补的,因此很多方法将二者结合,应用于特定的任务中。最近,还有很多通过对抗主动学习的方法,学习对抗鉴别器,以区分已标注和未标注样本。

  和现有的主动学习工作相比,作者提出的方法属于基于不确定度的主动学习,通过直接利用目标模型进行不确定性估计。相关的工作根据期望梯度长度或扰动输入的输出变化。进行不确定度估计。在损失预测方面,Yoo 等人提出通过学习loss prediction module来估计未标注样本的损失。在现有的方法中,需要额外的深度模型(如:loss prediction network或对抗网络)进行不确定度估计。与这些方法不同的是,作者通过评估不同主动学习周期下模型输出的差异,提出了无需学习的主动学习原则。除了有效、适用于多种任务的特点,作者证明它是累积样本损失的下界,这保证了能够选出具有较高下界损失的样本

半监督学习 因为作者所提出的损失估计方法中使用了未标记数据来提高模型性能,所以本文的工作同样与半监督学习有关,而半监督学习需要根据已标注数据和未标注数据学习模型。半监督学习有很多模型,如:传感器模型 (transductive model)、基于图的方法 (graph-based method)和生成模型 (generative model)。

  近来,包括 Π \Pi Π-model和虚拟对抗训练 (Virtual Adversarial Training)在内的模型,将一致性正则化应用于扰动输入的后验概率分布。更进一步的方法包括Mean Teacher和Temporal Ensembling,在不同的时间步骤,将一致性正则化应用于模型。然而,一致性正则化很少应用于主动学习中。和现有的半监督学习相比,作者所提出的损失估计TOD是一致性正则化的一种形式。可以通过一种新的样本选择方法COD,将TOD很好地应用于主动学习中。在每一轮主动学习之后,COD仅已学习的模型进行选择。相反,现有的时间一致性不确定度测量方法 (temporal consistency-based uncertainty measurements)通常需要一系列先前的模型状态。例如,Mean Teacher和Temporal Ensembling的计算分别需要模型的历史参数和模型的历史输出结果。

  另一方面,没有充足的理论解释一致性正则化的有效性。Athiwaratkun等人指出,对扰动样本进行一致性正则化是对网络雅克比范数的无偏估计。然而,仍然缺少对时间一致性正则化 (temporal consistency regularization)的解释。在本文中,作者说明temporal consistency regularization可以与累积样本损失的下界相联系。因此,根据理论证明,temporal consistency regularization对于损失估计和半监督学习是有效的。

3 时间输出差异 (Temporal Output Discrepancy)

  在很多问题中(如:主动学习、持续学习和自监督学习),当无法获取样本的标签时,估计神经网络 f f f上的样本损失是很重要的。在本文中,作者提出时间输出差异 (TOD),该方法根据神经网络在不同学习迭代中输出结果的差异,来估计样本损失。给定样本 x ∈ R d x\in\mathbb{R}^d xRd,可定义TOD D t { T } :   R d → R D_t^{\{T\}}:\ \mathbb{R}^d\to \mathbb{R} Dt{T}: RdR
在这里插入图片描述其中, D t { T } ( x ) D_t^{\{T\}}(x) Dt{T}(x)描述了模型 f f f在参数 w t + T w_{t+T} wt+T w t w_t wt下输出结果的距离,而参数 w t + T w_{t+T} wt+T w t w_t wt分别是在训练过程的第 t + T t+T t+T步和第 t t t步梯度下降中获得的 ( T > 0 T>0 T>0)。

  接下来,作者说明 D t { T } ( x ) D_t^{\{T\}}(x) Dt{T}(x)越大,样本损失 L t ( x ) = 1 2 ( y − f ( x ; w t ) ) 2 L_t(x)=\frac{1}{2}(y-f(x;w_t))^2 Lt(x)=21(yf(x;wt))2越大。其中, y ∈ R y\in \mathcal{R} yR是样本 x x x的标签。作者首先给出一步输出差异 D t { 1 } ( x ) D_t^{\{1\}}(x) Dt{1}(x)的上界。

定理1 在合适的学习率 η \eta η下,
在这里插入图片描述

   D t { 1 } ( x ) D_t^{\{1\}}(x) Dt{1}(x)上界的证明过程如下图所示。根据 D t { 1 } ( x ) D_t^{\{1\}}(x) Dt{1}(x),易推导 T T T步输出差异 D t { T } ( x ) D_t^{\{T\}}(x) Dt{T}(x)的上界。
在这里插入图片描述
推论1 在合适的学习率 η \eta η下,
在这里插入图片描述
  推论1初步将 T T T步输出差异 D t { T } ( x ) D_t^{\{T\}}(x) Dt{T}(x)和样本损失 L ( x ) L(x) L(x)联系起来。然而,使用所有的 τ \tau τ计算 ∥ ∇ w f ( x ; w τ ) ∥ \|\nabla_wf(x;w_\tau)\| wf(x;wτ)是不可行的。幸运的是,在神经网络中, ∥ ∇ w f ∥ \|\nabla_wf\| wf近似为常数。

Remark1, Corollay2略

4 半监督主动学习

4.1 问题定义

  假设 ( x S , y S ) (x_S,y_S) (xS,yS)是已标注数据集 ( X S , Y S ) (X_S,Y_S) (XS,YS)中的一个样本对,其中 X S X_S XS是数据点, Y S Y_S YS是标签。假设 x U x_U xU表示未标记数据池 X U X_U XU的一个未标注样本,即: X U X_U XU的标签不可观测。在主动学习的第 c c c轮,主动学习算法从未标注数据池 X U X_U XU中选择固定数量的样本,所选的样本将被标记。标注预算 b b b通常远小于未标注数据池的大小 ∣ X U ∣ |X_U| XU主动学习的目标是选择最具信息含量的未标注样本进行标注,以最小化任务模型 f : X → Y f: X\to Y f:XY的预期误差。

  下面,作者介绍了TOD在半监督主动学习框架中的应用。主动学习算法由两部分组成:(a) 未标注数据的采样策略和 (b) 任务模型的学习过程。 作者将TOD分别应用于这两部分。对于(a),作者提出了每轮输出差异Cyclic Output Discrepancy (COD),它根据最大观测误差选择未标注样本进行标注。对于(b),作者提出了基于TOD的无监督损失项,以提高任务模型的性能。在后续的部分,作者定义了主动学习问题,并对两部分的细节进行探讨。

4.2 每轮输出差异 (Cyclic Output Discrepancy)

  COD通过估计连续两轮AL中模型输出的差异,来估计样本的不确定性。
在这里插入图片描述其中,模型参数 w c w_c wc w c − 1 w_{c-1} wc1分别在主动学习的第 c c c轮和第 c − 1 c-1 c1之后获得。

  图二展示了基于COD的未标注样本选择过程。通过对未标注样本池 X U X_U XU中的每个样本计算COD,该策略从 X U X_U XU中选择COD最高的 b b b个样本。然后,对已选择的样本进行人工标注。新标注的数据将加入已标注数据池,用于下一轮的主动学习。在第一轮(即: c = 1 c=1 c=1)中,模型 f f f由一组随机选择的已标注样本进行初始化,并根据初始模型 (initial model)和第一轮学习后的模型计算COD。对于 c ≥ 2 c\ge 2 c2,根据 D c y c l i c ( x ∣ w c , w c − 1 ) D_{cyclic}(x|w_c,w_{c-1}) Dcyclic(xwc,wc1)系统地计算COD,并进行样本选择。

在这里插入图片描述

COD的Minmax优化 基于COD的样本选择策略可以在未标注样本池中选择损失较大的样本,以通过进一步训练任务模型来最小化模型 f f f的预期误差。图3初步证实了COD和真实损失的一致性,其中COD和真实损失的趋势相近,二者都随着主动学习的过程减小。COD没有直接对TOD进行最小化(min-min优化的效果不好),而是将TOD作为主动学习中的样本选择策略,然后选择TOD最大的样本(max-min策略)。作者将含有潜在损失的样本标签作为信息增益,最大化主动学习中的最小增益。
在这里插入图片描述

4.3 半监督任务学习

无监督损失 TOD对累计样本误差进行估计,因此自然想到将TOD作为无监督评价标准,使用未标注数据提高模型 f f f的性能。然而,直接将TOD应用于上一轮 c − 1 c-1 c1基线模型的无监督学习中,可能导致不稳定的训练。原因如下:1) 当前模型和基线模型的迭代间隔(即:Corollary2中的 T T T)在模型训练不再固定,因此损失的测量可能不准确;2) 基线模型只依赖一个历史模型状态,因此在误差损失测量的方差可能很大。为解决以上问题,作者受到Mean Teacher的启发,通过对历史参数进行 指数移动平均 (EMA) 来构建基线模型。
在这里插入图片描述其中, w ~ \tilde{w} w~ w w w分别是基线模型和当前模型, α \alpha α是EMA衰减率。

  作者提出的无监督损失对当前模型和基线模型的距离进行最小化。在第 c c c轮中,未标注数据池为 X U c X_U^c XUc,无监督损失为
在这里插入图片描述

目标损失 对于已标注数据,需要优化有监督任务目标。在此,以图像分类中的交叉熵 (CE)损失举例说明。在第 c c c轮,已标注数据集为 ( X S c , Y S c ) (X_S^c,Y_S^c) (XSc,YSc),有监督损失为
在这里插入图片描述注意到已标注数据池 ( X S c , Y S c ) (X_S^c,Y_S^c) (XSc,YSc)在主动学习的每一轮都会增大。在主动学习的一轮中,已标注样本池保持不变。

总体目标函数 作者提出的半监督任务学习策略如图4所示。通过综合任务损失和无监督损失,作者对总体的目标函数进行最小化,第 c c c轮的总体目标函数为
在这里插入图片描述其中, λ \lambda λ是平衡任务损失项和无监督损失项的权重。在作者的实验中, λ \lambda λ设置为0.05,EMA衰减率 α \alpha α设置为0.999。
补充:结合第 c − 1 c-1 c1轮的task model,对第 c − 1 c-1 c1轮的baseline model (ema)进行指数移动平均,得到第 c c c轮的baseline model。
在这里插入图片描述

数据的类型目标
已标注数据根据任务损失函数训练模型(如:图像分类的交叉熵损失)
未标注数据最小化任务模型和基线模型输出的差距

5 实验

  作者在图像分类和语义分割任务上进行实验,并展示了使用不同初始网络权重和已标注数据池进行3次实验的结果。

5.1 TOD作为损失评估的有效性

  本文的工作提出使用TOD估计一个未标注样本的损失。图3展示了定义1和推论2中提及的TOD和样本损失的关系,平均COD和平均损失在主动学习的过程中有一致的趋势。为了进一步证明将TOD作为损失评估的有效性,作者通过对COD值排序,研究了未标注样本的平均损失。如图5所示,样本的COD值越大表明样本的损失越高,这一规律在主动学习的每一轮都是一致的。
在这里插入图片描述
  如图6所示,作者对比了学习损失预测的模型LL4AL和COD的损失估计性能。作者研究了在不同方法下,有多少损失最高的样本会被选中。图6表明,COD的性能明显优于LL4AL,因为在所有的采样设置下,COD均能选出更多损失较高的样本。图3, 5和6证明COD是一种有效的损失测量方法,同样是一种可行的主动学习采样方法。
在这里插入图片描述

5.2 图像分类的主动学习

实验设置 作者在Cifar-10、Cifar-100、SVHN和Caltech-101基准图像分类数据集上进行评估。作者使用ResNet-18作为图像分类模型。作者将本文的方法与包含CoreGCN、UncertainGCN、SRAAL、TA-VAAL、VAAL、LL4AL、Core-set和MC-Dropout在内的SOTA方法进行比较。同样,对未标注数据进行随机采样 (Random)和在全部数据集 (Full Training)上训练的模型也被当做基线模型。“Our-Semi”表示本文的方法以半监督损失为目标函数进行训练,“Ours-Task”表示本文的方法仅以任务损失为目标函数进行训练。

结果 图7展示了不同主动学习方法的图像分类性能。在基准数据集上,本文的方法优于其他所有方法。此外,作者有以下观测结论。
(i) 本文的方法在不同轮数下的性能始终优于其他方法。这是一个成功的主动学习方法应有的特性,因为在现实世界的应用中,不同任务的标注预算可能不同。
(ii) 本文的方法在Cifar-100和Caltech101数据集上鲁棒性较好。Cifar-100和Caltech-101数据集的图像类别数量远多于Cifar-10,同时Caltech-101数据集的图像分辨率更高 ( 300 × 200 300\times 200 300×200)。不同的数据集为主动学习带来更大的挑战,而在这些数据集上的优越性能显示出该方法的鲁棒性。
(iii) 与其他方法相比,本文方法的性能曲线相对光滑。光滑的曲线意味着各轮模型有一致的性能提升,说明本文的采样方法能够从未标注数据池中选择具有信息含量的数据。
(iv) Ours-Semi比Ours-Task性能更好,说明本文的半监督训练成功地利用了未标注数据的信息。
(v) 本文的方法使用40%的训练样本,得到超过Cifar-10和SVHM使用全部训练数据进行训练的性能(Cifar-10的性能为94.5% vs. 93.1%)。这一有趣的发现与 [24]讨论的观察结果一致,原始数据集中一些数据对模型训练可能是不重要或者有害的。
在这里插入图片描述

  表1对比了图像分类任务中不同的主动学习方法(即:SOTA算法和本文所提出的方法)使用40%标注数据的性能。半监督任务学习和主动样本选择策略都对性能提高有所贡献,而样本选择策略比半监督学习的贡献更大。作者指出,在不使用半监督任务学习的情况下 (Base + Active),本文所提出的方法优于现有算法。
在这里插入图片描述

5.4 消融实验

主动样本选择策略 图9在Cifar-10和Cifar-100数据集上比较了不同的样本选择策略。CyclicOD和EMAOD是TOD的两种变体。其中,CyclicOD将上一轮结束的模型作为基线模型,而EMAOD先对先前的模型进行指数移动平均,再作为基线模型。LL4AL使用已学习的误差预测模块来选择未标注数据。如图9所示,在Cifar-10和Cifar-100数据集上,本文提出的采样策略(即:EMAOD和CyclicOD)优于随机采样和LL4AL采样,这验证了基于TOD采样的有效性。在Cifar-100数据集上,CyclicOD比EMAOD的性能更好,因此作者在其余实验中使用COD作为采样策略。
在这里插入图片描述

半监督模型学习 为了验证半监督学习在主动学习中的必要性,图10在Cifar-10和Cifar-100数据集上比较了不同的损失函数。CyclicOD损失和EMAOD损失是两种基于TOD的无监督学习指标。它们使用未标注数据集进行最小化,并且它们基线模型的设置十分关键。LL4AL损失对预测损失和真实任务损失的距离进行最小化,该方法需要数据标签。所有辅助的损失都与任务损失相结合。作者对完整的过程和只使用任务损失的训练进行比较,并观察到:无论是EMAOD损失,还是CyclicOD损失,都能够帮助模型提升性能,他们的性能都比LL4AL的更好。EMAOD损失比CyclicOD损失更加稳定,这意味着直接将COD应用于无监督训练可能导致不稳定的模型训练,而对先前的模型状态进行移动平均能够使无监督训练更加稳定。因此,作者在后续的实验中使用EMAOD作为无监督损失。
在这里插入图片描述
  表2显示了在Cityscapes数据集上,使用40%已标注数据进行训练时标准任务模型的各类别性能。Proportion一行显示了每一类像素级别的比例,说明Cityscapes数据集上存在严重的样本不均衡问题。作者将没有无监督损失 (‘T’)和包含无监督损失 (‘T’+‘U’)的模型进行对比。在19个类别中,半监督学习在18个类别取得更好的结果。更重要的是,半监督学习在小类别的性能提升优于大类别,这说明无监督损失为模型增加鲁棒性,使其能够解决类别不均衡问题。
在这里插入图片描述

各类别性能 图11展示了作者所提出的方法在Cifar-10数据集上各类别的性能。在大多情况下,类别的准确率会随着主动学习周期的增加而提高,因此性能的提升不会偏向某个类别。类别#3和类别#4的性能在第6个周期到第7个周期下降,主要原因可能是过拟合。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值