【全文翻译】REMIXMATCH: SEMI-SUPERVISED LEARNING WITH DISTRIBUTION ALIGNMENT AND AUGMENTATION ANCHORING

ABSTRACT

我们改进了最近提出的“MixMatch”半监督学习算法,引入了两种新的技术:分布对齐和增强锚定。分布对齐鼓励对未标记数据的预测的边际分布接近真实标签的边际分布。增强锚定将输入的多个强增强版本输入到模型中,并鼓励每个输出都接近相同输入的弱增强版本的预测。为了产生强增强,我们提出AutoAugment的一个变体,它在模型被训练时学习增强策略。我们的新算法被称为ReMixMatch,它比之前的算法的数据效率要高得多,需要减少5到16倍的数据才能达到同样的精度。例如,在CIFAR-10中,有250个标记的样本,我们达到了93.73%的正确率(相比之下,MixMatch对4000个样本的正确率为93.58%),在每个类只有4个标签的情况下,中值正确率为84.92%。

1 INTRODUCTION

半监督学习(SSL)提供了一种在有限的标记数据可用时利用未标记数据来提高模型性能的方法。当标记数据很昂贵或不方便时,可以使用大型、功能强大的模型。对SSL的研究产生了多种方法,包括一致性正则化(Sajjadi et al.,2016;Laine&Aila,2017),鼓励模型在输入扰动时产生相同的预测,以及熵最小化(Grandvalet&Bengio,2005),鼓励模型输出高置信度预测。最近提出的“MixMatch”算法(Berthelot et al.,2019)将这些技术结合在一个统一的损失函数中,并在各种图像分类基准上实现了强大的性能。在本文中,我们提出了两个可以很容易地集成到MixMatch框架中的改进。

首先,我们引入“分布对齐”,它鼓励模型聚合类预测的分布与真实类标签的边缘分布相匹配。Bridle等人(1992年)将这一概念作为“公平”目标引入,其中,模型输入和输出之间的互信息最大化产生了相关损失项。在回顾了这个理论框架之后,我们展示了如何通过使用模型预测的运行平均值修改“猜测的标签”,将分布对齐直接添加到MixMatch中。

其次,我们引入了“增广锚定”,它取代了MixMatch的一致性正则化部分。对于每个给定的未标记输入,增广锚定首先生成弱增广版本(例如,仅使用翻转和裁剪),然后生成多个强增广版本。该模型对弱增广输入的预测作为所有强增广版本猜测标签的基础。为了产生强增强,我们引入了一种基于控制理论的自动增强变体(Cubuk et al.,2018),我们称之为“CTAugment”。与AutoAugment不同,CTAugment在模型训练的同时学习一个增强策略,这使得它在SSL设置中特别方便。

我们将改进算法称为“ReMixMatch”,并在一组标准SSL图像基准上进行了实验验证。ReMixMatch在所有标记的数据量中实现了最先进的精度,例如,在CIFAR-10上使用250个标签时,精度达到93.73%,而以前的最先进水平为88.92%(而使用50000个标签进行完全监督分类时,精度为96.09%)。我们还比以往任何时候都进一步推动了有限的数据设置,最终在CIFAR-10上仅使用40个标签(每类仅4个标签)实现了84.92%的中值准确性。为了量化我们提出的改进的影响,我们进行了广泛的消融研究,以测量我们改进对MixMatch的影响。最后,我们发布了我们所有的模型和代码,以促进未来半监督学习的工作。

2 BACKGROUND(背景)

半监督学习算法的目标是从未标记数据中学习,以提高标记数据的性能。实现这一点的典型方法包括针对未标记数据的“猜测”标签进行训练,或者优化不依赖标签的启发式目标。本节回顾与ReMixMatch相关的半监督学习方法,特别关注我们工作所基于的MixMatch算法的组件。

Consistency Regularization 许多SSL方法依赖于一致性正则化来强制当输入受到扰动时模型输出保持不变。首次提出于(Bachman et al.,2014),(Sajjadi et al.,2016)和(Laine&Aila,2017),这种方法分别为被称为“随机变换和扰动正则化”和“Π-模型”。而有些工作会带来不利影响(Miyato等人,2018年)或使用随机失活(Laine和Aila,2017;Tarvainen&Valpola,2017),最常见的扰动是应用特定领域的数据扩充(Laine&Aila,2017;Sajjadi等人,2016年;Berthelot等人,2019年;谢等人,2019)。用于测量一致性的损失函数通常为均方误差(Laine&Aila,2017;Tarvainen&Valpola,2017年;Sajjadi等人,2016)或交叉熵(Miyato等人,2018;Xie et al.,2019)在扰动输入和非扰动输入的模型输出之间。

Entropy Minimization Grandvalet&Bengio(2005)认为应该使用未标记的数据来确保类被很好地分离。这可以通过鼓励模型的输出来实现分布对未标记数据具有低熵(即,进行“高置信度”预测)。例如,可以显式地添加损失项,以最小化模型在未标记数据上预测的类分布的熵(Grandvalet&Bengio,2005;Miyato等人,2018年)。与此相关的是“自我训练”方法(McLachlan,1975;Rosenberg等人,2005),例如伪标签(Lee,2013),使用未标记输入上的预测类作为同一输入的硬目标,这隐式地最小化了预测的熵。

Standard Regularization 在SSL设置之外,在过度参数化的情况下,正则化模型通常是有用的。这种正则化通常可以应用于有标记和无标记数据的训练。例如,标准的“权重衰减”(Hinton&vancamp,1993),其中参数的L2范数最小化,经常与SSL技术一起使用。类似地,强大的混合正则化(Zhang et al.,2017)最近已应用于SSL(Berthelot et al.,2019;Verma等人,2019年)。

Other Approaches 上述三类SSL技术并未涵盖半监督学习的全部文献。例如,有一个重要的研究机构对“transductive”或基于图形的半监督学习技术进行了研究,这些技术利用了这样一种思想,即如果未标记的数据点足够相似,则应为其分配标记数据点的标签(Gammerman等人,1998;约阿希姆斯,2003年;1999; Bengio等人,2006年;Liu等人,2018)。由于我们的工作不涉及这些(或其他)SSL方法,因此我们将不进一步讨论它们。有关SSL方法的更多实质性概述,请参阅(Chapelle et al.,2006)。

2.1 MIXMATCH

MixMatch(Berthelot等人,2019)统一了前面提到的几种SSL技术。该算法的工作原理是为每个未标记的样本生成“猜测标签”,然后使用完全监督技术对原始标记数据和未标记数据的猜测标签进行训练。本节回顾MixMatch的必要细节;完整定义见(Berthelot et al.,2019)。

X = { ( x b , p b ) : b ϵ ( 1 , . . . , B ) } X=\lbrace (x_b,p_b):b\epsilon (1, . . . , B) \rbrace X={(xb,pb):bϵ(1,...,B)}是一批标记数据及其对应的一个热标签,表示 L L L类中的一个, x b ^ \hat{x_b} xb^是这些标记样本的扩充版本。类似地,让 U = { u b : b ϵ ( 1 , . . . , B ) } U=\lbrace u_b:b\epsilon (1, . . . , B) \rbrace U={ub:bϵ(1,...,B)}是一批未标记的样本。最后,让 p m o d e l ( y ∣ x ; θ ) p_{model}(y | x; θ) pmodel(yx;θ)为输入 x x x的模型产生的预测类分布。

MixMatch首先生成每个未标记数据点的K个弱扩充版本 u b , k ^ \hat{u_{b,k}} ub,k^代表 k ∈ 1 , . . . , K k ∈ {1, . . . , K} k1,...,K。然后,它通过计算K个增强版本的平均预测 q b ˉ \bar{q_b} qbˉ,为每个 u b u_b ub生成“猜测标签” q b q_b qb q b ˉ = 1 K ∑ k P m o d e l ( y ∣ u b , k ^ ; θ ) \bar{q_b} = \frac{1}{K}\sum_k P_{model}(y |\hat{u_{b,k}}; θ) qbˉ=K1kPmodel(yub,k^;θ)。然后通过调整其温度(即,将所有概率提高到1/T的幂次方并重新标准化)来锐化猜测的标签分布。最后,对样本 ( x 1 , p 1 ) , ( x 2 , p 2 ) (x_1, p_1),(x_2, p_2) (x1,p1)(x2,p2)从有标记的样本和无标记的样本的组合集合输入MixUp (Zhang et al.,2017)算法来计算样本 ( x ′ , p ′ ) (x', p') (x,p),其中 x ′ = λ x 1 + ( 1 − λ ) x 2 x' = λx_1 + (1-λ)x_2 x=λx1+(1λ)x2 对于 λ ∼ B e t a ( α , α ) λ∼Beta(α, α) λBeta(αα) p ′ p' p也类似。考虑到这些混合样本,MixMatch执行标准的完全监督训练,只做了一些小的修改。标准交叉熵损失用于标记数据,而未标记数据的损失使用均方误差计算(即Brier评分(Brier, 1950)),并采用超参数 λ u λ_u λu加权。其中 K K K(增加数)、 T T T(锐化温度)、 α α α (MixUp Beta参数)和 λ u λ_u λu(未标记的失重)是MixMatch的超参数。对于增强,CIFAR-10、CIFAR-100和STL-10数据集使用平移和翻转,SVHN仅使用平移。

3 REMIXMATCH

在介绍了MixMatch之后,我们现在转向本文提出的两个改进:分布对齐和增广锚定。为了清晰起见,我们描述了如何将它们集成到基本混合匹配算法中;ReMixMatch的完整算法如算法1所示。
在这里插入图片描述

3.1 DISTRIBUTION ALIGNMENT(分布对齐)

我们的第一个贡献是分布对齐,它强制未标记数据的预测集合与所提供的标记数据的分布相匹配。这个基本思想是在25年前首次提出的(Bridle等人,1992年),但据我们所知,在现代SSL技术中并没有使用。分布对齐的示意图如图1所示。在回顾和扩展了该理论之后,我们描述了如何将其直接包含在ReMixMatch中。
在这里插入图片描述

3.1.1 INPUT-OUTPUT MUTUAL INFORMATION(输入-输出互信息)

如前所述,SSL算法的主要目标是以提高模型性能的方式合并未标记的数据。Bridle等人(1992)首次提出的一种形式化直觉的方法是,最大化未标记数据的模型输入和输出之间的互信息。直观地说,一个好的分类器的预测应该尽可能地依赖于输入。根据Bridle等人(1992)的分析,我们可以将这个目标形式化为
在这里插入图片描述
其中H(·)为熵。详见附录A。为了解释这一结果,可以观察eq.(2)中的第二项是熟悉的熵最小化目标(Grandvalet & Bengio, 2005),它简单地鼓励每个模型输出具有低熵(表明对一个类标签有很高的信心)。然而,在现代SSL技术中,第一个术语并没有得到广泛使用。这个术语(粗略地说)鼓励在整个训练集中,该模型平均地以相等的频率预测每一类。Bridle等人(1992)将此模型称为“公平”。

3.1.2 DISTRIBUTION ALIGNMENT IN REMIXMATCH(REMIXMATCH中的分布对齐)

MixMatch已经包含了一种通过“锐化”操作实现的熵最小化的形式,该操作使得未标记数据的猜测标签(合成目标)具有较低的熵。因此,我们也有兴趣在ReMixMatch中加入一种“公平”形式。然而,请注意,目标 H ( E x [ p m o d e l ( y ∣ x ; θ ) ] ) H(E_x[p_{model}(y|x; θ)]) H(Ex[pmodel(yx;θ)])本身本质上意味着模型应该以相同的频率预测每个类。如果数据集的边际类分布 p ( y ) p(y) py不均匀,这不一定是一个有用的目标。此外,虽然原则上可以在每个批次的基础上直接最小化该目标,但我们感兴趣的是以不引入额外损失项或任何敏感超参数的方式将其集成到MixMatch中。

为了解决这些问题,我们引入了一种我们称为“分布对齐”的公平形式,其过程如下:在训练过程中,我们保持模型对未标记数据的预测的运行平均值,我们称之为 p ~ ( y ) \tilde{p}(y) p~(y)。给定模型对一个未标记样本 u u u的预测 q = p m o d e l ( y ∣ u ; θ ) q=p_{model}(y|u; θ) q=pmodel(yu;θ),我们将 q q q p ( y ) / p ~ ( y ) p(y)/\tilde{p}(y) p(y)/p~(y)的比例缩放,然后将结果重新正规化以形成一个有效的概率分布: q ~ = N o r m a l i z e ( q × p ( y ) / p ~ ( y ) ) \tilde{q}= Normalize(q × p(y)/\tilde{p}(y)) q~=Normalize(q×p(y)/p~(y)),其中 N o r m a l i z e ( x ) i = x i / ∑ j x j Normalize(x)_i = x_i/\sum_j x_j Normalize(x)i=xi/jxj。然后我们用 q ~ \tilde{q} q~作为 u u u的标签猜测,并继续与锐化和其他处理通常。实际上,我们计算 p ~ ( y ) \tilde{p}(y) p~(y)作为模型对过去128批未标记样本预测的移动平均数。我们还估计了边缘类分布 p ( y ) p(y) py的基础上标记的样本在训练中看到。注意,如果 p ( y ) p(y) py是先验的,则可以使用更好的估计;在这项工作中,我们不进一步探讨这一方向。

3.2 IMPROVED CONSISTENCY REGULARIZATION(改进的一致性正则化)

一致性正则化是大多数SSL方法的基础(Miyato et al.,2018;Tarvainen&Valpola,2017年;Berthelot等人,2019年;谢等人,2019)。对于图像分类任务,通常在同一未标记图像的两个增强版本之间执行一致性。为了实施一种形式的一致性正则化,MixMatch生成每个未标记样本 u u u的K(实际上,K=2)增强,并将它们平均在一起以生成 u u u的“猜测标签”。

最近的研究(Xie et al.,2019)发现,应用更强形式的增强可以显著提高一致性正则化的性能。特别是,对于图像分类任务,使用AutoAugment的变体(Cubuk et al.,2018)产生了巨大的收益。由于MixMatch使用一种简单的翻转和裁剪增强策略,我们有兴趣看看用AutoAugment替换MixMatch中的弱增强是否会提高性能,但发现训练不会收敛。为了避免这个问题,我们提出了一种新的方法来实现MixMatch中的一致性正则化,称为“增广锚定”。其基本思想是利用模型对弱增强未标记图像的预测作为同一图像的多个强增强版本的猜测标签

使用AutoAugment的另一个后勤问题是,它使用强化学习来学习一个策略,该策略需要许多有监督模型训练的试验。这在SSL设置中提出了一些问题,在SSL设置中,我们通常只有有限的标记数据。为了解决这个问题,我们提出了一种称为“CTAugment”的自动增强变体,它使用控制理论的思想在线调整自己,而不需要任何形式的基于强化学习的训练。我们将在以下两个小节中描述增强锚定和增强。

3.2.1 AUGMENTATION ANCHORING(增强锚固)

我们假设MixMatch和AutoAugment不稳定的原因是MixMatch平均了K个扩增的预测。更强的增强可能导致不同的预测,因此它们的平均值可能不是一个有意义的目标。相反,给定一个未标记的输入,我们首先通过对其应用弱增广来生成一个“锚”。然后,我们使用CTAugment(如下所述)生成相同未标记输入的K个强增强版本。我们使用猜测的标签(在应用分布对齐和锐化之后)作为所有K个强增强版本的图像的目标。该过程如图2所示。
在这里插入图片描述
在进行增强锚定实验时,我们发现它使我们能够用标准的交叉熵损失代替MixMatch的未标记数据均方误差损失。这样既保持了稳定性,又简化了实现。虽然MixMatch仅在K=2时达到最佳性能,但我们发现增强锚定受益于较大的K=8值。我们在第4节中比较了不同的K值,以测量额外增强所获得的增益。

3.2.2 CONTROL THEORY AUGMENT(控制理论增加)

AutoAugment (Cubuk等人,2018)是一种学习数据增强策略的方法,可获得高验证集精度。增强策略由一系列应用于每个图像的转换参数幅度元组组成。重要的是,AutoAugment策略是在监督下学习的:转换的规模和序列是通过在代理任务上训练多个模型来确定的,例如在CIFAR-10上使用4000个标签,在SVHN上使用1000个标签(Cubuk等人,2018)。这使得AutoAugment在方法上不适用于低标签SSL。解决培训政策带安全标签的数据时,这个必要性RandAugment (Cubuk et al ., 2019)均匀随机样本转换,但是需要调优的hyper-parameters随机抽样验证设置,这也是十分困难的时候只有很少的(例如,40或250)标记的样本是可用的。

因此,在这项工作中,我们开发了CTAugment,一种设计高性能增强策略的替代方法。与RandAugment一样,CTAugment也会对变换进行统一的随机采样以应用,但在训练过程中会动态地推断每个变换的大小。由于CTAugment不需要在有监督的代理任务上进行优化,并且没有敏感的超参数,因此我们可以直接将它包含在我们的半监督模型中,在半监督学习中进行更积极的数据增强实验。直观地说,对于每一个增强参数,CTAugment都会学习生成被分类为正确标签的图像的可能性。使用这些可能性,CTAugment只对网络容限范围内的扩增进行采样。这一过程与快速自动增强中所谓的密度匹配有关(Lim等人,2019),其中优化了策略,使增强验证图像的密度与训练集中图像的密度相匹配。

首先,CTAugment将每个变换的每个参数划分为失真幅度的单元,就像在AutoAugment中所做的那样(单元范围列表见附录C)。设m为某一变换的某一畸变参数的面元权向量。在训练开始时,所有的震级箱都被初始化为权重设置为1。这些权重用于确定要应用于给定图像的震级箱。

首先,CTAugment 将每个变换的每个参数划分为失真幅度的区间,就像在 AutoAugment 中所做的那样(有关区间范围的列表,请参见附录 C)。 令 m 为某些变换的某些失真参数的 bin 权重向量。 在训练开始时,所有幅度仓都被初始化为将权重设置为 1。这些权重用于确定将哪个幅度仓应用于给定图像。

在每个训练步骤中,对每个图像进行均匀随机的两种变换采样。为了增强训练图像,对于这些转换的每个参数,我们生成一组改进的bin权值 m ^ \hat{m} m^,如果 m i m_i mi>0.8,则 m i ^ \hat{m_i} mi^ = m i m_i mi,否则,则 m i ^ \hat{m_i} mi^ = 0,并从 C a t e g o r i c a l ( N o r m a l i z e ( m ^ ) ) Categorical(Normalize(\hat{m})) Categorical(Normalize(m^))中采样大小bin。为了更新抽样变换的权值,我们首先对每个变换参数均匀随机抽样一个量级bin m i m_i mi。将得到的变换应用于带标号p的带标号的样本 x x x,得到增广版本 x ^ \hat{x} x^。然后,我们测量模型的预测匹配程度为 ω = 1 − 1 2 L ∑ ∣ p m o d e l ( y ∣ x ^ ; θ ) − p ∣ ω=1-\frac{1}{2L}\sum |p_{model}(y|\hat{x}; θ) -p| ω=12L1pmodel(yx^;θ)p。每个采样幅度bin的权重被更新为 m i = ρ m i + ( 1 − ρ ) ω m_i=ρm_i + (1 - ρ)ω mi=ρmi+(1ρ)ω,其中 ρ ρ ρ= 0.99是一个固定的指数衰减超参数。

3.3 PUTTING IT ALL TOGETHER(综合考虑)

ReMixMatch处理一批标记和未标记样本的算法如算法1所示。该算法的主要目的是生成集合 X ′ X' X U ′ U' U,包括应用MixUp的扩展标记和未标记样本。在 X ′ X' X U ′ U' U中的标签和标签猜测被输入到标准的交叉熵损失项与模型的预测。算法1还输出 U 1 ^ \hat{U_1} U1^,它包含每个未标记图像的一个单一的高度增强版本,并且它的标签猜测没有应用MixUp。 U 1 ^ \hat{U_1} U1^用于两个额外的损失项,提供一个温和的提高性能和改进的稳定性:

Pre-mixup unlabeled loss(预混料未标记损失) 我们将猜测的标签和预测(例如在 U 1 ^ \hat{U_1} U1^中)输入一个单独的交叉熵损失项。

Rotation loss(旋转损失) 最近的研究结果表明,将自监督学习的思想应用到SSL中可以产生强大的性能(Gidaris等人,2018;翟等,2019)。我们整合了这个想法,将每个图像 u ∈ U 1 ^ u∈\hat{U_1} uU1^旋转为 R o t a t e ( u , r ) Rotate(u, r) Rotate(u,r),其中我们从 r   0 , 90 , 180 , 270 r ~{0,90,180,270} r 0,90,180,270均匀采样旋转角度 r r r,然后要求模型预测旋转量,作为一个四类分类问题。

总的来说,ReMixMatch损失是
在这里插入图片描述
Hyperparameters ReMixMatch引入了两个新的超参数:旋转损失 λ r λ_r λr上的权值和未增广样本 λ U 1 ^ λ_{\hat{U_1}} λU1^上的权值。实际上两者都是固定的 λ r λ_r λr = λ U 1 ^ λ_{\hat{U_1}} λU1^= 0.5。ReMixMatch也分享了许多来自MixMatch的超参数:为未标记损失 λ U λ_U λU的重量,锐化温度T, MixUp Beta参数,和增加数K。所有实验(除非另有说明)使用 T = 0.5 , B e t a = 0.75 , λ U = 1.5 T = 0.5, Beta = 0.75, λ_U = 1.5 T=0.5,Beta=0.75λU=1.5。我们发现,使用大量的增广只会单调地提高精度,因此在所有实验中设置K = 8(当运行K个增广时,计算量增加了K倍)。

我们使用Adam (Kingma & Ba, 2015)训练模型,固定学习率为0.002,固定值为0.02,重量衰减(Zhang et al., 2018)。我们将最终的模型作为指数移动平均值,衰减为0.999。

4 EXPERIMENTS

现在我们在一组标准的半监督学习基准上测试ReMixMatch的有效性。除非另有说明,本节中执行的所有实验使用相同的代码库和模型架构(a Wide ResNet-28-2 (Zagoruyko & Komodakis, 2016)和150万个参数,如在(Oliver等人,2018))。

4.1 REALISTIC SSL SETTING(SSL设置)

我们遵循现实半监督学习(Oliver等人,2018)建议每形成SSL评估。特别是,如上所述,这意味着我们在相同的代码库中使用相同的模型和训练算法进行所有实验。我们比较了VAT (Miyato等人,2018)和MeanTeacher (Tarvainen & Valpola, 2017),复制了MixMatch代码库的重新实现(Berthelot等人,2019)。

Fully supervised baseline(完全监督基线) 首先,我们训练一个完全监督的基线,以测量我们希望通过我们的训练管道获得的最高精度。我们执行的实验使用相同的模型和训练算法,因此这些基线对所有讨论的SSL技术都有效。在CIFAR-10上,我们使用弱翻翻+作物增加获得了4.25%的完全监督错误率,使用AutoAugment则下降到3.62%,使用CTAugment则下降到3.91%。类似地,在SVHN上,我们使用弱(翻转)增强法获得了2.70%的误差,使用AutoAugment和CTAugment分别获得2.31%和2.16%的误差。与CTAugment相比,AutoAugment在CIFAR-10上的性能略好,在SVHN上的性能略差,但我们并不打算设计更好的增强策略;只有一个可以使用,无需预先训练或调整超参数。

CIFAR-10 我们在CIFAR-10上的结果如表1左所示。ReMixMatch为所有带标签的样本设置了最新的状态。最重要的是,ReMixMatch比MixMatch的数据效率高16倍(例如,在250个标记样本时,ReMixMatch的精度与在4000个标记样本时相同)。

SVHN 右表1显示了SVHN的结果。ReMixMatch在250个标记的样本中达到了最先进的水平,而在其他方面则在最先进的误差范围内。

在这里插入图片描述

4.2 STL-10

STL-10数据集包括来自10个类别的5000张标记96 × 96的彩色图像和来自类似但不相同的数据分布的10万张未标记图像。标记集被划分为10个预先定义的折叠,每个折叠1000张图像。为了提高效率,我们只对这十倍中的五倍进行分析。当与非mixmatch结果进行比较时,我们在现实SSL (Oliver等人,2018)设置下不执行评估。然而,我们的结果可以直接与MixMatch结果相比较。使用相同的WRN-37-2网络(2380万个参数),与MixMatch相比,我们将错误率降低了两倍。
在这里插入图片描述

4.3 TOWARDS FEW-SHOT LEARNING

我们发现ReMixMatch能够在非常低的标签设置下工作。通过将 λ r λ_r λr从0.5改为2,CIFAR-10和SVHN的训练分别为4个和40个。在CIFAR-10上,我们获得了五个中位数的错误率为15.08%;在SVHN上我们达到了3.48%的误差,在SVHN上使用“额外”数据集我们达到了2.81%的误差。完整研究结果载于附录B。

4.4 ABLATION STUDY(消融研究)

在这里插入图片描述

因为我们已经对现有的MixMatch算法做了几处更改,所以我们在这里执行一个侵蚀研究,每次删除ReMixMatch的一个组件,以便了解是哪个组件
变化产生最大的精度增益。我们的消融结果总结在表3。我们发现,去除预混淆的未标记损失、去除分布对齐、降低K值都对性能有少量的损害。鉴于分布对齐可以提高性能,我们感兴趣的是看看它是否也有预期的效果,使模型预测的边际分布与真实边际类别分布匹配。我们在附录d中直接测量了这一点。去除旋转损耗只会降低250个标签的准确性0.14个百分点,但我们发现在40个标签设置中,旋转损耗是防止坍塌的必要条件。将未标记数据上的交叉熵损失更改为MixMatch中使用的L2损失,会极大地影响性能,移除任一增强组件也一样。这验证了使用增强锚定代替MixMatch的一致性正则化机制。

5 CONCLUSION

过去一年半监督学习的进展颠覆了许多长期以来关于分类的观念,即大量有标签的数据是必要的。通过在MixMatch中引入增强锚定和分布对齐,我们延续了这一趋势:与之前的工作相比,ReMixMatch减少了大量需要的标记数据(例如,在CIFAR-10上击败了4000个标记样本的MixMatch,只有250个;在STL-10上接近于5000个标记样本的MixMatch,只有1000个)。在未来的工作中,我们有兴趣进一步推动有限的数据机制,以缩小少拍学习和SSL之间的差距。我们还注意到,在许多实际场景中,数据集一开始是未标记的,然后逐渐标记,直到达到满意的性能。我们强有力的实证结果表明,通过使用ReMixMatch的想法,在这种“主动学习”的设置中是有可能获得收益的。最后,在本文中,我们提出了广泛研究的图像基准的结果,以便于比较。然而,数据高效学习的真正力量将来自于将这些技术应用到实际问题中,在这些问题中获取标签数据是昂贵的或不切实际的。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值