Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data 解读

novelties:统一的理论分析,结合了半监督学习,无监督领域的改编,无监督的学习。

作者的分析基于一定的假设:

expansion:一个小的数据集会扩展成一个彼此之间大概率相关的集群,同一类的样本之间有比较好的连续性。

Separation: 不同的类别的样本邻居之间的重叠最小。

作者证明在这两个假设之下,自训练和输入一致性正则会达到比较高的预测准确度,也即作者提出了一个目标函数,会进行输入一致性的正则,会删除那些可能是错误的伪标签。

Under a simple and realistic expansion assumption on the data distribution, we show that self-training with input consistency regularization using a deep network can achieve high accuracy on true labels, using unlabeled sample size that is polynomial in the margin and Lipschitzness of the model. 

Input consistency regularization ensures that the model is locally consistent, and the expansion property magnifies the local consistency to global consistency within the same class。

作者认为作者提出的regularizer 等同于加强对抗样本和无监督学习的一致性。

作者将数据增强也归结为邻居,这样进一步增加了邻居的规模。

作者认为基于数据增强的一致正则和对抗训练,可以提升无标签数据的表现。

Contributions: 作者提出一种简单可行的假设,假设认为在一个类当中,数据的分布具有连续性。在这样的假设下,通过正则化无标签的数据,self-training的准确率能得到保证。作者提出的分析可应用于带有有限数量的unlabelled samples的深度神经网络。

传统的limitations:

当前关于自训练的解释只应用于线性模型,也即non-parametric的方法,并且要求无标签样本的复杂度在维度上是指数级别的。

input consistency regularization:当输入发生一定的变形或者受到对抗扰动的时候,预测仍然保持一定的稳定性。

作者认为使用最近邻居的方法,需要显式的去实现expansion的效果,suffering the curse of dimensionality.  而由于参数化的方法带来的extrapolation的力量,局部-全局的一致性能够隐式的满足。

传统的非参数的方法可以使用未标记的标签恢复出数据的分布,但是需要样本的复杂度是指数级的。

当一个神经网络可以较大的margin去分开不同的类的时候,需要的样本的复杂度的级别可以小到多项式级别的。

Preliminaries and notations

作者考虑了三种情况,unsupervised,unsupervised domain adaptation,semi-supervised learning。

G*(x) 是ground-truth的映射,从样本到标签

G(x)是通过scoring 函数的映射,返回值是F(x)中所有类中概率最大的那个类的index。

Expansion property

Pi 表示的样本x属于第i个类的概率,

(a,c)-expansion:每个子集的分布不超过a,邻居的分布不小于 (c倍的子集分布和1 中最小的)

 作者假设P的分布满足(1/2,c)-expansion, 并且不同类的样本的分布相距非常远。

 并且作者认为传统的distanced-based clustering 算法在经验的样本上不适用,并且作者提出的算法能够找出mixture components,只需要polynomial 的样本数量。

接着作者在mixture of isotropic Gaussians 和 mixture of manifolds 上给出了例子:

当class-conditional distribution Pi 是上述两种情况的分布的时候,transformation set 满足一定半径的l2-ball ,那么 P满足(0.5,1.5)-expansion。

 

 接着作者又指出,在满足一定的extension和separation参数之后, 并且最小的真实类的概率满足一定的下限,那么任意的分类器的无监督下的permutation的错误率满足一定的上限:

 作者分析了input consistency 对于SimCLR,MoCo,BYOL这样的方法非常重要,这样的话促使同一个类的表示比较相似,从而捕获ground-truth的类结构。

并且作者认为,strengthening augmentation增加了邻居的大小,使得expansion factor变大,从而提升accuracy bound。

有限的样本去保证深度学习模型

作者证明,只要ground-truth的类别能够被神经网络以较大的margin分开的话,泛化效果会比较好。

作者定义了一个衡量模型对输入变换的鲁棒性的函数,并且证明了 large all-layer margin 意味着 输入一致性损失的泛化性更好。利用这个鲁棒性函数,作者给出了population consistency loss的上界:

作者在附录证明了,显式的正则化all-layer margin可以提升self-training的表现。

 Denoising pseudolabels for semi-supervised learning and domain adaptation

半监督学习和domain adaptation 可以利用无标签的数据和伪标签标记器,但伪标签可能不正确。所以作者同时考虑了输入一致性和伪标签的准确率。在假设expansion和separation的条件下,作者证明了,让这个目标函数最小,会让分类的准确率提高。

作者提出了如下的expansion的假设:伪标签错误的样本有足够大的邻居范围。

 并且得出了引理,classifier的错误率比损失要小,且对于任意的分类器,错误率都有一个上限的bound:

 claim 4.4,4.5 想证明的是:pseudolabeler标记正确而分类器分类错误的样本分布 > 同时犯错的邻居去除分类器犯错的样本>两者同时犯错误的样本分布

 总结:作者提出了一种expansion的假设,统一理论分析了基于深度神经网络的半监督和无监督的进行输入一致性正则化的self-training 表现比较好的原因。

证明过程:

去噪伪标签

首先是expansion 的一个relaxation,作者将neighborhood定义为某样本周围的邻居且标签必须是一致的。当然一个集合的邻居中,每个样本的标签可能是不一样的。

definition A.1 也即说明任何一个子集合都必须有一个足够大的邻居,邻居的标签和子集合中的相应的邻居样本标签一致。

作者定义了分类器的robust set,该集合中的样本经过变换之后,classifier的分类结果和原样本一样。

 

 Theorem A.2 

假设分类器G可以较好的拟合pseudolabels,并且如果G可以很好的应对变换扰动,那么G的准确率会很高。

Lemma A.3 

作者想说明的是,在G的robust集合中,G犯错误,伪标签器也犯错的样本的数量不会太多。

 

Claim A.4 and Claim A.5, Lemma A.6

根据定义和推理易得,注意N(s)和N*(s)的区别,N(s)只要求邻居的变换有交集即可,N*在N的基础上,还要求邻居的ground-truth的标签一样。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值