目录导引
系列传送
【Active Learning】
【论文笔记01】Learning Loss for Active Learning, CVPR 2019
【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch, ICLR 2018
【论文笔记03】Variational Adversarial Active Learning, ICCV 2019
【论文笔记04】Ranked Batch-Mode Active Learning,ICCV 2016
【Transfer Learning】
【论文笔记05】Active Transfer Learning, IEEE T CIRC SYST VID 2020
【论文笔记06】Domain-Adversarial Training of Neural Networks, JMLR 2016
【Differential Privacy】
【Universum Learning】
A Core-Set Approach
论文传送《Active Learning For ConvolutionalNeural Networks: A Core-Set Approch》
这篇文章数学证明部分非常多,有兴趣可以去原文附录阅读定理和引理的证明,文中还引用了很多非常重要的结论,有其他文章中的证明。
从第四节开始是重点,笔者花费了一定时间才理解作者的优化思路。
1 Abstract
使用普适的框架、在非常丰富的有监督数据上进行训练,就使得卷积神经网络被成功地应用在很多识别和学习任务上。但由于收集大量带标签图片代价很高,这样的方法在实践中显得过于严格。一种减轻这个问题的方法就是找到一些巧妙策略,从很大的收集来的数据中选择若干图像进行标注,也就是主动学习。
作者的实证研究表明,很多文献(literature)中的主动学习经验规则(active learning heuristics)在应用到基于批量(查询)背景的CNN上并不高效。受他们的局限性启发,文章将主动学习问题定义为核心集合选择 core-set selection,也就是选择一个数据点集合,使得模型从中学习的成果在剩余的数据点上也有充满竞争力的表现。
作者更进一步提出一个理论成果,可以通过数据点的几何结构(geometry of the datapoints)来描绘任何被选择的子集的表现。作为主动学习算法,文章选择的子集应该要在选定的特征描述(characterization)下取得最好的结果。作者的实验表明他们提出的方法显著地超越了现有的图像分类实验的方法。
2 Introduction
2.1 CNN
- 最主要的缺点: 大量参数需要大量有标记数据训练
2.2 AL
- 目标: 在有限的标记预算下,什么样的找数据进行打标签方法可以在精度意义下达到最优。
- 特点: 主动学习算法迭代进行,每一轮选择一个数据集合进行标注。
- 局限: 已提出的主动学习算法在CNNs上的应用并不高效。作者认为主要的原因是批量抽样(batch acquisition/sampling)造成的 数据相关性。
注意,在CNN上应用主动学习必须要批量选取数据进行查询,这和传统的分类背景不同,原因是:
- 由于局部优化方法(local optimization methods),单个数据点的加入对于卷积神经网络的精度不会有统计意义上显著的影响。
- 每一次迭代都需要对模型在新的有标签数据集上训练到收敛,以准备进行下一轮查询。对于CNNs这么做代价也太大。
关于数据相关性,我的理解是:
让模型一次查询多个样本,模型会选择不确定但是相似的几个数据打包查询,这样实际上带来了冗余,也就是数据之间高度相关。
2.3 Tailor an al method
- 做法: Core-set selection
- 目标: In order to attack the unlabeled core-set problem for CNNs, we provide a rigorous bound between an average loss over any given subset of the dataset and the remaining data points via the geometry of the data points. As an active learning algorithm, we try to choose a subset such that this bound is minimized. Moreover, minimization of this bound turns out to be equivalent to the k-Center problem (Wolf, 2011) and we adopt an efficient approximate solution to this combinatorial optimization problem.
- 实证: We further study the behavior of our proposed algorithm empirically for the problem of image classification using three different datasets. Our empirical analysis demonstrates state-of-the-art performance by a large margin.
3 Related Works
3.1 Active Learning
3.2 Core-Set Selection
因为作者把主动学习任务定义为核心集合选择问题(Core-Set Selection),文献中最接近的问题自然是核心集合选择。这个问题是对一个完全标记的数据集进行挑选,选出一个子集以使模型在这上面训练的效果尽可能接近模型在完整训练集上的训练效果。作者总结具体的算法有:
- Core-sets for SVM
- Core-sets for k-Means and k-Medians
- 但没有 Core-sets for CNNs
无监督子集选择算法 是和作者的工作最相近的算法,It uses a facility location problem to find a diverse cover for the dataset. 作者的算法稍有不同,使用了一个不一样的facility location problem的公式。原来是用min-sum,作者用的是minimax的形式。更重要的是,作者是第一次把这种算法应用到主动学习问题上,并对于CNNs给出了理论上的保证。
3.3 Weakly-Supervised Deep Learning
4 Method
4.0 Problem Definition
Notation | Explanation |
---|---|
X X X | 特征空间 |
Y = 1 , . . . , C Y={1,...,C} Y=1,...,C | 标签空间 |
l ( ⋅ , ⋅ ; w ) : X × Y − > R l(·,·;w) : X \times Y -> R l(⋅,⋅;w):X×Y−>R | 损失函数 |
η c ( x ) = p ( y = c ∥ x ) \eta_c(x)=p(y=c\|x) ηc(x)=p(y=c∥x) | 各类专用的回归函数, λ η − L i p s c h i t z \lambda^\eta-Lipschitz λη−Lipschitz连续 |
Z = X × Y Z = X \times Y Z=X×Y | 总体 |
{ x i , y i } i ∈ [ n ] \{x_i, y_i\}_{i\in[n]} { xi,yi}i∈[n] | 从总体概率分布 p z p_z pz中i.i.d抽出 n n n个无标签数据 |
s 0 = { s 0 ( j ) ∈ [ n ] } j ∈ [ m ] s^0=\{s^0(j)\in[n]\}_{j\in[m]} s0={ s0(j)∈[n]}j∈[m] | 初始化有标签数据集,大小为 m m m |
A s A_s As | 用有标签数据集 s s s进行训练得到的参数 |
b b b | 每一轮查询的预算,即查询的个数 |
基于池的主动学习第一轮查询的目标被定义为
min s 1 : ∣ s 1 ∣ ≤ b E x , y ∈ Z [ l ( x , y ; A s 0 ∪ s 1 ) ] (1) \mathop {\min }\limits_{
{s^1}:|{s^1}| \le b} {E_{x,y\in{Z}}}[l(x,y;{A_{
{s^0} \cup {s^1}}})] \tag{1} s1:∣s1∣≤bminEx,y∈Z[l(x,y;As0∪s1)](1)
第 k + 1 k+1 k+1轮查询的目标实际上就是
min s k + 1 : ∣ s k + 1 ∣ ≤ b E x , y ∈ Z [ l ( x , y ; A s 0 ∪ s 1 . . . ∪ s k + 1 ) ] (2) \mathop {\min }\limits_{
{s^{k+1}}:|{s^{k+1}}| \le b} {E_{x,y\in{Z}}}[l(x,y;{A_{
{s^0} \cup {s^1}...\cup {s^{k+1}}}})] \tag{2} sk+1:∣sk+1∣≤bminE