【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch,ICLR 2018

这篇论文探讨了在卷积神经网络(CNN)上应用主动学习的问题,指出传统主动学习策略在CNN上的效率不高。作者提出将主动学习视为核心集选择问题,通过选择数据点集合以最大化模型在剩余数据上的表现。论文提出了一个理论框架,通过数据点的几何结构来描述子集性能,并解决了K-中心问题以选择最佳子集。实验结果显示,该方法在图像分类任务上显著优于现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

系列传送

我的论文笔记频道

【Active Learning】
【论文笔记01】Learning Loss for Active Learning, CVPR 2019
【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch, ICLR 2018
【论文笔记03】Variational Adversarial Active Learning, ICCV 2019
【论文笔记04】Ranked Batch-Mode Active Learning,ICCV 2016

【Transfer Learning】
【论文笔记05】Active Transfer Learning, IEEE T CIRC SYST VID 2020
【论文笔记06】Domain-Adversarial Training of Neural Networks, JMLR 2016

【Differential Privacy】

【Universum Learning】

A Core-Set Approach

论文传送《Active Learning For ConvolutionalNeural Networks: A Core-Set Approch》
这篇文章数学证明部分非常多,有兴趣可以去原文附录阅读定理和引理的证明,文中还引用了很多非常重要的结论,有其他文章中的证明。

从第四节开始是重点,笔者花费了一定时间才理解作者的优化思路。

1 Abstract

使用普适的框架、在非常丰富的有监督数据上进行训练,就使得卷积神经网络被成功地应用在很多识别和学习任务上。但由于收集大量带标签图片代价很高,这样的方法在实践中显得过于严格。一种减轻这个问题的方法就是找到一些巧妙策略,从很大的收集来的数据中选择若干图像进行标注,也就是主动学习

作者的实证研究表明,很多文献(literature)中的主动学习经验规则(active learning heuristics)在应用到基于批量(查询)背景的CNN上并不高效。受他们的局限性启发,文章将主动学习问题定义为核心集合选择 core-set selection,也就是选择一个数据点集合,使得模型从中学习的成果在剩余的数据点上也有充满竞争力的表现。

作者更进一步提出一个理论成果,可以通过数据点的几何结构(geometry of the datapoints)来描绘任何被选择的子集的表现。作为主动学习算法,文章选择的子集应该要在选定的特征描述(characterization)下取得最好的结果。作者的实验表明他们提出的方法显著地超越了现有的图像分类实验的方法。

2 Introduction

2.1 CNN

  • 最主要的缺点: 大量参数需要大量有标记数据训练

2.2 AL

  • 目标: 在有限的标记预算下,什么样的找数据进行打标签方法可以在精度意义下达到最优。
  • 特点: 主动学习算法迭代进行,每一轮选择一个数据集合进行标注。
  • 局限: 已提出的主动学习算法在CNNs上的应用并不高效。作者认为主要的原因是批量抽样(batch acquisition/sampling)造成的 数据相关性

注意,在CNN上应用主动学习必须要批量选取数据进行查询,这和传统的分类背景不同,原因是:

  1. 由于局部优化方法(local optimization methods),单个数据点的加入对于卷积神经网络的精度不会有统计意义上显著的影响
  2. 每一次迭代都需要对模型在新的有标签数据集上训练到收敛,以准备进行下一轮查询。对于CNNs这么做代价也太大。

关于数据相关性,我的理解是:

让模型一次查询多个样本,模型会选择不确定但是相似的几个数据打包查询,这样实际上带来了冗余,也就是数据之间高度相关。

2.3 Tailor an al method

  • 做法: Core-set selection
  • 目标: In order to attack the unlabeled core-set problem for CNNs, we provide a rigorous bound between an average loss over any given subset of the dataset and the remaining data points via the geometry of the data points. As an active learning algorithm, we try to choose a subset such that this bound is minimized. Moreover, minimization of this bound turns out to be equivalent to the k-Center problem (Wolf, 2011) and we adopt an efficient approximate solution to this combinatorial optimization problem.
  • 实证: We further study the behavior of our proposed algorithm empirically for the problem of image classification using three different datasets. Our empirical analysis demonstrates state-of-the-art performance by a large margin.

3 Related Works

3.1 Active Learning

3.2 Core-Set Selection

因为作者把主动学习任务定义为核心集合选择问题(Core-Set Selection),文献中最接近的问题自然是核心集合选择。这个问题是对一个完全标记的数据集进行挑选,选出一个子集以使模型在这上面训练的效果尽可能接近模型在完整训练集上的训练效果。作者总结具体的算法有:

  • Core-sets for SVM
  • Core-sets for k-Means and k-Medians
  • 但没有 Core-sets for CNNs

无监督子集选择算法 是和作者的工作最相近的算法,It uses a facility location problem to find a diverse cover for the dataset. 作者的算法稍有不同,使用了一个不一样的facility location problem的公式。原来是用min-sum,作者用的是minimax的形式。更重要的是,作者是第一次把这种算法应用到主动学习问题上,并对于CNNs给出了理论上的保证。

3.3 Weakly-Supervised Deep Learning

4 Method

4.0 Problem Definition

Notation Explanation
X X X 特征空间
Y = 1 , . . . , C Y={1,...,C} Y=1,...,C 标签空间
l ( ⋅ , ⋅ ; w ) : X × Y − > R l(·,·;w) : X \times Y -> R l(,;w):X×Y>R 损失函数
η c ( x ) = p ( y = c ∥ x ) \eta_c(x)=p(y=c\|x) ηc(x)=p(y=cx) 各类专用的回归函数, λ η − L i p s c h i t z \lambda^\eta-Lipschitz ληLipschitz连续
Z = X × Y Z = X \times Y Z=X×Y 总体
{ x i , y i } i ∈ [ n ] \{x_i, y_i\}_{i\in[n]} { xi,yi}i[n] 从总体概率分布 p z p_z pz中i.i.d抽出 n n n个无标签数据
s 0 = { s 0 ( j ) ∈ [ n ] } j ∈ [ m ] s^0=\{s^0(j)\in[n]\}_{j\in[m]} s0={ s0(j)[n]}j[m] 初始化有标签数据集,大小为 m m m
A s A_s As 用有标签数据集 s s s进行训练得到的参数
b b b 每一轮查询的预算,即查询的个数

基于池的主动学习第一轮查询的目标被定义为
min ⁡ s 1 : ∣ s 1 ∣ ≤ b E x , y ∈ Z [ l ( x , y ; A s 0 ∪ s 1 ) ] (1) \mathop {\min }\limits_{ {s^1}:|{s^1}| \le b} {E_{x,y\in{Z}}}[l(x,y;{A_{ {s^0} \cup {s^1}}})] \tag{1} s1:s1bminEx,yZ[l(x,y;As0s1)](1)
k + 1 k+1 k+1轮查询的目标实际上就是
min ⁡ s k + 1 : ∣ s k + 1 ∣ ≤ b E x , y ∈ Z [ l ( x , y ; A s 0 ∪ s 1 . . . ∪ s k + 1 ) ] (2) \mathop {\min }\limits_{ {s^{k+1}}:|{s^{k+1}}| \le b} {E_{x,y\in{Z}}}[l(x,y;{A_{ {s^0} \cup {s^1}...\cup {s^{k+1}}}})] \tag{2} sk+1:sk+1bminE

主动学习对于卷积神经网络的核心集方法是一种重要的优化技术。卷积神经网络是一种用于图像和视频处理的深度学习模型,它具有很强的特征提取和分类能力。然而,使用传统的训练方法来训练卷积神经网络需要大量的标记数据,而这些数据的标记通常由人工专家完成,费时费力且容易出错。 核心集方法是一种主动学习策略,旨在有效利用有限的标记数据。它通过选择一小部分最具代表性的样本构建核心集,然后利用这些样本进行训练和优化模型。在训练过程中,核心集方法会根据当前模型的不确定性选择性地请求一些标记样本进行标记,以进一步优化模型。 使用核心集方法的主动学习对于训练卷积神经网络具有多个优点。首先,它可以大大减少标记数据的需求量。相比于传统的批量训练方法,只需标记极少量的样本,就能达到较好的分类性能。其次,核心集方法能够自适应地选择样本,从而使训练数据更具代表性,提高模型的泛化能力。 核心集方法还能够通过选择具有较高不确定性的样本,自动地识别出难以分类或易混淆的样本,从而提高了训练的效果。此外,主动学习可以应用于在线学习任务中以及在标记数据有限的情况下,进一步提高卷积神经网络的应用范围和性能。 综上所述,主动学习的核心集方法是一种有效的优化技术,可以在卷积神经网络的训练过程中减少标记数据的需求量,并提高模型的泛化能力和分类性能。它为卷积神经网络的应用提供了更多的可能性,并在图像和视频处理领域具有重要的实际应用价值。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值