《小样本学习研究综述》赵凯琳等 Survey on Few-shot Learning,文献阅读笔记

文献及地址:赵凯琳,靳小龙,王元卓.小样本学习研究综述[J].软件学报,2021,32(02):349-369.

论文地址:

http://www.jos.org.cn/josen/ch/reader/create_pdf.aspx?file_no=6138&flag=1&year_id=0&quarter_id=0​​

 

摘要: 

近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习的相关工作,具体来说介绍了基于模型微调、基于数据增强和基于迁移学习这 3 大类小样本学习模型与算法的研究进展。

又对这三大类方法进行了展开介绍: (简单做了个思维导图)

 三大类方法的优缺点:

1 基于模型微调的小样本学习

●该方法是小样本学习较为传统的方法,通常在大规模数据上预训练模型,在目标小样本数据集上对神经网络模型的全连接层或者顶端几层进行参数微调,得到微调后的模型.

若目标数据集和源数据集分布较类似,可采用模型微调的方法.

●2018年提出了一个通用微调语言模型(universal language model fine-tuning,简称ULMFit).与其他模型不同的是,此方法使用了语言模型而非深度神经网络.

该模型分为3 个阶段:

(1) 语言模型预训练;

(2) 语言模型微调;

(3) 分类器微调.

●该模型的创新点在于改变学习速率来微调语言模型,主要体现在两个方面:

1) 传统方法认为,模型每一层学习速率相同;而ULMFit 中,语言模型的每一层学习速率均不相同.模型底层表示普遍特征,这些特征不需要很大调整,所以学习速率较慢;而高层特征更具有独特性,更能体现出任务和数据的独有特征,于是高层特征需要用更大的学习速率学习.

总体看来,模型底层到最高层学习速率不断加快.

2) 对于模型中的同一层,当迭代次数变化时,自身学习率也会相应地产生变化.作者提出了斜三角学习率的概念,当迭代次数从 0 开始增加时,学习速率逐渐变大;当迭代次数增长到某个固定值时,此时已经学习到了足够知识,固定值之后的学习率又开始逐步下降.

基于模型微调的方法较简单,但是在真实场景中,目标数据集和源数据集往往并不类似,采用模型微调的方法会导致模型在目标数据集上过拟合.

为解决模型在目标数据集上过拟合的问题,两种解决思路被提出:基于数据增强和基于迁移学习的方法.

2 基于数据增强的小样本学习

在数据量有限的情况下,可以通过数据增强(data augmentation)来提高样本多样性.数据增强指借助辅助数据或辅助信息,对原有的小样本数据集进行数据扩充或特征增强.

数据扩充:是向原有数据集添加新的数据,可以是无标签数据或者合成的带标签数据;

特征增强:是在原样本的特征空间中添加便于分类的特征,增加特征多样性.

基于上述概念,文章将基于数据增强的方法分为基于无标签数据、基于数据合成和基于特征增强的方法三种.

1.基于无标签数据

基于无标签数据的方法是指利用无标签数据对小样本数据集进行扩充,常见的方法有半监督学习直推式学习等.

2.基于数据合成

基于数据合成的方法是指为小样本类别合成新的带标签数据来扩充训练数据,常用的算法有生成对抗网络(generative adversarial net)等

3.基于特征增强

除了利用辅助数据来增强样本空间之外,还可通过增强样本特征空间来提高样本的多样性,因为小样本学习的一个关键是如何得到一个泛化性好的特征提取器.

3 基于迁移学习的小样本学习

迁移学习是指利用旧知识来学习新知识,主要目标是将已经学会的知识很快地迁移到一个新的领域中. .迁移学习主要解决的一个问题是小样本问题.基于模型微调的方法在源数据集和目标数据集分布大致相同时有效,分布不相似时会导致过拟合问题.迁移学习则解决了这个问题.迁移学习只需要源领域和目标领域存在一定关联,使得在源领域和数据中学习到的知识和特征能够帮助在目标领域训练分类模型,从而实现知识在不同领域之间的迁移.一般来说,源领域和目标领域之间的关联性越强,那么迁移学习的效果就会越好。

在迁移学习中,数据集被划分为 3 部分:训练集(training set)、支持集(support set)和查询集(query set).其中,训练集是指源数据集,一般包含大量的标注数据;支持集是指目标领域中的训练样本,包含少量标注数据;查询集是目标领域中的测试样本.

3.1度量学习

在数学概念中,度量指衡量两个元素之间距离的函数,也叫做距离函数.度量学习也称为相似度学习,是指通过给定的距离函数计算两个样本之间的距离,从而度量它们的相似度。

在深度学习中,我们通常采用欧氏距离、马氏距离和余弦相似度等。作为距离函数,将度量学习的框架应用到小样本学习上,顾名思义,就是通过计算待分类样本和已知分类样本之间的距离,找到邻近类别来确定待分类样本的分类结果。

3.2元学习

元学习(meta-learning)也叫做学会学习(learning to learn),是机器学习领域一个前沿的研究框架,针对于解决模型如何学习的问题.元学习的目的是让模型获得一种学习能力,这种学习能力可以让模型自动学习到一些元知识.元知识指在模型训练过程之外可以学习到的知识,比如模型的超参数、神经网络的初始参数神经网络的结构和优化器等。

3.3基于图神经网络

在计算机科学中,图作为一种数据结构,由点和边构成.图这种数据结构,具有表现力强和展示直观的优点.随着近年来机器学习的兴起,机器学习逐渐被应用到图的分析上.图神经网络是一种基于深度学习的处理图领域信息的模型,由于其较好的性能和可解释性,它最近已成为一种广泛应用的图分析方法. 图神经网络有很多种变体,比较常用的有图卷积神经网络(graph convolutional network)、门控图神经网络(gated graph neural network)和图注意力网络(graph attention network)等.

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值