第四章 小样本学习方法

4.1 小样本学习基础

小样本学习目前针对监督学习,包括小样本分类和小样本回归。

弱监督学习:弱监督只包括分类和回归,小样本还涉及到强化学习,弱监督只能使用数据集的数据,小样本可以使用各种数据模型做先验知识。
非平衡数据:相对较少的数据,但是小样本是绝对的少的数据。
迁移学习/元学习:迁移学习和元学习都是解决小样本学习的一个途径。

PAC理论也可以用于分析训练集中样本数量对学习性能的影响;对于任意的ξ,只要样本数量m足够大或者假设空间的大小|H|足够小,泛化误差E(h)和经验误差F(h)的差异|E(h)-F(h)|≤ξ发生的可能性就非常大。

减小假设空间的复杂度可以减小对学习样本数量的需求,这也是小样本学习的依据。

数据层面:利用先验知识对数据集进行增强;模型层面:围绕如何缩小假设空间大小展开,包括多任务学习,假设学习,生成式建模等;算法层面:基于先验知识在给定的假设空间提升搜索效率,包括参数精炼。

4.2 小样本的数据增强(数据层面

  1. 对数据集进行变换
    此方法不依赖其他数据集,依赖于数据类型。
    语音数据:快放,慢放,适量的噪声注入,声谱修改;
    图像数据:欧式变换(平移 反转 旋转等),相似变换(放缩 扭曲等),放射变换,射影变换,裁剪和添加随机噪声;
    文本类型:同义词替换,否定反义词替换,句型转换,添加噪声,随即删除字符等。词汇替换的方法使用人工字典;句型转换方法有主动句和被动句的替换;添加噪声的方法包括随机从文本删除单词,随机插入单词,随机替换单词等。
  2. 对相似数据集进行增强
    如何使用相似的数据,迁移学习进行跨域学习实现数据增强,可以生成对抗网络GAN生成样本。
  3. 对未标注的数据集或弱标注数据集进行增强
    未标注数据利用方法,第一种基于分类器进行可信度样本的扩充,可信度指的是判断一个样本归属时的某种依据。第二种是使用半监督学习,基于三大假设:平滑假设即相似的数据有相似的标签,聚类假设即同一聚类的数据有相似的标签,流形假设即同一流形结构下的数据有相同标签。
    另一种标签传播算法LPA基本假设仍然是相似的数据应该具有相同的标签,根据点之间的连线表示权重选择权重比较大的边表示相似度的传播性质。

4.3 基于模型的小样本学习(模型层面

4.3.1 多任务学习
  1. 定义
    多任务学习是指给定m个任务其中所有或部分任务有一定相关并不完全一样,学习分为两份任务,第一份是总体任务即学习要完成的目标任务,第二份任务是指各了任务的独有的任务,两者缺一不可。所有的独有任务当成一个整体,借助各个任务之间的关联,为总目标服务。

小样本的学习任务称为目标任务,其他任务称为源任务,整个多任务学习的目的是提升目标任务的性能为主,同时兼顾源任务的性能。

  1. 小样本学习的多任务方法
    在这里插入图片描述

在目标任务之外要增加两个源任务作为先验知识,深度学习模型具有层次结构更容易感知各层之间的深度特征,因此把底层的共性通用层参数在不同任务之间共享,与任务相关的高层特征在各自任务中单独处理,在深度学习模型中,多任务之间共享底层的隐藏层,然后针对设计不同的高层神经网络来解决各自的任务。

  1. 共享参数的多任务学习例子
    在这里插入图片描述

首先经过LSTM的隐单元获取语义信息,分别进行两个任务的学习,①最大池化获取与属性无关的表示,②注意力机制获取能表达各个属性的语义特征,③softmax分类,把属性相关的语义特征与属性无关的语义特征进行拼接,④进行罪名预测。目标任务是罪名预测,源任务是属性分类。

4.3.2 嵌入学习

嵌入学习是在低维稠密空间学习的方法,首先把原始样本嵌入低维空间,根据PAC理论在低维空间中学习不需要那么多样本,解决了小样本学习的根本思路,而且可以使用其他数据集辅助降维。
在这里插入图片描述

常用的f和g有CNN,LSTM,biLstm,GNN等;常用的相似度函数有余弦相似度,高斯相似度,L1距离等。

4.3.3 生成式模型

在这里插入图片描述

生成式模型从数据的生成机制建立数据分布,典型模型有隐马尔可夫模型,生成对抗网络。
如图先用其他相同或者相似领域的数据生成模型的构建,学习到生成机制,然后把生成机制复制给小样本学习。

4.4 基于算法的小样本学习(算法层面

基本思路是提高在假设空间搜索模型参数的效率和准确性,通常求解的常用方法是梯度法。根据先验知识影响搜索策略的方式,可以把算法层面的方法分为三类:

  1. 通过其他任务的先验知识学习初始值,再使用FSL训练数据进行参数的求精。
  2. 初始值通过元学习器得到,再使用FSL训练数据进行参数的求精。
  3. 通过学习优化器,获得每个步骤的步长。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值