小样本学习记录————文本中特征空间的数据增强MEDA: Meta-Learning with Data Augmentation for Few-Shot Text Classification

出发点

对于小样本学习文本分类问题中,限制其性能的主要原因之一是因为对于每一个类别有多种的表示方式。所以本文提出了一种数据增强方式来解决样本不足的问题。

数据增强

  1. 原文的数据增强:随机替换,删除,调换同义词——容易改变原文意思,产生噪声,影响模型效果。
  2. 特征空间的增强:通过搜索特征空间,加入噪声进行增强。

存在问题:置信度不高,训练模型效果不高

球合成器

在这里插入图片描述

其核心思想是在特征空间进行合成,来减少样本的偏差。

通过使用Bert将文本输入映射到特征空间。

合成模块Synthesis module

将样本空间限制在最小球里,使用随机化方法[welzl,1991]计算最小球 B ( S i ) B(S_i) B(Si),通过以下方法来合成样本在这里插入图片描述

$ C_i是球心,R_i是半径,u从0-1均匀采样,Z是一个N(0,I)的正态分布。$即,这部分把包含给出的样本最小球视为该类的特征空间。

转换模块Transformation module

为了避免合成样本的偏差影响,使用 X ′ ′ = G ( X ′ ; θ ) X''=G(X';\theta) X=G(X;θ)来使 X ′ ′ X'' X靠近自己的类的球心,远离其他的球心。 θ 是 转 换 参 数 , G ( . ; θ ) \theta 是转换参数,G(.;\theta) θG(.;θ)使用三层全连通的MLP算法。

welzl,1991:最小球算法

平 面 有 限 点 集 : P = p 1 , p 2 , . . , p n , R 其 中 P 不 为 空 平面有限点集:P={p_1,p_2,..,p_n},R其中P不为空 P=p1,p2,..,pnRP

m d ( P ) 包 含 P 的 最 小 圆 ; b _ m d ( P , R ) 包 含 所 有 P 点 集 的 最 小 圆 md(P)包含P的最小圆;b\_md(P,R)包含所有P点集的最小圆 md(P)Pb_md(P,R)P

三条定理:

  1. 如果存在一个圆包括P,R点集在其边界,那么这个圆是唯一的
  2. 如果 p ∉ b _ m d ( P − { p } , R ) , p 位 于 b _ m d ( P , R ) 的 边 界 , 则 b _ m d ( P , R ) = b _ m d ( P − { p } , R ⋃ { p } ) p\notin b\_md(P-\{p\},R),p位于b\_md(P,R)的边界,则b \_md (P,R)=b\_md(P-\{p\},R\bigcup\{p\}) p/b_md(P{p},R)pb_md(P,R)b_md(P,R)=b_md(P{p},R{p})
  3. 如果 b _ m d ( P , R ) 存 在 , 那 么 肯 定 有 一 个 子 集 S , 大 小 为 m a x { 0 , 3 − ∣ R ∣ } 个 点 在 P 上 使 得 b _ m d ( P , R ) = b _ m d ( S , R ) b\_md(P,R)存在,那么肯定有一个子集S,大小为max\{0,3-|R|\}个点在P上使得b\_md(P,R)=b\_md(S,R) b_md(P,R)S,max{0,3R}P使b_md(P,R)=b_md(S,R)

在这里插入图片描述

使用增量的方法进行计算最小圆盘:

一个一个的将点加入,如果新增的点不在,则它一定在新的圆盘的边界上,通过b_mp来计算新的最小圆盘。

在这里插入图片描述

计算包含两个集合的最小圆盘:

通过不断的把P集合的点移到R集合中,根据定理2可以得到结果。

所以最后我们求一个点集的最小圆 m d ( P ) md(P) md(P)就可以写成 b _ m d ( P , ∅ ) b\_md(P,\emptyset) b_md(P,)

在这里插入图片描述

损失函数

在这里插入图片描述

球生成器部分损失函数

在这里插入图片描述

X ′ ′ X'' X是增广后的样本, C i , C j C_i,C_j Ci,Cj是第i,j类的球心,d是欧几里得距离,r是一个度量(他可以帮助强行拉开两个距离的差值)。

元学习损失

原型网络:使用的交叉熵损失。

关系网络:使用的均方误差。

训练策略

算法结构图

在这里插入图片描述

训练步骤
在这里插入图片描述

  1. 在每一个训练的场景中,先进行N-way-K-shot的随机采样,得到Support set:S和Query set:Q;
  2. 使用S计算每一个类的最小球,根据公式5进行合成数据得到 X ′ X' X,再进行输入处理偏置得到 X ′ ′ X'' X
  3. X ′ ′ X'' X加入到支持集中,用公式7计算生成器参数;
  4. 将合并的支持集输入元学习器使用公式6更新参数 生 成 器 参 数 θ , 元 学 习 器 参 数 ϕ 生成器参数\theta,元学习器参数\phi θϕ

实验

数据集

  • SNIPS:一个语音助手众包,第一次被用于小样本学习任务5:2。
  • ARSC:亚马逊评论数据集,意图识别57:12。

基线

  • 元学习:
    1. ROBUSTTC-FSL基于多种度量的元学习
    2. Induction Networks归纳网络
  • 数据增强:
    1. EXTRA特征空间的数据增强。DATASET AUGMENTATION IN FEATURE SPACE
    2. RP意图识别中的特征增强。Controlled Text Generation for Data Augmentation in Intelligent Artificial Agents

在这里插入图片描述
在这里插入图片描述

无论是和元学习器对比还是和数据增强方法对比,我们都可以看到MEDA都是最好的效果。

在这里插入图片描述

从这个图可以直观看到,使用MEDA会提高模型的准确率,同时,随着shot的数量增加,效果会达到饱和。
在这里插入图片描述

这个图可以看到使用混合损失会提高模型收敛速度,更快训练好。

在这里插入图片描述

这个图可以看到在10个增广样本时候,效果提升变得不明显,在10之前模型效果不断提高,证明MEDA的方法是有效的,不是单纯的进行样本复制。

结语

MEDA数据增强的方式,提出了在特征空间结合最小球算法的数据生成方式,有效的提高模型效果。

但是本篇论文没有代码,需要自己进一步实现。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值