【笔记】NLP 数据增强(二)

写在前面

打比赛看到有人总结文本增强的方法里提到了这两篇论文。以下是个人的总结记录。

1 EDA

《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》

对四种数据增强方法进行实验效果的对比,四种NLP数据增强方法:

  • 同义词替换(SR):选择一个词,用同义词替换。
  • 随机插入(RI):在句子中插入词语。
  • 随机交换(RS):选择句子中的一对词语交换。
  • 随机删除(RD):选择一个词删除。

文章在SST-2、CR、SUBJ、TREC、PC五个文本分类数据集上进行了实验。实验主要包括:

  • 不同比例的数据进行数据增强的消融实验

    结果显示数据增强方法对小数据集(约占全量数据的20%以下)的提升更为明显,50%以上的数据提升很有限。

  • 增强的数据是否保持了标签的语义

    对于这个问题,论文可视化(t-SNE)了模型输出最后一层的向量,通过和原数据的投影对比发现。增强生成的数据和原数据的向量投影分布近似,由此说明增强的有效性,即保持的正确的语义信息。

  • 四种增强方法各自的效果,以及

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值