写在前面
打比赛看到有人总结文本增强的方法里提到了这两篇论文。以下是个人的总结记录。
1 EDA
《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》
对四种数据增强方法进行实验效果的对比,四种NLP数据增强方法:
- 同义词替换(SR):选择一个词,用同义词替换。
- 随机插入(RI):在句子中插入词语。
- 随机交换(RS):选择句子中的一对词语交换。
- 随机删除(RD):选择一个词删除。
文章在SST-2、CR、SUBJ、TREC、PC五个文本分类数据集上进行了实验。实验主要包括:
-
对不同比例的数据进行数据增强的消融实验
结果显示数据增强方法对小数据集(约占全量数据的20%以下)的提升更为明显,50%以上的数据提升很有限。
-
增强的数据是否保持了标签的语义?
对于这个问题,论文可视化(t-SNE)了模型输出最后一层的向量,通过和原数据的投影对比发现。增强生成的数据和原数据的向量投影分布近似,由此说明增强的有效性,即保持的正确的语义信息。
-
四种增强方法各自的效果,以及