《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》论文笔记

最新推荐文章于 2023-08-07 15:06:03 发布

凯子要面包

最新推荐文章于 2023-08-07 15:06:03 发布

阅读量443

点赞数

分类专栏： NLP 文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44815943/article/details/124190203

版权

NLP 专栏收录该内容

21 篇文章

订阅专栏

EDA

作者提出四种简洁有效的文本数据增强方法，可以提升分类任务的效果，称为EDA（Easy Data Augmentation），四种方法如下：

同义词替换（Synonym Replacement）：从输入中随机选择 N 个非停用词，对选中的词，从它们的同义词中随即选择一个替换原词。
随机插入（Random Insertation）：随机选择一个非停用词，然后随机选择该非停用词的一个同义词，将该同义词随机插入输入序列的任意位置上，重复 N 次。
随机调换（Random Swap）：随机选择输入序列中的一个词对，调换它们的顺序，重复该过程 N 次。
随机删除（Random Deletion）：以一定的概率随机删除序列中的每一个词。

在增强训练数据集时，每一样本仅采用4中方法中的任意一种。另一方面，长文本比短文本具有更强的抗噪声能力，因此不同长度的序列处理程度也不同。对于前三种方法， $\alpha, 0< \alpha <1$ ，第四种方法，删除概率取值为 $\alpha$ 。至于每条训练样本，需要增强几个样本，可以参考实验结果。

实验结果

在这里插入图片描述
在训练集样本量为500时，使用EDA比不使用平均提升3.0%，在全量数据下，使用EDA比不使用平均提升0.8%。可见EDA对小样本数据集的效果更好，在大样本情况下，效果提升很微弱。

在这里插入图片描述
EDA在使用50%数据量的情况下，超越了未使用EDA时，模型的最优表现。

在这里插入图片描述
为了探究EDA是否改变了序列的标签信息，作者使用训练集训练RNN，然后用EDA增强测试集，将原始测试集与增强的测试集一起输入到RNN，得到原始测试集的序列向量表征，与增强序列的向量表征，将高维向量映射到二维平面，发现增强的向量仅仅围绕着原始向量表征，表示“采用EDA保留了标签信息”。

在这里插入图片描述
为了探究提出的四种方法分别的效果，作者在不同样本量、 $\alpha$ 条件下进行分解实验，结果表明 $\alpha=0.1$ 时，四种方法都有一定的提升。

在这里插入图片描述
为了探究每一训练样本究竟增强几条样本，作者进行了上述实验，结果给出如下建议：

参考

EDA与代码实现

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。