NLP数据增强方法总结及实现

最新推荐文章于 2024-03-29 00:29:13 发布

丁叔叔

最新推荐文章于 2024-03-29 00:29:13 发布

阅读量1.3k

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43758551/article/details/108530043

版权

NLP 专栏收录该内容

49 篇文章 0 订阅

订阅专栏

参考 https://blog.csdn.net/asialee_bird/article/details/96185504

1、数据增强

数据增强是扩充数据样本规模的一种有效地方法，数据的规模越大、质量越高越好，模型才能够有着更好的泛化能力。

2、简单数据增强(Easy Data Augmentation，EDA)

（1）EDA方法
同义词替换、随机插入、随机交换、随机删除。

同义词替换(Synonym Replacement, SR)：从句子中随机选取n个不属于停用词集的单词，并随机选择其同义词替换它们；
随机插入(Random Insertion, RI)：随机的找出句中某个不属于停用词集的词，并求出其随机的同义词，将该同义词插入句子的一个随机位置。重复n次；
随机交换(Random Swap, RS)：随机的选择句中两个单词并交换它们的位置。重复n次；
随机删除(Random Deletion, RD)：以 $p$ 的概率，随机的移除句中的每个单词。
（2）EDA工具使用方法
先将需要处理的语料按照下面的例子处理好成固定的格式
0 今天天气不错哦。

1 今天天气不行啊！不能出去玩了。

0 又是阳光明媚的一天！

即，标签+一个制表符\t+内容

命令使用例子

$python code/augment.py --input=train.txt --output=train_augmented.txt --num_aug=16 --alpha=0.05

其中：

input参数：需要进行增强的语料文件
output参数：输出文件
num_aug参数：每一条语料将增强的个数
alpha参数：每一条语料中改动的词所占的比例

（3）EDA相关工具
中文语料的EDA数据增强工具
Synonyms中文近义词工具包
中文常用停用词表
EDA工具论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》

4、基于上下文的数据增强方法

（1）方法论文：Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

（2）方法实现代码：使用双向循环神经网络进行数据增强。

（3）该方法目前针对于英文数据进行增强，实验工具：spacy（NLP自然语言工具包）和chainer（深度学习框架）。

5、数据增强的作用

（1）增加训练的数据量，提高模型的泛化能力。

（2）增加噪声数据，提升模型的鲁棒性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP数据增强方法总结及实现

参考 https://blog.csdn.net/asialee_bird/article/details/961855041、数据增强数据增强是扩充数据样本规模的一种有效地方法，数据的规模越大、质量越高越好，模型才能够有着更好的泛化能力。2、简单数据增强(Easy Data Augmentation，EDA)（1）EDA方法同义词替换、随机插入、随机交换、随机删除。同义词替换(Synonym Replacement, SR)：从句子中随机选取n个不属于停用词集的单词，并随机选择其同义词替换它们
复制链接

扫一扫

专栏目录

丁叔叔 CSDN认证博客专家 CSDN认证企业博客

码龄6年

322: 原创

23万+: 周排名

148万+: 总排名

31万+: 访问

: 等级

4267: 积分

56: 粉丝

189: 获赞

25: 评论

783: 收藏

私信

关注

热门文章

分类专栏

产品经理 47篇
问答系统
听书 1篇
neo4j 1篇
测试 5篇
postman 1篇
数据挖掘 2篇
前端 5篇
JAVA
linux 2篇
Git教程 4篇
SPARQL 1篇
protege学习 2篇
PRD撰写
Pytroch 12篇
NLP 49篇
深度学习 34篇
机器学习 46篇
sk-learn 11篇
tf 10篇
爬虫 7篇
爬虫实例 7篇
numpy 3篇
pandas 1篇
matplotlib 6篇
python基础 12篇
opencv 1篇
目标检测 2篇
知识图谱 29篇

最新评论

利用tf-idf计算文本相似度
我不是大佬zvj: 在代码里面写绝对路径，你是有点逆天，我复制下来都不好使，还要一个一个改，浪费时间
利用tf-idf计算文本相似度
Domices: 假如所有的文章都不包含这个词，那这个词为什么会被拿来计算呢
matplotlib取消边框
Acowardintheworld: 谢啦就是这个看到好几篇文章，全都是基于子图的
Hmm 和CRF区别
fishguy2022: crf也可以分词啊，词性标注不就是分词吗
利用tf-idf计算文本相似度
lppfwl: idf值是不是有可能会出现负数呢？当所有文档都出现这个词的时候，df=文档总数，这个时候log(文档总数/(df+1))就为负

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。