NLP训练降低人工标注工作量的方法（一）

最新推荐文章于 2022-05-18 16:20:56 发布

wyyiam

最新推荐文章于 2022-05-18 16:20:56 发布

阅读量580

点赞数 1

文章标签：自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyyiam/article/details/118337768

版权

去年我在做股票市场的情绪指数的时候，遇到了词库及其不匹配的情况。市面上对于一些股吧上的词库是比较少的，所以必须自己创建词库。

但为了训练，我们必须对每一个句子都进行情绪的标注，几百万条的数据对于我们团队2个人而言有点不可逾越。

所以到目前位置我们应用了两种方式进行（单单对于评论而言，而不是文章），效果提升都非常明显从0.4~0.5提升到0.7~0.9

一、绝对词来代替标注(自己想的)

绝对词就是：一个句子有了这个词大概率会指向一种情绪

比如：牛逼。有了这个词的句子大概率会是正向的情绪。虽然也有例外：不是那么牛逼，一点都不牛逼。但是大概率是的。

我们的做法就是，先通过jieba分词，再删去停用词（，。等，具体资源可以上网搜索，百度这些都有专门的停用词txt的），找出出现频率最高的1000个词，从上往下看，如果看到第一眼就觉得有了这个词这个句子大概率是正向的就标注为1，反之为-1，看不出来的标记为0

然后把所有含有标注1的词的句子打分全为正向，-1的全为负向，同时含有的看数量，一样的话就为0.然后丢进去学习（我们的环境是snowNLP）

这样虽然是一个比较粗略的办法，但有效的提高了句子情绪判断的准确率，省下了大量工时

原理：因为一般人们的语言都习惯于同类词会一起出现，透过这样标注，让模型也能够学到别的正向或负向词进行打分

相对于60w笔的数据，只需要标注1000词，600分之一的工作量就可以完成

二、使用active learning（这个是在我朋友的导师的paper上看到的）

直接说方法：先随机标注一部分，丢进去训练

然后预测全部的数据

拿出中间预测最难判断的（情绪分为0的）一部分，再进行标注

一直往复

那位老师的研究结果是，最后只需要八分之一的标注量就可以达到和全部标注一样的训练效果

下图是论文出处

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP训练降低人工标注工作量的方法（一）

去年我在做股票市场的情绪指数的时候，遇到了词库及其不匹配的情况。市面上对于一些股吧上的词库是比较少的，所以必须自己创建词库。但为了训练，我们必须对每一个句子都进行情绪的标注，几百万条的数据对于我们团队2个人而言有点不可逾越。所以到目前位置我们应用了两种方式进行，效果提升都非常明显从0.4~0.5提升到0.7~0.9一、绝对词来代替标注绝对词就是，有了这个词这个句子一定会...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。