NLP数据标注

最新推荐文章于 2024-05-14 16:52:38 发布

hhxx2025

最新推荐文章于 2024-05-14 16:52:38 发布

阅读量2k

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46537007/article/details/108442751

版权

业界nlp任务中，给业务方提供的nlp原始数据打标签本身就是任务最耗时间，最麻烦的一部分。

最常用的办法还是用正则打标签冷启动加主动学习的办法训练模型。首先用正则打标签的训练集训练初始模型，之后手工挑选模型标的不对的样本，人工打标签，扔回去再训练迭代，依次反复。规则和标签一般需要业务来定义，做好对数据的标签管理，后续才能做更深层系的分析工作。真正遇到大型，场景固定，且不涉及商业机密的nlp任务，比如某些客服对话系统，才会用到外包团队，人工打标签，制作训练集。

正则和词典之类的方法，只要规则问题不大，大部分情况下都有很高的准确率，但召回不足，需要模型来补召回。模型是具有泛化能力的，一个正样本过正则没识别，过模型可能就有了，召回率就会提升。项目刚启动的时候，因为没有数据，需要用正则产生一批数据让模型训练，这样模型就具有了正则的能力，还会具备部分泛化的能力。后续不断地添加数据，对预测数据进行标注迭代模型，使得模型的泛化效果就会不断提升。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NLP数据标注

工业界nlp任务中，给业务方提供的nlp原始数据打标签本身就是任务最耗时间，最麻烦的一部分。最常用的办法还是用正则打标签冷启动加主动学习的办法训练模型。首先用正则打标签的训练集训练初始模型，之后手工挑选模型标的不对的样本，人工打标签，扔回去再训练迭代，依次反复。规则和标签一般需要业务来定义，做好对数据的标签管理，后续才能做更深层系的分析工作。真正遇到大型，场景固定，且不涉及商业机密的nlp任务，比如某些客服对话系统，才会用到外包团队，人工打标签，制作训练集。正则和词典之类的方法，只要规...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。