NLP数据标注

业界nlp任务中,给业务方提供的nlp原始数据打标签本身就是任务最耗时间,最麻烦的一部分。

最常用的办法还是用正则打标签冷启动加主动学习的办法训练模型。首先用正则打标签的训练集训练初始模型,之后手工挑选模型标的不对的样本,人工打标签,扔回去再训练迭代,依次反复。规则和标签一般需要业务来定义,做好对数据的标签管理,后续才能做更深层系的分析工作。真正遇到大型,场景固定,且不涉及商业机密的nlp任务,比如某些客服对话系统,才会用到外包团队,人工打标签,制作训练集。

正则和词典之类的方法,只要规则问题不大,大部分情况下都有很高的准确率,但召回不足,需要模型来补召回。模型是具有泛化能力的,一个正样本过正则没识别,过模型可能就有了,召回率就会提升。项目刚启动的时候,因为没有数据,需要用正则产生一批数据让模型训练,这样模型就具有了正则的能力,还会具备部分泛化的能力。后续不断地添加数据,对预测数据进行标注迭代模型,使得模型的泛化效果就会不断提升。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值