- 博客(1)
- 收藏
- 关注
原创 NLP数据标注
工业界nlp任务中,给业务方提供的nlp原始数据打标签本身就是任务最耗时间,最麻烦的一部分。 最常用的办法还是用正则打标签冷启动加主动学习的办法训练模型。首先用正则打标签的训练集训练初始模型,之后手工挑选模型标的不对的样本,人工打标签,扔回去再训练迭代,依次反复。规则和标签一般需要业务来定义,做好对数据的标签管理,后续才能做更深层系的分析工作。真正遇到大型,场景固定,且不涉及商业机密的nlp任务,比如某些客服对话系统,才会用到外包团队,人工打标签,制作训练集。 正则和词典之类的方法,只要规...
2020-09-07 10:31:05 2048
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人