中文标准标注语料的标注中的几个问题

本识

于 2020-03-12 17:41:20 发布

阅读量2k

点赞数 1

分类专栏：工具介绍文章标签：自然语言处理机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44038242/article/details/104496417

版权

想让机器能够跟人一些样非常智能地处理自然语言，一直是我们的梦想。实现这个理想涉及到很多领域的技术，不管如何设计，自然语言处理（NLP）技术是必备的一环。

而自然语言处理中，想要训练一个好的模型，语料是绕不过去的门槛。没有语料，哪里来的模型？而且语料标注规则是否统一、自洽是训练自动处理模型的关键。不管项目大小，拥有相当规模的语料就成了关键。

语料从何而来？寻求供应商当然是最快最便捷的方法。然而供应商的技术、标注管理水平决定了交付语料的质量。虽然代价和风险不小，但仍然很少有人愿意花时间自己标注一份语料。语料的标注涉及到很多问题。中文语料也相对更难一些。

中文标注与其他语言不同，中文词汇间不存在明显的间隔指示（类似语言还有很多种），由此产生了很多奇妙的语言现象。所谓‘明句读’就是指学习的时候需要明白如何分句，分词。不同的切分方法也产生个各种类型的歧义。

如何做好中文语料的标注，是一个古老且成熟的话题。然而，随着模型的逐渐发展和成熟，很多基础的标注方法也还有很多优化空间。对于我们来讲，所有的切分、实体识别、事件提取、等等或简单或复杂的问题都可以转换为标注问题。

一个好的标注方法和平台可以让中文标注更加高效。我们在标注平台的开发和使用过程中，遇到了很多问题，总结如下：

1，标注规范及标签集的建设。
设计建造一套可以适用于本行业本领域的标签难度很高。标签间的自洽，标签层级等问题，会涉及到标注成本，后期模型训练模型训练成本，识别效率等。
标签设计粗放，标签集小，标注难度较低，训练效率高成本低；标签集大，标注难度高，训练效率低，

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
中文标准标注语料的标注中的几个问题

想让机器能够跟人一些样非常智能地处理自然语言，一直是我们的梦想。实现这个理想涉及到很多领域的技术，不管如何设计，自然语言处理（NLP）技术是必备的一环。而自然语言处理中，想要训练一个好的模型，语料是绕不过去的门槛。没有语料，哪里来的模型？而且语料标注规则是否统一、自洽是训练自动处理模型的关键。不管项目大小，拥有相当规模的语料就成了关键。语料从何而来？寻求供应商当然是最快最便捷的方法。然而供应商...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。