中文标准标注语料的标注中的几个问题

想让机器能够跟人一些样非常智能地处理自然语言,一直是我们的梦想。实现这个理想涉及到很多领域的技术,不管如何设计,自然语言处理(NLP)技术是必备的一环。

而自然语言处理中,想要训练一个好的模型,语料是绕不过去的门槛。没有语料,哪里来的模型?而且语料标注规则是否统一、自洽是训练自动处理模型的关键。不管项目大小,拥有相当规模的语料就成了关键。

语料从何而来?寻求供应商当然是最快最便捷的方法。然而供应商的技术、标注管理水平决定了交付语料的质量。虽然代价和风险不小,但仍然很少有人愿意花时间自己标注一份语料。语料的标注涉及到很多问题。中文语料也相对更难一些。

中文标注与其他语言不同,中文词汇间不存在明显的间隔指示(类似语言还有很多种),由此产生了很多奇妙的语言现象。所谓‘明句读’就是指学习的时候需要明白如何分句,分词。不同的切分方法也产生个各种类型的歧义。

如何做好中文语料的标注, 是一个古老且成熟的话题。然而,随着模型的逐渐发展和成熟,很多基础的标注方法也还有很多优化空间。对于我们来讲,所有的切分、实体识别、事件提取、等等或简单或复杂的问题都可以转换为标注问题。

一个好的标注方法和平台可以让中文标注更加高效。我们在标注平台的开发和使用过程中,遇到了很多问题,总结如下:

1,标注规范及标签集的建设。
设计建造一套可以适用于本行业本领域的标签难度很高。标签间的自洽,标签层级等问题,会涉及到标注成本,后期模型训练模型训练成本,识别效率等。
标签设计粗放,标签集小,标注难度较低,训练效率高成本低;标签集大,标注难度高,训练效率低,

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值