【NLP】中文自动分词的三大难题

1)未登录词:自动分词主要是根据底表来进行的,真实文本中存在大量的未见于底表的词语,它对自动分词正确率的影响最大。

2)分词歧义:根据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至少有一种切法是不正确的。

3)分词不一致:上下文相同或相似情况下,一个串在分词语料库中有多种切法,也许几种切法都有道理,但应该保持一致。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值