中文分词的一点研究

在中文分词中,歧义性分词是一个难点,其中如下一类分词,比较具有代表性,如果能把这类句子能够正确切分,相信能很好地提高分词效果。
原句:沿海南方向逃跑
分词a:沿海x 南方x 向x 逃跑x
分词b:沿x 海南x 方向x 逃跑x
分词c:沿海x 南x 方向x 逃跑x


原句:购买网球鞋
分词a:购买x 网球x 鞋x
分词b:购买x 网x 球鞋x


原句:中国有石油
分词a:中国x 有x 石油x
分词b:中x 国有x 石油x


原句:经常开会议
分词a:经常x 开x 会议x 
分词b:经常x 开会x 议x
分词c: 经x 常开x 会议x



这类句子有个特点,整个词长为5,都被切分成3个词,每个句子都含有1~2个歧义词,他们的有效文本长度相等,词元个数相同,词元平均长度也相同,到底该如何切分呢?是切分成212型,221型还是122型呢?

通过学习MMSeg和IK Analyzer 两种分词软件,发现两个软件都有可能误判,但处理规则不同。

IK Analyzer的规则是提前确定好的,如果是在212和221中选择,IK会选择212(因为词文本跨度比较大),如果是在212和122中选择,Ik会选择212(因为词文本跨度大),如果是在221和122中选择,IK会选择122。

MMSeg的规则也是提前确定好的,但还留有一定的灵活性,在这种情况下,它会比较剩余的单字的自由度(即字的词频)。由于词典是开放的,我们可以通过微调字的频率。来修正切词结果。

从这一点上看,感觉MMSeg要比IK Analyzer好一些。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值