在中文分词中,歧义性分词是一个难点,其中如下一类分词,比较具有代表性,如果能把这类句子能够正确切分,相信能很好地提高分词效果。
原句:沿海南方向逃跑
分词a:沿海x 南方x 向x 逃跑x
分词b:沿x 海南x 方向x 逃跑x
分词c:沿海x 南x 方向x 逃跑x
原句:购买网球鞋
分词a:购买x 网球x 鞋x
分词b:购买x 网x 球鞋x
原句:中国有石油
分词a:中国x 有x 石油x
分词b:中x 国有x 石油x
原句:经常开会议
分词a:经常x 开x 会议x
分词b:经常x 开会x 议x
分词c: 经x 常开x 会议x
这类句子有个特点,整个词长为5,都被切分成3个词,每个句子都含有1~2个歧义词,他们的有效文本长度相等,词元个数相同,词元平均长度也相同,到底该如何切分呢?是切分成212型,221型还是122型呢?
通过学习MMSeg和IK Analyzer 两种分词软件,发现两个软件都有可能误判,但处理规则不同。
IK Analyzer的规则是提前确定好的,如果是在212和221中选择,IK会选择212(因为词文本跨度比较大),如果是在212和122中选择,Ik会选择212(因为词文本跨度大),如果是在221和122中选择,IK会选择122。
MMSeg的规则也是提前确定好的,但还留有一定的灵活性,在这种情况下,它会比较剩余的单字的自由度(即字的词频)。由于词典是开放的,我们可以通过微调字的频率。来修正切词结果。
从这一点上看,感觉MMSeg要比IK Analyzer好一些。