文章目录
一、分词
中文中常用的分词工具(Word Segmentation Tools)有JieBa分词,SnowNlp,HanLP。
1.最大匹配分词法
最大匹配分词法是一种基于字符串匹配和规则的方法,这种方法依赖于词典的信息,对于词典以外的信息,认为没有见过。最大匹配分词法会优先考虑长词,如果优先考虑短词则是最小匹配分词法。如果从前往后匹配则是前向匹配,如果从后往前匹配则是后向匹配。
以前向最大匹配法,这句话会分成
他 说 的确 实在 理
以后向最大匹配法,这句话会分成
他 说 的 确实 在理
在汉语中,后向匹配的准确率比前向匹配的准确率高,这是因为汉语中存在中心词偏后的现象。
最大匹配法的缺点是什么?
这种方法的优势在于切分简单,很容易将待切分的字符串分成不同的词,但是这种方法很容易生成不符合语法逻辑的分词结果,不符合汉语常用的语法规则(不像人话)。
2.基于语言模型的分词
语言模型可以说是自然语言处理中最重要的模型。语言模型可以看做是一个函数,用于计算一个句子出现的概率,即语言模型可以判断某一句话是不是人话。那么我们怎么利用语言模型进行分词呢?我们可以采取这样的套路,对于待切分的句子,我们生成所有可能的切分,使用语言模型对所有可能的分词模型进行打分,选择概率最高的作为分词结果,最终得到最符合语言模型的结果。其原理为:
这样求解下来,容易出现数据稀疏问题,如果假设:假设每个词的出现概率是独立的,那样,就可以将上面的条件概率分布简化为如下一元语言模型: