概念:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
字符匹配:
-
正向最大匹配
-
逆向最大匹配
-
最少切分(使每句话中切分的词最少)
-
双向最大匹配
逆向匹配的切分精度略高于正向匹配,遇见歧义的现象也比较少。
基本原理是,将字符串与字典中的内容进行匹配,找到匹配的长度最大的词语,就将它分割成一个词语。由于中文比较复杂,各种语境下的分词可能有些不同。所以一般在实现过程中,需要对扫描方式进行进一步的优化。
理解法:
让计算机模拟人类的思考方式去分析文章的内容。