结巴分词主要为结合基于规则分词和基于统计分词两者的分词算法。其主要思想为:
· 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);
· 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;
· 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。
结巴分词主要为结合基于规则分词和基于统计分词两者的分词算法。其主要思想为:
· 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);
· 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;
· 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。