中文分词技术主要有以下三类:
-
规则分词 新词难处理
-
统计分词 太依赖语料质量
-
混合分词(规则+统计)
一、规则分词
基于规则分词是一种机械的分词方法,需要维护词典,将词语中每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
主要有三种方式进行匹配切分
- 正向最大匹配法 南京市长/江/大桥 (词典中存在南京市长和长江大桥,由于是正向匹配所以先匹配到南京市长,然后再匹配到江和大桥)
- 逆向最大匹配法 实际处理中将文档进行倒排处理,然后与逆序词典进行匹配。由于汉语中偏正结构较多,若从后向匹配,可以适当的提高精确度。南京市/长江大桥
- 双向最大匹配 是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取数切分最少的作为结果
二、统计分词
- 建立统计语言模型
- 对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。如 HMM, CRF(条件随机场)
N-gram model
N元模型就是在估算条件概率时,忽略距离大于等于n的上文词的影响,因此化简为
HMM模型
是将分词作为字在字串中的序列标注的任务来实现的,基本思路是:每个字在构造一个特定的词语时都占据这一个确定的构词位置(词位):B(begin),M(middle),E(end),S(single word)
代表输入的句子,n为句子长度,表示字,代表输出的标签(B/M/E/S)。
理想的输出为 关于2n个变量的条件概率,引入独立观测假设确实可以解决计算问题,(假设每个字的输出仅仅与当前字有关),但是B/M/E/S的标记实际上字与字之间是有关联性的,因此引入HMM算法来解决关联以及计算问题。
齐次马尔科夫假设
发射概率,转移概率