分词是进行词性标注、命名实体识别、关键词提取、文本聚类等后续自然语言处理任务的基础,也是语义分析等深层次文本理解任务的基础。
研究方法主要分为 三种:
• 基于规则的方法
• 基于传统机器学习模型的方法:
0. N-gram语言模型
N-gram 语言模型是用来计算一个词串或者是一句话W=w1w2…wn出现概率的统计模型。N-gram 模型假设某词的出现概率只与该词前面的 n-1 个。
对于 N-gram 语言模型,在参数估计方面一般采取最大似然估计。利用语料数据中词汇同现的相对频率就可以得到条件概率的极大似然估计
1. 隐马尔可夫模型(HiddenMarkovMode,HMM)
隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。
2. 最大熵(MaxmiumEntropy,ME)
最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。
3. 支持向量机(Support VectorMachine,SVM)
最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些
4. 条件随机场( ConditionalRandom Fields,CRF)
条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。