1、中文分词
中文分词的使用场景:搜索引擎、新闻网站
体验分词:http://ai.baidu.com/tech/nlp/lexical
常见分析方法:
- 词典的机械切分
- 模型的序列标注
中文分词的难点:
- 歧义切分
- 未登录词识别(新词)
2、语言模型
2.1原理
一个句子是否合理,就看它的概率大小如何,我们可以将一个句子表示为词的联合概率,并用条件概率公式写出来,可以使用频率估计条件概率,复杂的条件概率比较难计算,马尔可夫假设被提出,句子的联合概率可以被改写成N-Gram形式的条件概率,语言模型随着元数据的增加,时间空间复杂度都很高,而且会遇到零概率的问题,这导致语言模型不能处理更长期的依赖,语言模型的悬链就是统计条件概率,处理零概率可以使用一些平滑策略。
2.1.1联合概率
2.2.2条件概率估计