中文分词技术常见的有两大类:机械分词技术、基于统计的序列标注技术。
机械分词技术操作简单、方便,比较省心,但是对于歧义词以及未登录词的效果并不是很好;
统计模型的序列标注方法,对于识别未登录词拥有较好的识别能力,而且分词精度也比较大,同时这个方法可以不分中文、英语,着重看在语言前后顺序。
https://blog.csdn.net/sinat_26917383/article/details/52275328
https://blog.csdn.net/sinat_26917383/article/details/55682577