自然语言处理学习笔记(006)_最大正向扫描方式进行分词我们经常有有意见分歧-CSDN博客

本文链接：https://blog.csdn.net/yemantu5/article/details/8056945

常用的分词方法自然语言处理常用的分词方法有正向和逆向最大匹配、最短路径、全切分、最大概率、N-最短路径等方法。现在流行起来的还有最大熵模型、HMM模型、决策树、BP神经网络、n-gram等方法。现在我很想把它们在分词中的联系和区别都一一搞清楚。最大匹配分词方法简单、容易实现, 但是无法解决上面提到的歧义问题。因此分词结果的正确率不是很高, 导致最终的标注结果的准确率较低。比如对于以下两个句子进行切分：（1）“这件事未终了”进行正向和逆向最大匹配算法：正向最大匹配算法：这件|事|未终|了逆向最大匹配算法：这件|事|未|终了（2）“我有意见分歧”进行正向和逆向最大匹配算法：正向最大匹配算法：我|有意|见|分歧逆向最大匹配算法：我|有|意见|分歧到底是”终了“还是”未终“，”有意“还是”意见“，不同的分词算法就会产生不同的歧义。百度的算法对大于等于三个字的句子进行分词。如下图所示：

最短路径方法是使切分出来的词数最少, 但是最短路径经常不只一条, 不科学的舍弃原则也影响了分词结果。前人在此基础上引入N-最短路径方法, 该方法保留了条较短路径, 即分词结果有多条, 体现了很好的包容性, 可以最大限度的包容正确结果。此外最大概率分词方法也是一个较好的分词方法, 它的理论依据是联合概率最大的词串就是最终的切分结果。而而全切分方法与以上方法的不同之处在于它切分出了所有可能的切分结果, 不在分词阶段做排除工作。