自然语言处理学习笔记(006)

常用的分词方法         自然语言处理常用的分词方法有正向和逆向最大匹配、最短路径、全切分、最大概率、N-最短路径等方法。现在流行起来的还有最大熵模型、HMM模型、决策树、BP神经网络、n-gram等方法。        现在我很想把它们在分词中的联系和区别都一一搞清楚。        最大匹配分词方法简单、容易实现, 但是无法解决上面提到的歧义问题。因此分词结果的正确率不是很高, 导致最终的标注结果的准确率较低。        比如对于以下两个句子进行切分:      (1)“这件事未终了”进行正向和逆向最大匹配算法:正向最大匹配算法:这件|事|未终|了逆向最大匹配算法:这件|事|未|终了      (2)“我有意见分歧”进行正向和逆向最大匹配算法: 正向最大匹配算法:我|有意|见|分歧 逆向最大匹配算法:我|有|意见|分歧        到底是”终了“还是”未终“,”有意“还是”意见“,不同的分词算法就会产生不同的歧义。        百度的算法对大于等于三个字的句子进行分词。如下图所示:
图片
       最短路径方法是使切分出来的词数最少, 但是最短路径经常不只一条, 不科学的舍弃原则也影响了分词结果。前人在此基础上引入N-最短路径方法, 该方法保留了条较短路径, 即分词结果有多条, 体现了很好的包容性, 可以最大限度的包容正确结果。此外最大概率分词方法也是一个较好的分词方法, 它的理论依据是联合概率最大的词串就是最终的切分结果。而而全切分方法与以上方法的不同之处在于它切分出了所有可能的切分结果, 不在分词阶段做排除工作。      

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值