NLP文本预处理:分词

本文探讨了自然语言处理中预处理的重要步骤——分词,主要介绍了前、后项最大匹配法和维特比算法。前、后项最大匹配通过逐步减少字数寻找词典中的词汇;维特比算法利用字与字之间的概率进行最优化路径选择。这两种方法对于准确理解文本内容至关重要。
摘要由CSDN通过智能技术生成

NLP文本预处理:分词

分词方法:前、后项最大匹配,维特比算法。

前、后项最大匹配:设置一个最大分词区间,在前、后每次找设定好的字数看在词袋中是否有。没有则字数减1重复找,直到找到词袋中存在的词,作为第一个分词。

维特比算法:将语句中的单个字为元素,在字前后加入节点,字作为连接节点的边。按前后顺序连成一条直线,边上写上从一个字到另一个字的概率。然后,以两个字为单位在词袋中找,如果存在则连接这两条边的起终节点,并标上概率,直到找完最长分词的情况。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值