【Python自然语言处理】中文分词技术——统计分词

最新推荐文章于 2024-04-04 15:52:40 发布

XD1998

最新推荐文章于 2024-04-04 15:52:40 发布

阅读量2.9k

点赞数 4

分类专栏： Python自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xd963625627/article/details/104613576

版权

中文分词方法

本文参考自书籍《Python自然语言处理实战：核心技术与算法》
用做个人的学习笔记和分享

1. 规则分词

规则分词的详细笔记

2. 统计分词

2.1 一般步骤

建立统计语言模型。
句子划分为单词，对划分结果进行概率分析，获得概率最大的分词方式。
常用统计学习算法：隐马尔可夫、条件随机场。

2.2 语言模型

语言模型的形式化描述：
长度为m的字符串的概率分布：
$P(w_1,w_2,...,w_m)=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)...P(w_m|w_1,w_2,...,w_{m-1}) \tag{1}$
其中 $w_1$ 到 $w_m$ 依次表示文本中的各个词语，采用链式法则计算概率值。

n-gram模型：文本过长，计算难度大，可忽略距离大于等于n的上文词的影响：
$P(w_i|w_1,w_2,...,w_{i-1})≈P(w_i|w_{i-(n-1)},...,w_{i-1}) \tag{2}$
一元模型：n=1，在一元语言模型中，整个句子的概率等于各个词语概率的乘积。言下之意就是各个词之间都是相互独立的，这无疑是完全损失了句中的词序信息。所以一元模型的效果并不理想：
$P(w_1,w_2,...,w_m)=P(w_1)P(w_2)...P(w_m) \tag{3}$
二元模型：n=2，式(2)变为：
$P(w_i|w_1,w_2,...,w_{i-1})≈P(w_i|w_{i-1}) \tag{4}$

最低0.47元/天解锁文章

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【Python自然语言处理】中文分词技术——统计分词

中文分词方法本文参考自书籍《Python自然语言处理实战：核心技术与算法》用做个人的学习笔记和分享1. 规则分词规则分词的详细笔记2. 统计分词3. 混合分词...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。