李航《统计学习方法》第2版第10章 HMM实现分词（代码实现）

最新推荐文章于 2022-04-26 16:01:07 发布

#苦行僧

最新推荐文章于 2022-04-26 16:01:07 发布

阅读量511

点赞数 2

分类专栏：李航统计学习课后解答文章标签：机器学习统计学

本文链接：https://blog.csdn.net/weixin_43646592/article/details/113064681

版权

李航统计学习课后解答专栏收录该内容

36 篇文章 99 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文通过李航《统计学习方法》第2版第10章内容，介绍了如何使用HMM（隐马尔科夫模型）进行中文分词。文章详细阐述了HMM的四种状态：B（词语开头）、M（词语中间）、E（词语结束）、S（非词语），并讲解了Baum-Welch算法用于学习模型，以及维特比算法用于预测分词。实验数据集选用了1998年人民日报的中文标注语料库，并提供了相关链接和提取码。

摘要由CSDN通过智能技术生成

利用HMM模型实现分词：
四种状态：
B：词语的开头
M：一个词语的中间词
E：一个词语的结果
S：非词语，单个词
学习：Baum-Welch算法
预测：维特比算法
数据集：人民日报1998年中文标注语料库
链接：https://pan.baidu.com/s/1SKi9DUjxuh6tENfm6jmNCA
提取码：hz3q
复制这段内容后打开百度网盘手机App，操作更方便哦

代码引用自：www.pkudodo.com

#coding=utf-8
#Author:Dodo
#Date:2018-12-10
#Email:lvtengchao@pku.edu.cn
#Blog:www.pkudodo.com
'''
学习：Baum-Welch算法
预测：维特比算法
数据集：人民日报1998年中文标注语料库
------------------------------
运行结果：
-------------------原文----------------------
深圳有个打工者阅览室
去年１２月，我在广东深圳市出差，听说南山区工商分局为打工者建了

了解本专栏

超级会员免费看

#苦行僧

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
李航《统计学习方法》第2版第10章 HMM实现分词（代码实现）

利用HMM模型实现分词：四种状态：B：词语的开头M：一个词语的中间词E：一个词语的结果S：非词语，单个词学习：Baum-Welch算法预测：维特比算法数据集：人民日报1998年中文标注语料库链接：https://pan.baidu.com/s/1SKi9DUjxuh6tENfm6jmNCA提取码：hz3q复制这段内容后打开百度网盘手机App，操作更方便哦代码引用自：www.pkudodo.com#coding=utf-8#Author:Dodo#Date:2018-12-10
复制链接

扫一扫