中文分词实践（基于R语言）

最新推荐文章于 2024-07-10 16:47:28 发布

_依然_

最新推荐文章于 2024-07-10 16:47:28 发布

阅读量1.3w

点赞数 2

分类专栏：大数据处理文章标签：中文分词 R语言 ictclas

本文链接：https://blog.csdn.net/yyyiran/article/details/37738223

版权

背景：分析用户在世界杯期间讨论最多的话题。

思路：把用户关于世界杯的帖子拉下来，然后做中文分词+词频统计，最后将统计结果简单做个标签云，效果如下：

后续：中文分词是中文信息处理的基础，分词之后，其实还有特别多有趣的文本挖掘工作可以做，也是个知识发现的过程，以后有机会再学习下。

==================================================

* 中文分词常用实现：

单机：R语言+Rwordseg分词包 (建议数据量<1G)
分布式：Hadoop+Smallseg库
词库：Sougou词库，Sougou输入法官网可下载
这里只先介绍单机的实现：
1、R语言：专门用于统计分析、绘图的语言
2、Rwordseg分词包：引用了@ansj开发的ansj中文分词工具，基于中科院的ictclas中文分词算法，无论是准确度还是运行效率都超过了rmmseg4j。

* 环境准备 (Windows或Linux版本都行)：

R下载：http://mirrors.ustc.edu.cn/CRAN/
Rwordseg包下载：https://r-forge.r-project.org/R/?group_id=1054
rJava包下载：http://cran.r-project.org/web/packages/rJava/index.html
Rwordseg和rJava这些包解压后放到\R\R-3.1.0\library即可

* R语言实现代码