背景:分析用户在世界杯期间讨论最多的话题。
思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下:
后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。
==================================================
* 中文分词常用实现:
单机:R语言+Rwordseg分词包 (建议数据量<1G)
分布式:Hadoop+Smallseg库
词库:Sougou词库,Sougou输入法官网可下载
这里只先介绍单机的实现:
1、R语言:专门用于统计分析、绘图的语言
2、Rwordseg分词包:引用了@ansj开发的ansj中文分词工具,基于中科院的ictclas中文分词算法,无论是准确度还是运行效率都超过了rmmseg4j。
* 环境准备 (Windows或Linux版本都行):
R下载:http://mirrors.ustc.edu.cn/CRAN/
Rwordseg包下载:https://r-forge.r-project.org/R/?group_id=1054
rJava包下载:http://cran.r-project.org/web/packages/rJava/index.html
Rwordseg和rJava这些包解压后放到\R\R-3.1.0\library即可
* R语言实现代码
- # 加载rJava、Rwordseg库
- library(rJava);
- library(Rwordseg);