【R文本挖掘】中文分词Rwordseg

最新推荐文章于 2019-12-11 23:38:22 发布

拱头

最新推荐文章于 2019-12-11 23:38:22 发布

阅读量749

点赞数

分类专栏： R语言

R语言专栏收录该内容

14 篇文章 5 订阅

订阅专栏

以下内容来源于 : http://blog.163.com/zzz216@yeah/blog/static/162554684201412895732586/

http://jliblog.com/app/rwordseg 有一个简单的中文说明文档

下载安装方法：

install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")

注意在之前要安装好JAVA，并配置后JAVA环境

1. 分词操作：

（1）segmentCN(strwords)

> segmentCN("你好北京")
[1] "你好" "北京"

（2）如果输入参数是字符向量，则返回列表

> segmentCN(c("你好北京","今天是个好天气"))

[[1]]

[1] "你好" "北京"

[[2]]

[1] "今天" "是" "个" "好" "天气"

（3）returnType参数默认是输出向量或列表，若设置成”tm”，则可以输出tm格式的字符串

（4）strwords还可以是某个文本文件的路径，并且可用outfile参数指输出，默认是原路径下。

（5）blocklines 表示每次读入的行数，默认是1000行

2.词典管理

词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。

（1）安装词典

installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)

dictname 是自定义词典的名称(英文)

dicttype 默认是txt

load 表示安装后是否自动加载到内存，默认是TRUE

> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真" "武" "七" "截" "阵" "和" "天罡" "北斗" "阵" "哪个" "厉害"
> installDict("C:\\Users\\Administrator\\Desktop\\金庸武功招式.scel","jinyong")
932 words were loaded! ... New dictionary 'jinyong' was installed!
安装之后的效果

> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真武七截阵" "和" "天罡北斗阵" "哪个" "厉害"

（2） listDict() 显示安装的词典

（3） uninstallDict() 删除安装的词典

（4）自定义词典

默认词典的安装目录是%R_HOME%\library\Rwordseg\dict，只需将自己的词典放到这里即可，后缀为.dic

修改之后每次重启都会导入dict目录下的词典，若想立即就生效可使用

LoadDict()函数

（5）如果这是在内存中临时添加或删除词汇，可以使用insertWord()和deleteWord()函数

拱头

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【R文本挖掘】中文分词Rwordseg

以下内容来源于 : http://blog.163.com/zzz216@yeah/blog/static/162554684201412895732586/http://jliblog.com/app/rwordseg 有一个简单的中文说明文档下载安装方法：install.packages("Rwordseg", repo
复制链接

扫一扫

专栏目录