中文分词工具Rwordseg

简介:

Rwordseg 是一个R环境下的中文分词工具,使用rJava调用Java分词工具Ansj。

Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、 用户自定义词典。详细信息可以参考作者孙健的专访以及项目的Github地址

当前版本的Rwordseg包完全引用了 Ansj 包,只是简单提供了R的接口,并根据R中处理文本的习惯进行了调整,在此对原作者孙健表示强烈的敬意!之所以没有命名为ransj,是因为以后可能还会纳入其他的 分词工具或者自己开发一些新的功能。

详细的介绍见该R包的中文文档:

使用说明(最近更新2013-12-15):

  Rwordseg_Vignette_CN.pdf (367.6 KB, 7,034 次)

获取方式:

本项目目前发布在R-forge,在最新版本的R下可以直接安装:

1
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")


如果是旧版本的R,可以通过source的方式进行安装:

1
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org", type = "source")


初次使用须知:

该包依赖于rJava包和Java环境,在安装之前需要确保JRE和rJava包已经安装(安装rJava的方式可以参考本站博客R与JAVA的整合),并且正确地设置了环境变量。当前版本的R包在JRE 1.6.0_32下测试通过。如果不确定本机是否有JRE,可以搜索Oracle网站的JRE进行安装。以Windows系统为例,假设JRE安装目录为D:\jdk1.6.0_32\jre,R安装在D:\R\R-3.0.2,那么需要将如下路径添加到PATH环境变量中。

  • D:\jdk1.6.0_32\jre\bin
  • D:\jdk1.6.0_32\jre\bin\client
  • D:\jdk1.6.0_32\jre\bin\server
  • D:\R\R-3.0.2\library\rJava\jri

版本更新记录:

2013/12/15,Rwordseg_0.2-1

优化了词典管理的方法,对所有函数的实现方式进行了比较大的调整。对于分词,提供了文件输入的支持;对于词典管理,安装后不再需要重启;对于新词的添加,增加了保存到词典的选项。另外对于字符编码也进行了优化。中文文档也进行了很重要的更新。在更新本次最新版本时,最好在安装前到R的library文件夹中将旧的Rwordseg包全部删除,如果之前保存了词典,记得将词典备份出来。

2013/12/04,Rwordseg_0.1-1

增加了对繁体字的支持,优化了分词的代码,可以正常输出繁体字和英文。更新Java库到最新版本 ansj_seg-0.9.1。

2012/12/25,Rwordseg_0.0-4

增加了对Sogou的scel细胞词库的支持;修复了自定义词典中文编码的Bug;优化了词典管理的功能;更新了vignette文档,增加了例子。

2012/12/25,Rwordseg_0.0-3

增加了选择是否自动识别人名的参数,从而修复了之前自动识别人名和自定义词典冲突的问题。更新了vignette文档。

2012/12/24,Rwordseg_0.0-2

修复了空字符串报错的Bug和默认UTF-8环境下出错的Bug,更新了vignette文档。

2012/12/23,Rwordseg_0.0-1

第一次在本主页发布,具备分词、词性识别、导入词典、自定义词典、添加新词、删除新词的功能。


转自:http://jliblog.com/app/rwordseg

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值