使用R语言进行中文分词

本文介绍了如何在R语言中进行中文分词,包括安装Rwordseg包,使用insertWords和deleteWords函数处理分词问题,以及加载和使用搜狗扩展词库提高分词准确性。
摘要由CSDN通过智能技术生成


1.准备包

    ①rJava包

    ② Rwordseg包

    ③java环境

    ④搜狗词库(此为扩展词库)

   Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面,而是在R-Forge上面,因此在在R软件上面直接输入install.packages("Rwordseg")会提示错误。因此,我们需要在软件菜单栏点击 程序包

   选择软件库 在选择R-Forge 即可,然后输入install.packages("Rwordseg")应该就OK了。或者输入下面代码:

install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")

一切准备工作做好了我们就可以进行分词了。首先加载我们所需要的包。然后对“ 我非常喜欢《跟着菜鸟一起学R语言》这个微信公众号 ”这句话进行分词。

library(Rwordseg)
library(rJava)
text<-"我非常喜欢《跟着菜鸟一起学R语言》这个微信公众号"
segmentCN(text)

分词结果为:

[1] "我"    "非常"  "喜欢"  "跟"    "着"    "菜"    "鸟"    "一起"  "学"    "R语言"     "这个"  "微信

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值