系列文章
R语言进行系统聚类分析并作图(数据来源国家统计局)
R语言载入arules程序包的Epub数据集,使用Apriori算法,进行关联规则分析
R语言利用贝叶斯分类法(klaR程序包),训练数据集,预测数据的分类
前言
起因是物流技术与管理课居然学到了数据挖掘,令我想起大一曾经上过的《中小企业咨询策划服务解决方案》,也是学到R语言进行数据挖掘和数据清洗,可谓是我的数据挖掘与数据分析入门课。虽感慨颇多,但知识忘得七七八八,于是打算写下来供以后翻阅。
关于R语言和RStudio的介绍
一、安装R语言(Rgui)
进入R语言官网,选择清华的镜像后,下载Windows版本。运行安装程序,将R语言安装到D盘。
安装完成后,Rgui的界面长这样:
二、安装RStudio
进入R语言集成开发环境的官网,进入下载页面,选择免费的版本,下载。运行安装程序,将文件设置在D盘。
RStudio的界面是这样的:
三、载入TXT和csv文件
1.CSV
在RStudio页面左侧Console输入代码:
Read.csv("D:/test.csv")
双引号内的是文件的路径。注意,在R语言中,\是转义符,表示路径时,要将\改为\或是/。
运行结果如图:
2.TXT
在RStudio页面左侧Console输入代码:
Read.table("D:/test.txt")
注意,原本这里一直报错
Error in make.names(col.names, unique = TRUE) :
invalid multibyte string 1
查询得知应该是txt文件的编码有问题,因此将txt另存同名但编码方式为UTF-8的文件,之后再载入就成功了。
运行结果如图:
四、载入xlsx文件(使用RODBC)
先下载RODBC包,输入代码:
install.packages("RODBC")
而后输入代码:
library(RODBC)
con<-odbcConnectExcel2007("D:/test.xlsx")
sqlTables(con)
table_test<-sqlFetch(con,"测试")
table_test
运行结果如图所示:
注意:
- odbcConnectExcel()只用于32位系统,其余位数系统会报错。
- SqlFetch()方法,第二个输入函数为table的sheet名,对应为TABLE_NAME,但不要加$符号。
- 在未执行close(con)语句之前,该表格处于锁定状态,无法直接打开或编辑。
- 使用RODBC包,要确保系统环境变量中JAVA的环境配置正确。JAVA环境配置可以看我的另一篇文章。
总结
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
学习教程: