R语言
文章平均质量分 71
zhf1234abc
这个作者很懒,什么都没留下…
展开
-
R的基础知识
1.R语言是分大小写的,可以用c()函数接受属性的属性值,用q()函数结束。下面是常见的一些命令getwd() 显示当前的工作目录setwd("mydirectory") 修改当前的工作目录为mydirectoryls() 列出当前工作空间中的对象rm(objectlist) 移除(删除)一个或多个对象help(options) 显示可用选项原创 2015-07-25 17:37:26 · 549 阅读 · 0 评论 -
R语言基础
1.赋值符号:xa2.数组要求数据类型一样,可以用数据框来输入不同类型的数据,但每个类型的数据的个数一样,数据框类似excel表格的数据结构,其中每列的数据类型可以不同,但数据长度必须一致,数据框非常适合用来进行数据分析,它的每一列可以代表数据的每个变量或属性,每一行可以代表一个样本。3.可以用class(),attributes(),str(),来原创 2015-07-23 11:52:33 · 280 阅读 · 0 评论 -
R语言缺失值处理
1.查找变量中缺失值得个数sum(is.na(sleep$Dream))2.查找变量中缺失值个数占总个数的比例mean(is.na(sleep$Dream))3.查找样本中含缺失值的样本所占样本比例 mean(!complete.cases(sleep))4.用列表显示缺失值代码> library(mice)> data(sleep,pack原创 2015-08-14 21:09:04 · 4140 阅读 · 0 评论 -
R语言实战1
1.library("car", lib.loc="D:/rInstall/R-3.2.1/library")1. par(mfrow=c(1,2))> attach(algae) hist(mxPH,xlab = "",main="1",prob=T,ylim = 0:1)> lines(density(mxPH,na.rm = T))> rug(jitter(mxPH))原创 2015-08-13 22:21:50 · 625 阅读 · 0 评论 -
R语言基础
1.txt文件可以转换成csv文件,通过rstudio软件导入数据。2.在软件中输入view(导入的csv文件名例如(isis)),可以显示类似excel的数据形式。可以通过edit(isis)对原来的数据进行修改,如果想得到修改后的数据必须把edit(isis)赋值给新的文件,可以去数据的前20行记录,data如果需要抽取所有数据的Sepal.Width变量,那么下面两个命令是等价的:原创 2015-07-23 21:46:57 · 437 阅读 · 0 评论 -
R语言实战之关系展示
1.展示名义变量和缺失值变量的关系导入lattice包,attach(algae)> histogram(~mxPH|season,data = algae)> algae$season 绘制不同季节的mxPH的直方图,由于直方图相似,所以收集样本时改年的季节对变量mxPH的值没有显著影响,可以用多个名义变量进行组合histogram(~mxPH|size*sp原创 2015-08-18 11:21:08 · 388 阅读 · 0 评论 -
R语言之描述性统计量
1.导入pastecs包stat.desc(mtcars[vars]) mpg hp wtnbr.val 32.0000000 32.0000000 32.0000000nbr.null 0.0000000 0.0000000 0.0000000nbr.na原创 2015-08-18 22:02:04 · 7582 阅读 · 0 评论 -
R语言之多元回归实战
数据集> toothpaste+ X1=c(-0.05, 0.25,0.60,0, 0.25,0.20, 0.15,0.05,-0.15, 0.15,+ 0.20, 0.10,0.40,0.45,0.35,0.30, 0.50,0.50, 0.40,-0.05,+ -0.05,-0.10,0.20,0.10,0.50,0.60,-0.原创 2015-08-19 16:09:26 · 624 阅读 · 0 评论 -
R语言之逐步回归
逐步回归就是从自变量x中挑选出对y有显著影响的变量,已达到最优用step()函数导入数据集cement X1=c( 7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10), X2=c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), X3=c( 6, 15,原创 2015-08-19 16:54:12 · 31280 阅读 · 1 评论 -
岭回归与LASSO算法
岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大转载 2015-08-21 09:53:56 · 5712 阅读 · 1 评论 -
R语言之绘图
1.条形图可以用于展示某个变量中不同成分所占的比例。2.棘状图可以用于展示一个变量中各个成分相对于另一个变量成分所占比例,例如属性A有2个成分a1、a2,属性B有3个成分b1、b2、b3,那么可以绘制出a1下b1、b2、b3的比例图。3.直方图4.并列箱线图> attach(mtcars)> boxplot(mpg~cyl,data = mtca原创 2015-08-13 16:17:29 · 566 阅读 · 0 评论 -
R语言基础
3.进行随机抽样的r语言代码mm1原创 2015-08-10 21:57:53 · 316 阅读 · 0 评论 -
R语言之文本挖掘
文本挖掘涉及到知识有:贝叶斯,朴素贝叶斯、分词算法。贝叶斯公式:P(H|X) = P(X|H)P(H)/P(X)解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率,P(H)代表垃圾邮件的概率,P(X)代表X在整个训练集出现的概率,在X是单个词的情况下,还是比较容易算出,但是当分出的词是几原创 2015-08-22 21:25:55 · 672 阅读 · 0 评论 -
R语言之决策树算法
1.ID3算法首先算出整个的信息期望,在算出每个属性的信息期望,在算出每个属性信息增益,选出最大值,得出如下图在对这个表算出新的总的信息期望,在算出这个表的每个属性的期望,在算出最大信息增益,选出最大值。对于连续性变量如age,按顺序对年龄进行排序,去每2个年龄之间的平均值,做为分裂点,求出信息增益,选出最大值,就是最好的分裂点了,来达到离散化连续值。ID3算法的缺点就原创 2015-08-23 17:01:19 · 832 阅读 · 0 评论 -
R语言之装袋、adaboost、随机森林算法
首先,这三个算法都是分类算法,分类的准确率很高,这些方法都是组合多个分类器,每个分类器分别进行预测,通过简单选举多数,判定最终所属分类。为什么组合分类器能提高分类准确率:可以通过下面的图进行解释。左图单个分类器就是图上的对角线,当进行多个组合时,出现了图上的折线图,每个折边都是一个分类器,当有多个分类器进行组合,就会出现右图,最终达到一个曲线图。组合算法的优势:1、能明显提升判别准确率;2、对误差原创 2015-08-23 19:19:33 · 8999 阅读 · 0 评论 -
支持向量机的理解
首先,d=2/||w||转换为求最小化f(w)=||w||^2/2,||w||^2因为||w||=w^1/2*w^1/2,所以平方好求解。解释:公式中的w向量是支持向量x的法向量,所以与x的维度一样的,假如在三维空间,w=(w1,w2,w3),那么支持向量也是3维的,目标函数是min(w1^2+w2^2+w3^2)/2是个凸函数,受限于yi(w1xi1+w2xi2+w3xi3+b)>=原创 2015-08-24 11:22:08 · 474 阅读 · 0 评论 -
R语言之因子分析
因子分析的主要用途1减少分析变量个数2 通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量分为一组,用共性因子来代替该变量3使问题背后的业务因素的意义更加清晰呈现解释:使能解释某一因素的相关性很高的变量分为一组(例如文课因子,理科因子),例如某一因子,其中的文科相关的变量前面的载荷因子很大,那么这些变量可以归结为一个因子即文学因子,有的时候一个因子里面的变量原创 2015-08-22 11:28:52 · 15493 阅读 · 1 评论 -
R之判断多元正太分布检验
1.R中进行单变量检验用chisq.test()函数,变量必须是数值型2.在进行多变量进行多元验证正太分布时用library("mvnormtest", lib.loc="D:/rInstall/R-3.2.1/library")切记数据集一定要转换为矩阵,且数据集里面的待验证变量一定要是数值型> library(mvnormtest)> data(EuStockM原创 2015-08-22 18:57:04 · 4553 阅读 · 0 评论 -
R语言Data Frame数据框常用操作
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个stu转载 2015-08-11 09:06:56 · 1398 阅读 · 0 评论 -
R语言之关联规则挖掘
首先导入arules包,产生相关联的规则rules 查看规则> inspect(rules) lhs rhs support confidence lift1 {curd,原创 2015-08-26 09:58:22 · 871 阅读 · 0 评论 -
R语言之多重共线性
多重共线性导致模型不稳定找到哪些变量时共线性,删除掉数据集collinear Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289, 5.958, 9.313, 12.960, 5.541, 8.756, 10.937), X1=rep(c(8, 0, 2, 0), c(3, 3, 3, 3)),原创 2015-08-20 10:59:17 · 9392 阅读 · 0 评论