基于R语言的数据分析挖掘基础
以R语言为例,实现数据的各种分析方法
侬本多情。
数据科学与大数据技术专业在读生,请大家多指教。
展开
-
多元线性回归的探索
1、分析二变量的关系2、多元线性回归3、显著交互项的多元线性回归(汽车数据集)数据使用的依然是state.x77数据集为例,探究一个州的犯罪率和其他因素的关系,包括人口、文盲率、平均收入和结霜天数(温度在冰点一下的平均天数)。交互项的多元线性回归主要用mtcars数据中的汽车数据,对汽车重量和马力作为预测变量,并包含交互项来拟合回归模型。其中,hp汽车功率,wt汽车重量。原创 2022-02-05 16:53:49 · 1813 阅读 · 0 评论 -
简单线性回归和多项式回归
所用数据集women提供了15个年龄在30~39岁间女性的身高和体重信息,想通过身高预测体重。简单线性回归结果数据分析:回归系数(3.45)显著不为0(p<0.001),表明身高每增高1英寸,体重将预期增加3.45英镑。R平方项(0.991)表明模型可以解释体重99.1%的方差,它也是实际和预测值之间相关系数的平方。残差标准误(1.525lbs)则可认为是模型用身高预测体重的平均误差。之后进行输出了真实值、预测值和残差值。显然残差值最大的在身高最矮和最高的地方出现,表明可以用含一个弯原创 2022-01-28 23:40:11 · 1826 阅读 · 0 评论 -
回归的认识以及OLS回归
回归分析是统计学的核心,其实是一个广义的概念,通常指那些用一个或多个预测变量(自变量或解释变量)来预测响应变量(因变量、校标变量或结果变量)的方法。回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成等式,通过解释变量来预测响应变量。回归分析可以解释的部分问题,举例:预测人在跑步机上锻炼时消耗的卡路里数。其响应变量就是消耗的卡路里数,预测变量可以很多,比如锻炼时间、目标心率的时间比、平均速度、年龄、性别和身体质量指数(BMI)。从理论上来说,回归分析可以帮助解释如下问题:原创 2022-01-28 17:23:39 · 5465 阅读 · 0 评论 -
t检验数据分析
研究中常见两组的进行比较。即是一种事物相比另一种,有什么样的变化。如果这个变量是类别型,则可以直接使用相关性分析的方法,那么现在所分析的变量是连续型的组间比较,并假设为正态分布。 数据使用为MASS包的UScrime数据集,包含了1960年美国47个州刑罚制度对犯罪率影响的信息。需要的结果变量为Prob(监禁的概率)、U1(14-24岁年龄段城市男性失业率)和U2(35-39岁年龄段城市男性失业率)。类别型变量So(指示该州原创 2022-01-25 23:04:28 · 1377 阅读 · 0 评论 -
相关性的显著性检验
数据所用的是R中的state.x77数据集,提供了美国50个州在1977年的人口、收入、文盲率、预期寿命、谋杀率和高中毕业率数据。实验操作:1、计算协方差和方差2、计算偏相关系数3、相关性的显著性检验(包括了检验预期寿命和谋杀率的Pearson相关系数为0的假设、相关矩阵的显著性检验)> #计算协方差和方差> states <- state.x77[,1:6]> cov(states) Population Income Il原创 2022-01-19 07:30:00 · 2069 阅读 · 0 评论 -
独立性检验和相关性度量
数据仍然使用了上一节的数据,对数据进行了独立性检验测试,包括了卡方独立性检验、FisherJ精确检验和Cochran-Mantel-Haenszel检验,并计算了phi系数、列联系数和Cramer’s V系数。> #卡方独立性检验> library(vcd)> mytable <- xtabs(~Treatment+Improved,data = Arthritis)> #治疗情况和改善情况不独立> chisq.test(mytable) Pearson原创 2022-01-18 10:43:31 · 470 阅读 · 0 评论 -
频数表和列联表的使用
数据使用的是Kock&Edward(1988),一项风湿性关节炎新疗法的双盲临床试验的结果。其中Treatment为治疗情况,表示为两种:Treated(用药治疗)、Placebo(安慰剂治疗),improved为改善情况,包括了无改善、一定程度改善和显著改善。相关函数包括table()xtabs()prop.table()margin.table()addmargins()ftable()相关实验操作频数表创建、频数转化比例、二维列联表创建、生成边际频数和比例、添加以及创建边际原创 2022-01-18 07:15:00 · 517 阅读 · 0 评论 -
描述性统计分析
数据使用的是Motor Trend杂志的车辆路试(mtcars)数据集。监测点在于每加仑汽油行驶英里数(mpg)、马力(hp)、车重(wt)。主要是计算描述性统计量,通过summary()、sapply()、describe()、stat.desc()等函数作为测试,然后进行了简单的分组计算概述统计量,主要通过aggregate()、by()、summaryBy()、describeBy()等函数去测试。结果中关于最小值、最大值、四分位数、数值型变量均值、因子向量、逻辑向量、标准差、平均值、偏度、峰度等原创 2022-01-09 16:44:36 · 639 阅读 · 0 评论 -
R语言数据预处理基础
包含了数据的创建、缺失值判断处理、日期处理、数据排序以及选取,并从三个方面进行了数据的入选观测,包括了SQL语句,需要先下载包。类型转换函数没有进行测试:其中涉及转换的有as.numeric() as.character() as.vector() as.matrix() as.data.frame() as.factor() as.logical() 等。> manager <- c(1,2,3,4,5)> date <- c("10/24/08","10/28/08"原创 2022-01-08 17:23:54 · 508 阅读 · 0 评论 -
R语言创建列表
创建四个成份的列表:字符串、数值型向量、矩阵以及字符型向量。组合可以任意,最后保存为列表。> g <- "My First List"> h <- c(25,26,18,39)> j <- matrix(1:10, nrow = 5)> k <- c("one","two","three")> mylist <- list(title=g,ages=h,j,k)> mylist$title[1] "My First原创 2022-01-07 16:31:01 · 2356 阅读 · 0 评论 -
R语言因子的使用
类别变量和有序类别变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。> #以向量形式输入数据> patinentID <- c(1,2,3,4)> age <- c(25,34,28,52)> diabetes <- c("Type1","Type2","Type1","Type1")> status <- c("Poor","Improved","Excellent","Poor")原创 2022-01-07 16:22:56 · 546 阅读 · 0 评论 -
R语言创建数组以及数据框
> #创建数组> a1 <- c("A1","A2")> a2 <- c("B1","B2","B3")> a3 <- c("C1","C2","C3","C4")> z <- array(1:24,c(2,3,4),dimnames = list(a1,a2,a3))> z, , C1 B1 B2 B3A1 1 3 5A2 2 4 6, , C2 B1 B2 B3A1 7 9 11A原创 2022-01-07 16:02:12 · 2071 阅读 · 0 评论 -
R语言创建矩阵
> y<-matrix(1:20,nrow = 5,ncol = 4)> y [,1] [,2] [,3] [,4][1,] 1 6 11 16[2,] 2 7 12 17[3,] 3 8 13 18[4,] 4 9 14 19[5,] 5 10 15 20> cells <- c(1,26,24,68)> rnames <- c("R1原创 2022-01-07 15:45:33 · 1940 阅读 · 0 评论