本课程参考书目《数据挖掘:概念与技术 原书第03版》
实验1
使用R语言自带的cars数据集(汽车的速度与刹车距离)
使用中心趋势度量相关函数”mean,median, which.max(table(x))”分别计算cars数据框的speed列的均值、中位数与众数。
max与min函数
max函数:查找对象中的最大元素
min函数:查找对象中的最小元素
data1<-c(1,2,5,42,61,13,23)
max(data1)
min(data1)
var函数
Var、CoV和 COR 函数:计算 X 的方差以及 X 和 Y 的协方差或相关性(如果它们是向量)。如果 x 和 y 是矩阵,则计算 x 列和 y 列之间的协方差(或相关性)。
data1<-c(1,2,5,42,61,13)
var(data1)
data2<-matrix(data=data1,nrow = 3,ncol = 3)
data2
cov(data2)
cor(data2)
sd函数计算cars$speed标准差
sd函数:此函数计算 x 中值的标准偏差。如果 na.rm 为 TRUE,则在继续计算之前删除缺失值。
sd(cars$speed)
quantile、fivenum或summary函数
quantile函数: 通用函数,分位数生成对应于给定概率的样本分位数。最小观测值对应于概率 0,最大观测值对应于概率 1。
fivenum函数: 返回输入数据的 Tukey 五个数字汇总(最小值、下铰链、中位数、上铰链、最大值)。
summary函数: summary是一个通用函数,用于生成各种模型拟合函数的结果。该函数调用依赖于第一个参数的类的特定方法。
quantile(cars$speed,c(0.25,0.5,0.75))
fivenum(cars$speed)
summary(cars$speed,probs = seq(0,0.25,0.5,0.75))
实验2
1.利用实验1的相关函数求出下面一列数的均值、中位数、众数,并给出该数据的五数概括,并求出四分位数极差IQR及1.5xIQR,并找出离群点。
2.画出这列数的箱线图。
(这列数为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
data<-c(13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70)
mean(data)
median(data)
which.max(data)
max(data)
min(data)
var(data)
sd(data)
data.matrix(data)
boxplot(data)