【数据挖掘与数据处理】绘制基本图形习题笔记_数据集cars提供了车速(x)与制动距离(y)的数据,求拟合数据的直线,分别讨论以下3种-CSDN博客

本文链接：https://blog.csdn.net/weixin_57171836/article/details/132871430

本文介绍了如何使用R语言进行数据挖掘，包括对cars数据集的分析，如计算速度的标准差、分位数、五数概括等。实验涉及基本统计函数应用，如max、min、var、sd，以及绘图技巧如直方图和箱线图，以识别离群点。

摘要由CSDN通过智能技术生成

本课程参考书目《数据挖掘：概念与技术原书第03版》

绘制基本图形

实验1

使用R语言自带的cars数据集(汽车的速度与刹车距离）
使用中心趋势度量相关函数”mean,median, which.max(table(x))”分别计算cars数据框的speed列的均值、中位数与众数。

max与min函数

max函数：查找对象中的最大元素
min函数：查找对象中的最小元素

data1<-c(1,2,5,42,61,13,23)
max(data1)
min(data1)

在这里插入图片描述

var函数

Var、CoV和 COR 函数：计算 X 的方差以及 X 和 Y 的协方差或相关性（如果它们是向量）。如果 x 和 y 是矩阵，则计算 x 列和 y 列之间的协方差（或相关性）。

data1<-c(1,2,5,42,61,13)
var(data1)
data2<-matrix(data=data1,nrow = 3,ncol = 3)
data2
cov(data2)
cor(data2)

在这里插入图片描述

sd函数计算cars$speed标准差

sd函数：此函数计算 x 中值的标准偏差。如果 na.rm 为 TRUE，则在继续计算之前删除缺失值。

sd(cars$speed)

在这里插入图片描述

quantile、fivenum或summary函数

quantile函数： 通用函数，分位数生成对应于给定概率的样本分位数。最小观测值对应于概率 0，最大观测值对应于概率 1。

fivenum函数： 返回输入数据的 Tukey 五个数字汇总（最小值、下铰链、中位数、上铰链、最大值）。

summary函数： summary是一个通用函数，用于生成各种模型拟合函数的结果。该函数调用依赖于第一个参数的类的特定方法。

quantile(cars$speed,c(0.25,0.5,0.75))
fivenum(cars$speed)
summary(cars$speed,probs = seq(0,0.25,0.5,0.75))

在这里插入图片描述

实验2

1.利用实验1的相关函数求出下面一列数的均值、中位数、众数，并给出该数据的五数概括，并求出四分位数极差IQR及1.5xIQR，并找出离群点。
2.画出这列数的箱线图。
（这列数为：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。

data<-c(13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70)
mean(data)
median(data)
which.max(data)
max(data)
min(data)
var(data)
sd(data)
data.matrix(data)
boxplot(data)