文章目录
- 第三章 数据探索
- 3.1数据质量分析
-
- 1.主要任务
- 2.缺失值分析
- 3.异常值分析
- 4.一致性分析
- 3.2数据特征分析
-
- 1.分布分析
- 2.对比分析
- 3.统计量分析
- 4.周期性分析
- 5.相关性分析
- 3.3 R语言主要数据探索函数
-
- 1.统计特征函数
- 2.统计作图函数
第三章 数据探索
- 什么是数据探索
数据探索:检测数据,了解数据,这一步只做数据的分析,下一步针对这一步的分析结果,做数据的预处理。
书上的定义:对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法。
为什么叫套路的总结:比如你初到某个地方,要了解这个地方,第一件事情就是可以随便逛随便观察,了解这个地方的结构,数据探索就是做这个事情的。 - 分类
数据质量分析。
数据特征分析。
3.1数据质量分析
1.主要任务
- 缺失值。
- 异常值,甚至不一致的值。
- 重复数据。
- 含有特殊符号的数据(如% # /等)。
2.缺失值分析
- 缺失值产生的原因:各种原因。
- 主要内容:缺失值的个数;缺失率。
- 处理方式:对缺失值进行插值或者直接删掉。
- 注意:这个不是数据质量分析,这个是数据预处理的内容。
3.异常值分析
- 异常值也称为离群点,异常值也称为离群点分析。
- 简单统计量分析 :对变量做一个描述型统计,最常用的统计量是最大值和最小值,用来判断这个变量是否有问题。
- 如客户年龄这个变量最大值为199岁,则易知这个变量取值存在异常。
- 3delta原则 :如数据服从正态分布,则取值与mean超过3标准差的值为异常值。 **- > 极小概率事件为异常值。 **
![在这里插入图片描述](https://img-
blog.csdn.net/20181018101044515?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3MzQ1NDAy/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
- 箱形图分析
- QU:上四分位置——数据按大小分四段,中段(2和3)最上面值。
- QL:下四分位。
- IQR:四分位间距
- 箱形图分析:异常值通常被定义为小于QL -1.5IQR或大于QU +1.5IQR的值。
缺失值——complete.cases() 帮助系统 ?complete.cases
> ?complete.cases
> saledata=read.csv(