数据探索
数据质量分析
- 缺失值
- 异常值
- 不一致数据
- 重复数据及含有特有的数据符号
缺失值分析主要从造成缺失的原因和缺失数据所带来的影响
异常值分析(离群点分析)样本中的个别值,其数据明显偏离其余的观测值。
主要分析方法:
简单统计量分析,3 σ 原则,箱型图分析
3 σ 原则:如果数据符合正太分布,在3 σ 原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,在正太分布的假设下,距离平均值3 σ 之外的值出现的概率为 P(|x−μ)>3σ)≥0.003 ,属于极个别的小概率事件
箱型图分析:箱型图提供了识别异常值的一个标准,通常被定义小于 QL−1.5IQR 或者大于 QU+1.5IQR 的值。 QL,QU,IQR 分别下四分位数,上四分位数,四分位数间距。
数据特征分析
定量数据的分布分析
- 极差
- 频率分布表
定性数据的分布分析
- 饼图和条形图
- 对比分析
变异系数主要用来比较两个或者多个具体不同单位或者不同波动幅度的数据集的离中趋势CV=sx¯
Pearson线性相关系数要求连续标量的取值要符合正太分布。不符合正太分布的变量、分类或者等级标量之间的关联性可采用Spearman秩相关系数,其计算公式如下:
rs=1−6∑i=1n(Ri−Qi)2n(n2−1)
对两个变量成对的取值分别按照从小到大顺序编秩, Ri 代表 Xi 的秩次, Qi 代表 yi , Ri−Qi 为秩次之差。
判定系数是相关系数的平方 取值范围 0≤r2≤1 , r2 越接近1相关性就越强
数据预处理
数据清洗
缺失值得处理(删除记录,数据插补,不处理)
异常值得处理
数据集成
数据集成是将多个数据源合并存在一个一直的数据存储中的过程。
实体识别
(1)同名异义
(2)异名同义
(3)单位不统一
冗余属性识别
(1) 同一属性多次出现
(2) 同一属性命名不一致导致的重复
### 数据变换
简单函数变换常用来将不具有正太分布的数据变换成具有正太分布的数据。
规范化
连续属性离散化方法(等频,等宽,基于聚类分析的方法)
### 数据规约
属性规约