【数据分析】数据探索

参考书

  • 《Python数据分析与挖掘实战》

3.1 数据质量分析

  • 数据质量分析主要任务是检查原始数据中是否存在脏数据,脏数据主要包括:缺失值,异常值,不一致的值,重复数据以及含有特殊符号(#、*等)的数据

3.1.1 缺失值分析

  • 产生的原因:
    1. 有些数据暂时无法获取,或者获取的代价过大
    2. 被遗漏掉
    3. 属性值不存在(一个儿童的固定收入、一个未婚者的配偶姓名)
  • 带来的影响:
    1. 数据挖掘建模将丢失大量有用信息
    2. 建模的不确定性更加显著,模型蕴含的规律更难把握
    3. 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
  • 分析:
    1. 得到含有缺失值的属性的个数,以及每个属性的未缺失数,缺失数,缺失率等。

3.1.2 异常值分析

  • 简单统计量分析:先对变量做一个描述性分析,进而查看那些数据是不合理的,最常用的统计量是最大值最小值,用来判断这个变量的取值是否超出了合理的范围
  • 3σ原则:如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3σ的值。因为P(|x-μ|>3σ)≤0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
  • 箱型图描述:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL下四分位数,QU上四分位数,IQR四分位数间距,QU-QL。
    1. 箱型图根据实际数据绘制,没有数据要求
    2. 鲁棒性强,多达1/4的数据可以变得任意远而不会很大地扰动四分位数。

3.1.3 一致性分析

  • 数据不一致指的是数据的矛盾性、不相容性。可能由于数据来自不同数据源,对于重复存放的数据未能进行一致性更新造成的。

3.2 数据特征分析

3.2.1 分布分析

  • 定量数据的分布分析:对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题。
  • 定性数据的分布分析:饼图或条形图

3.2.2 对比分析

  • 绝对数比较:绝对数比较是利用绝对数进行对比,从而寻找差异的一种方法。
  • 相对数比较:
    1. 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。
    2. 比例相对数:将同一时期两个性质相同的指标数值进行对比
    3. 强度相对数:
    4. 计划完成程度相对数:
    5. 动态相对数

3.2.3 统计量分析

  • 集中趋势度量:
    1. 均值
    2. 中位数
    3. 众数
  • 离中趋势度量:
    1. 极差
    2. 标准差:度量数据偏离均值的程度
    3. 变异系数:度量标准差相对于均值的离中趋势。
    4. 四分位数间距:IQR = QU-QL,值越大,数据的变异程度越大,反之,变异程度越小

3.2.4 周期性分析

3.2.5 贡献度分析

  • 又称帕累托分析

3.2.6 相关性分析

  • 绘制散点图
  • 绘制散点图矩阵
  • 相关系数计算:
    1. pearson相关系数:分析两个连续性变量之间的关系,要求连续变量的取值服从正态分布
    2. spearman秩相关系数:不服从正态分布的变量、分类或登记变量之间的关联性。
    3. 判定系数:相关系数的平方。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值