数据分析数据探索

文章目录

  • 第三章 数据探索
  • 3.1数据质量分析
    • 1.主要任务
    • 2.缺失值分析
    • 3.异常值分析
    • 4.一致性分析
  • 3.2数据特征分析
    • 1.分布分析
    • 2.对比分析
    • 3.统计量分析
    • 4.周期性分析
    • 5.相关性分析
  • 3.3 R语言主要数据探索函数
    • 1.统计特征函数
    • 2.统计作图函数

第三章 数据探索

  • 什么是数据探索
    数据探索:检测数据,了解数据,这一步只做数据的分析,下一步针对这一步的分析结果,做数据的预处理。
    书上的定义:对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法。
    为什么叫套路的总结:比如你初到某个地方,要了解这个地方,第一件事情就是可以随便逛随便观察,了解这个地方的结构,数据探索就是做这个事情的。
  • 分类
    数据质量分析。
    数据特征分析。

3.1数据质量分析

1.主要任务

  • 缺失值。
  • 异常值,甚至不一致的值。
  • 重复数据。
  • 含有特殊符号的数据(如% # /等)。

2.缺失值分析

  • 缺失值产生的原因:各种原因。
  • 主要内容:缺失值的个数;缺失率。
  • 处理方式:对缺失值进行插值或者直接删掉。
    • 注意:这个不是数据质量分析,这个是数据预处理的内容。

3.异常值分析

  • 异常值也称为离群点,异常值也称为离群点分析。
  • 简单统计量分析 :对变量做一个描述型统计,最常用的统计量是最大值和最小值,用来判断这个变量是否有问题。
    • 如客户年龄这个变量最大值为199岁,则易知这个变量取值存在异常。
  • 3delta原则 :如数据服从正态分布,则取值与mean超过3标准差的值为异常值。 **- > 极小概率事件为异常值。 **
    ![在这里插入图片描述](https://img-
    blog.csdn.net/20181018101044515?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3MzQ1NDAy/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

- 箱形图分析

  • QU:上四分位置——数据按大小分四段,中段(2和3)最上面值。
  • QL:下四分位。
  • IQR:四分位间距
  • 箱形图分析:异常值通常被定义为小于QL -1.5IQR或大于QU +1.5IQR的值。 在这里插入图片描述

缺失值——complete.cases() 帮助系统 ?complete.cases

    > ?complete.cases
    > saledata=read.csv(
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值