数据分析之特征分析(一)

本文介绍了数据分析中的数据质量分析,包括缺失值处理、异常值识别(如3σ原则和箱型图法)以及不一致值和重复数据的检查。此外,还探讨了分布分析,区分定量与定性数据,并通过实例展示了如何分析数据分布特征。
摘要由CSDN通过智能技术生成

1 数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据。

脏数据包括如下内容:

  • 缺失值
    缺失值的处理分为删除存在缺失值的记录、对可能值进行插值处理和不处理
  • 异常值
    • 简单统计分析:描述性统计,获取最大最小值等
    • 3 σ \sigma σ原则:如果数据服从正态分布,在3 σ \sigma σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,出现概率为P(| x - μ \mu μ |>3 σ \sigma σ) $\leq$0.003
    • 箱型图分析:异常值被定义为小于QL - 1.5IQR或大于QU + 1.5IQR (QL:下四分位数QU:上四分位数)
  • 不一致的值
  • 重复数据及含有特殊符号(如#、¥、*)的数据`
  • 箱型图分析检测异常值
    import  pandas as pd 
    catering_sale =  "data/catering_sale.xls"
    data = pd.read_excel(catering_sale,index_col="日期")
    import  matplotlib.pyplot  as plt 
    plt.rcParams['font.sans-serif'] = ["SimHei"] # 正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
    plt.figure()
    # 画箱型图,直接使用DataFrame方法
    p = data
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值