1 数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据。
脏数据包括如下内容:
- 缺失值
缺失值的处理分为删除存在缺失值的记录、对可能值进行插值处理和不处理 - 异常值
- 简单统计分析:描述性统计,获取最大最小值等
- 3 σ \sigma σ原则:如果数据服从正态分布,在3 σ \sigma σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,出现概率为P(| x - μ \mu μ |>3 σ \sigma σ) $\leq$0.003
- 箱型图分析:异常值被定义为小于QL - 1.5IQR或大于QU + 1.5IQR (QL:下四分位数QU:上四分位数)
- 不一致的值
- 重复数据及含有特殊符号(如#、¥、*)的数据`
- 箱型图分析检测异常值
import pandas as pd catering_sale = "data/catering_sale.xls" data = pd.read_excel(catering_sale,index_col="日期") import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ["SimHei"] # 正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False # 正常显示负号 plt.figure() # 画箱型图,直接使用DataFrame方法 p = data