数据质量分析

数据质量分析是数据探索重要环节,数据常存在缺失、异常、不一致、错误等问题。博客主要介绍数据分析的两方面,一是统计数据情况,二是通过箱型图观察数据的异常情况,强调可信数据对模型性能的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据质量分析是数据探索阶段重要一环, 数据不是完美的, 往往存在缺少数据、异常数据,不一致数据、噪声数据等。没有可信的数据,再好的模型性能都不太可能好, “垃圾进,垃圾出”。

数据分析方面的分析, 主要包括以下几个方面

  • 缺失值
  • 异常值
  • 不一致的数据
  • 错误数据

一、统计数据情况

二、通过箱型图观察数据的异常情况

import pandas as pd
import matplotlib.pyplot as plt

def test1():
    df = pd.read_csv("C:\\Users\\12285\\Desktop\\a.csv", header=0)
    print(df.count())       # 统计非空值
    print(df.describe())    # 统计信息: 记录数,平均值,方差,最小值,分位数, 最大值

    plt.figure()
    # 画箱型图
    bp = df.boxplot(return_type='dict')

    # fliers 为异常值的标签
    x = bp['fliers'][0].get_xdata()
    y = bp['fliers'][0].get_ydata()
    y.sort()

    # 用annotate添加注释
    for i in range(len(x)):
        plt.annotate(y[i], xy = (x[i], y[i]), xytext = (x[i] + 0.1 - 0.8 / (y[i] - y[i - 1]), y[i]))

    plt.show()

df.count() 计算空值
date    12
emc     12
fsn     12
dtype: int64

df.describe() 计算统计信息
               fsn 
count     12.000000
mean    2153.333333
std     3908.253861
min        0.000000
25%        3.750000
50%       16.500000
75%     2239.000000
max    11608.000000

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值