数据科学家80%时间都花费在清洗任务上?

数据科学家经常将大部分时间投入数据清洗。本文聚焦数据的完整性、全面性、合理性和唯一性,详细阐述了处理缺失值、空行、单位不统一、非ASCII字符、重复记录等问题的方法,旨在提升数据质量。
摘要由CSDN通过智能技术生成

数据科学家80%时间都花费在清洗任务上?

将数据清洗规则总结为4个关键点:“完全合一”

  • 完整性:单条数据是否存在空值,统计的字段是否完善。
  • 全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。
  • 合法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符,性别存在了未知,年龄超过了 150 岁等。
  • 唯一性:数据是否存在重复记录,因为数据通常来自不同渠道的汇总,重复的情况是常见的。行数据、列数据都需要是唯一的,比如一个人不能重复记录多次,且一个人的体重也不能在列指标中重复记录多次。

1 完整性

问题1:缺失值

有些年龄、体重数值是缺失的,这些数值没有采集到,通常采用三种方法:

  • 删除:删除数据缺失的记录
  • 均值:使用当前列的均值
  • 高频:使用当前列出现频率最高的数据

想对df[‘Age’]中缺失的数值用平均年龄进行填充:

df['Age'].fillna(df['Age'].mean(), inplace=True)

用最高频的数据进行填充,可以通过value_counts获取Age字段最高频次age_maxf,再对Age字段中缺失的数据用age_maxf进行填充:

<
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值