数据分析入门(二)数据清洗

本文介绍了数据分析过程中的数据清洗步骤,包括缺失值的观察与处理、重复值的处理,以及数值和文本类型数据的预处理。通过Python的pandas库,详细讲解了如何进行缺失值填充、重复值去除、数值类型数据的分箱操作和文本类型数据的转换,为后续分析和建模打下基础。
摘要由CSDN通过智能技术生成

我们得到的数据通常并不是一开始就是我们想要的,这时候我们需要对数据进行清洗,以期望最后以我们所要的方式呈现出来,并且便于后面的分析与建模。
上一篇:数据分析入门一

缺失值观察与处理

我们得到的数据中往往可能会有一些缺失值,这个缺失值如果不进行处理的话,会对我们后面的分析造成很大影响。

缺失值观察

一般我们可以用两种方法对缺失值进行观察,如下:
在这里插入图片描述

在这里插入图片描述

缺失值处理

对于缺失值我们可以将它舍去,有dropna()方法。我们也可以用其他的值进行填充,有fillna()方法。
关于这两个方法如何运用,我们在jupyter中将光标移动到方法处,按Shift+Tab键即可显示。
在这里插入图片描述
还可以去参考官网:

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值