python数据清洗与准备:缺失值、重复值、异常值处理

目录

一、缺失值处理

(1)判断缺失值

(2)去掉缺失值

(3)填补缺失值

(二)重复值处理(针对于dataframe里面的重复行)

(1)判断是否重复出现

(2)处理重复行

三、异常值处理

(1)挑选异常值

(2)处理异常值(比如超过了区间范围内的值)


一、缺失值处理

(1)判断缺失值

(data类型为series/dataframe)

data.isnull()

##返回布尔值对象,缺失值即为true.

data.notnull()

##isnull的否定形式 

(2)去掉缺失值

 data.dropna()

默认丢掉所有缺失值的行;

data.dropna(how='all')

##丢掉全部为na的行

data.dropna(how='any')

##丢掉只要含有na的行

date.dropna(axis=1,how='all')

##同理,丢弃全部为na的列传入axis=1即可)

data.dropna(thresh=n)

##每一行除去na值后如果剩下的数值>=n才显示

(3)填补缺失值

不想滤除缺失值,那就用其他数来填补:

data.fillna(0)

##最简单的就是括号里直接填写用来填补的值

data.fillna({1: 0.5, 2: 0})

##如果有不同列(比如不同特征)的空值要用不同值来填补,就用字典传输,1和2表示列;

 data.fillna(data.mean())

##可以直接用计算得到的

  • 0
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值