Python数据分析——数据清洗及特征处理

数据清洗

       原始数据当中经常会有很多缺失值、异常值等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗。

缺失值观察与处理

(一)缺失值观察

#查看数据属性
data.info()
#按列统计缺失值
data.isna().sum()
#同时观察多列数据
data[['Age','Cabin','Embarked']]

(二)缺失值处理
       缺失值处理可分为两个部分,一个是直接删除,如:dropna()函数;另一个是填充的方式,如fillna()函数。
DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)

  • axis:{0,1}是否删除包含缺失值的行或列,0表示行,1表示列
  • how:{‘any’,‘all’}'any’表示存在NA,则删除行或列,‘all’表示所有值均为NA则删除行或列
data_1 = data['Age'].dropna()
data[data['Age']==np.isnan(np.nan)]=0
#isunull能较好填充,但是是含缺失值的行数据均填充为0
data[data['Age'].isnull()]=0
data.dropna()

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

  • value:用于填充缺失值(例如0),或者指定值来进行填充
  • method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, N
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值