python—如何处理文件中的缺失值

文章目录


首先要确定文件中用什么来表示缺失值,常用的有""、‘NaT’、‘nan’,‘null’,那该怎么确定呢?

以"“为例,
在这里插入图片描述
如果查找到”",表明表格中以""表示缺失值,为了便于后续的缺失值统计与填充,需要将’'转换成np.NaN


data.replace('', np.NaN, inplace=True)

其他同理

data.replace("NaT", np.NaN, inplace=True)
data.replace("nan", np.NaN, inplace=True)
data.replace("null", np.NaN, inplace=True)

接下来就可以使用pandas中对缺失值进行操作了

  • 统计缺失值

    # 统计data里每一列是否有空值:
    data.isnull().any()
    # 统计data里每一列空值的个数:
    data.isnull().any().sum()
    
  • 查看列的数据格式

    data[col].dtype
    
  • 填充缺失值
    缺失值填充一般不会如下填充,

    data.fillna(0)
    

    因为填充要分为连续型变量缺失还是类别型变量缺失,需要根据缺失比例,删除一部分,剩下的在针对是什么类型的变量分别采取措施进行填充
    具体可以参考该案例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值