pyspark之数据处理学习【缺失值处理】(2)

在我们拿到的数据集中常常会存在某个属性的数值缺失这种情况。面对这种情况有两种办法:

 

  • 删除这种数据(如果你的数据负担得起)
  • 对缺失值进行填充处理(有如下方法)
    • 如果是离散布尔型,可以简单地添加第三个类别--missing,将其转化为一个分类变量
    • 对于数值类型的数据,可以填充任何平均数、中值或者一些其他预定义的值。

 

 

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("dataDeal").getOrCreate()
df_miss = spark.createDataFrame([
    (1, 143.5, 5.6, 28,   'M',  100000),
    (2, 167.2, 5.4, 45,   'M',  None),
    (3, None , 5.2, None, None, None),
    (4, 144.5, 5.9, 33,   'M',  None),
    (5, 133.2, 5.7, 54,   'F',  None),
    (6, 124.1, 5.2, None, 'F',  None),
    (7, 129.2, 5.3, 42,   'M',  76000)
    ], ['id', 'weight', 'height', 'age', 'gender', 'income'])

根据上面的数据,我们可以直观看出:

 

 

  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值