pyspark 遍历

本文介绍了在pyspark中遍历Dataframe行和列的需求及实现方法。通过一个实例,作者展示了如何根据配置表data1处理data2中缺失值的过程,同时提醒了collect方法在大数据量时可能导致内存溢出的问题,建议在适当场景使用。
摘要由CSDN通过智能技术生成

最近遇到一个小问题,我要在pyspark里对Dataframe数据表实现行和列的遍历及定位,在python里很容易实现,但是用pyspark还没操作过,遇到一点小问题,但摸索了一会也实现了,记录如下:

描述

下表(data1)为某数据大宽表(data2)各列缺失数据的处理方法配置表,其中COLUMN_NAME为数据大宽表的特征名称,NULL_PROCESS_METHON为各特征列缺失数据的处置办法,假设处理方式共有4种:drop、zero、mean、other。
在这里插入图片描述
需求

遍历配置表(data1)的COLUMN_NAME,获取相应的缺失值处理方法(NULL_PROCESS_METHON),然后应用到数据大宽表(data2)的对应特征列。

实现

rows = data1.collect()
cols = data1
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

data大柳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值