pyspark 遍历

最新推荐文章于 2024-08-12 17:01:47 发布

data大柳

最新推荐文章于 2024-08-12 17:01:47 发布

阅读量7.4k

点赞数 7

分类专栏： Spark 文章标签： pyspark 行列遍历 collect dataframe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yawei_liu1688/article/details/108642594

版权

本文介绍了在pyspark中遍历Dataframe行和列的需求及实现方法。通过一个实例，作者展示了如何根据配置表data1处理data2中缺失值的过程，同时提醒了collect方法在大数据量时可能导致内存溢出的问题，建议在适当场景使用。

摘要由CSDN通过智能技术生成

最近遇到一个小问题，我要在pyspark里对Dataframe数据表实现行和列的遍历及定位，在python里很容易实现，但是用pyspark还没操作过，遇到一点小问题，但摸索了一会也实现了，记录如下：

描述

下表（data1）为某数据大宽表（data2）各列缺失数据的处理方法配置表，其中COLUMN_NAME为数据大宽表的特征名称，NULL_PROCESS_METHON为各特征列缺失数据的处置办法，假设处理方式共有4种：drop、zero、mean、other。
在这里插入图片描述
需求

遍历配置表（data1）的COLUMN_NAME，获取相应的缺失值处理方法（NULL_PROCESS_METHON），然后应用到数据大宽表（data2）的对应特征列。

实现

rows = data1.collect()
cols = data1

最低0.47元/天解锁文章

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

data大柳 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。