Spark如何遍历Rdd中的元素

最新推荐文章于 2024-04-07 22:32:04 发布

盈欢

最新推荐文章于 2024-04-07 22:32:04 发布

阅读量5.6k

点赞数

分类专栏：大数据文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44421196/article/details/107082848

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

通常我们Spark程序处理数据时，会遇到将rdd的数据进行观察的情况，但是
RDD[String]类型又不能直接打印出来结果，或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。

1）使用 collect 函数

从collect函数解释来看，知道collect的返回类型是一个数组，可以通过下标或

.collect.mkstring("")

这样的方式浏览数据

但是 collect是将数据拉取到driver端，数据量太大的话，可能会报内存溢出的问题，
而且，在driver端的数据worker节点的机器就不能访问到该数据
还需要将它添加成一个广播变量分到到executer中

2）使用foreach函数

直接对rdd进行循环打印

rdd.tabke（1000）.foreach（println）

就可以实现循环遍历数据，这样的好处就是分布式仍保持分布式的优势，不用集中到某一台去看数据，节省内存消耗

3） save函数

直接将文件保存到本地的某个目录查看

以上三个函数各有使用场景，根据需要选择适合的就行。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark如何遍历Rdd中的元素

通常我们Spark程序处理数据时，会遇到将rdd的数据进行观察的情况，但是RDD[String]类型又不能直接打印出来结果，或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。1）使用 collect 函数从collect函数解释来看，知道collect的返回类型是一个数组，可以通过下标或.collect.mkstring("") 这样的方式浏览数据但是 collect是将数据拉取到driver端，数据量太大的话，可能会报内存溢出的问题，而且，在driver端的数据work.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。