Spark如何遍历Rdd中的元素

  1. 通常我们Spark程序处理数据时,会遇到将rdd的数据进行观察的情况,但是
    RDD[String]类型又不能直接打印出来结果,或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。

1) 使用 collect 函数

从collect函数解释来看,知道collect的返回类型是一个数组,可以通过下标或

.collect.mkstring("") 

这样的方式浏览数据

但是 collect是将数据拉取到driver端,数据量太大的话,可能会报内存溢出的问题,
而且,在driver端的数据worker节点的机器就不能访问到该数据
还需要将它添加成一个广播变量 分到到executer中

2)使用foreach函数

直接对rdd进行循环打印

rdd.tabke(1000.foreach(println)

就可以实现循环遍历数据,这样的好处就是分布式仍保持分布式的优势,不用集中到某一台去看数据,节省内存消耗

3) save函数

直接将文件保存到本地的某个目录查看

以上三个函数各有使用场景,根据需要选择适合的就行。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值