- 通常我们Spark程序处理数据时,会遇到将rdd的数据进行观察的情况,但是
RDD[String]类型又不能直接打印出来结果,或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。
1) 使用 collect 函数
从collect函数解释来看,知道collect的返回类型是一个数组,可以通过下标或
.collect.mkstring("")
这样的方式浏览数据
但是 collect是将数据拉取到driver端,数据量太大的话,可能会报内存溢出的问题,
而且,在driver端的数据worker节点的机器就不能访问到该数据
还需要将它添加成一个广播变量 分到到executer中
2)使用foreach函数
直接对rdd进行循环打印
rdd.tabke(1000).foreach(println)
就可以实现循环遍历数据,这样的好处就是分布式仍保持分布式的优势,不用集中到某一台去看数据,节省内存消耗
3) save函数
直接将文件保存到本地的某个目录查看
以上三个函数各有使用场景,根据需要选择适合的就行。