在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码
rdd.foreach(println(_))
并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果
rdd.collect().foreach(println(_))
在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码
rdd.foreach(println(_))
并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果
rdd.collect().foreach(println(_))