精通spark源码-rdd是如何运行的

最新推荐文章于 2021-11-19 17:42:35 发布

置顶

曾二爷

最新推荐文章于 2021-11-19 17:42:35 发布

阅读量390

点赞数 1

分类专栏：大数据 spark spark源码 hadoop

本文链接：https://blog.csdn.net/zzzqqq111222/article/details/86572689

版权

一、spark执行过程的一个例子

// rdd_people: id，年龄
var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) )
//rdd_score: id，成绩
var rdd_score =sc.range(1, 100, 1).map(i=>(i  ,i+2))
//两个进行join
var rdd_res = rdd_people.join(rdd_score)
rdd_res.count()

上面的例子就是一个两个数据集进行join然后count的一个操作。
那么在运行这段代码的时候spark内部是如何来处理数据并得到最终得结果的呢。

1.1 spark的角度看你的代码

当你执行下面的代码你会看到一些列连接起来的rdd。那么你上面的那些没有action操作的代码意义就在于组建一个rdd串起来的一个有向无环图（DAG）。

rdd_res.toDebugString
你会得到下面得结果：
(2) MapPartitionsRDD[23] at join at <console>:28 []
 |  MapPartitionsRDD[22] at join at <console>:28 []
 |  CoGroupedRDD[21] at join at <console>:28 []
 +-(2) MapPartitionsRDD[14] at map at <console>:24 []
 |  |  MapPartitionsRDD[13] at range at <console>:24 []
 |  |  ParallelCollectionRDD[12] at range at <console>:24 []
 +-(2) MapPartitionsRDD[17] at map at <console>:24 []
    |  MapPartitionsRDD[16] at range at <console>:24 []
    |  ParallelCollectionRDD[15] at range at <console>:24 []

DAG

1.2 rdd如何得到结果

上面说到我们写的代码都会在spark内部转化成各种rdd的相互连接的dag。

最低0.47元/天解锁文章

曾二爷

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
精通spark源码-rdd是如何运行的

一、spark执行过程的一个例子// rdd_people: id，年龄var rdd_people = sc.range(1, 100, 1).map(i=&gt;(i, 20+i%80) )//rdd_score: id，成绩var rdd_score =sc.range(1, 100, 1).map(i=&gt;(i ,i+2))//两个进行joinvar rdd_res ...
复制链接

扫一扫