shuffle
YYDU_666
这个作者很懒,什么都没留下…
展开
-
Shuffle 过程
上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计算出最终结果的。然而,我们还没有讨论数据是怎么通过 ShuffleDependency 流向下一个 stage 的?对比 Hadoop MapReduce 和 Spark转载 2017-12-27 00:11:28 · 1075 阅读 · 0 评论 -
shuffle工作原理
定义shuffle:针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。由图可见Shuffle过程横跨了map,reduce两端,所以为了方便讲解,我们在下面分为两个部分进行讲解:map端和reduce端map端的shuffle: 我们按照图中的1234步逐步进行说明: ①转载 2018-01-11 17:32:34 · 1133 阅读 · 0 评论