Spark宽依赖与窄依赖的区别

最新推荐文章于 2023-12-28 15:58:18 发布

Lifecycle-log4j

最新推荐文章于 2023-12-28 15:58:18 发布

阅读量843

点赞数

分类专栏： Spark 文章标签：要点概述一

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个父RDD分区。这其中又分两种情况：1个子RDD分区对应1个父RDD分区（如map、filter等算子），1个子RDD分区对应N个父RDD分区（如co-paritioned（协同划分）过的Join）。
宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用，子RDD分区通常对应所有的父RDD分区。这其中又分两种情况：1个父RDD对应所有子RDD分区（未经协同划分的Join）或者1个父RDD对应非全部的多个RDD分区（如groupByKey）。
窄依赖相对宽依赖有2点优势：
(1) 宽依赖会产生shuffle，会跨网络拉取数据，窄依赖在一个节点内就可以完成转换。
(2) 当RDD需要时，当子RDD需要重算的时候会将所有父RDD的数据重算一遍，这样出现多余计算情况，而窄依赖时，子RDD需要重算时只需要重算对应的一个父RDD即可。

窄依赖的算子：map、flatMap、filter、mapPartitions
宽依赖的算子：groupByKey、reduceByKey、combineByKey

Lifecycle-log4j

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。