Spark job划分stage和Spark参数设置调优

最新推荐文章于 2021-06-05 20:44:28 发布

最笨的羊羊

最新推荐文章于 2021-06-05 20:44:28 发布

阅读量525

点赞数

分类专栏：大数据文章标签： Spark job划分stage Spark参数设置和调优大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhengzaifeidelushang/article/details/108457608

版权

大数据专栏收录该内容

该专栏为热销专栏榜第92名

527 篇文章 537 订阅 ¥49.90 ¥99.00

订阅专栏

Spark job划分和参数设置

一、Spark的job划分

1.RDD

弹性分布式数据集(RDD)是不可变Java虚拟机(JVM)对象的分布式集合，该数据集是分布式的，数据集被划分成块，分布在多个执行器节点上。
RDD有两组并行操作，转换(返回指向新RDD的指针)和动作(在运行计算后向驱动程序返回值)。RDD转换操作是惰性的，不会立即计算结果，只有动作执行了并且需要将结果返回给驱动程序时，才会计算转换。

2.窄依赖和宽依赖

窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用。
宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用。

判断窄依赖和宽依赖牢记只需要根据：
父RDD中分区内的数据，在子类RDD中是否也完全处于一个分区，如果是就是窄依赖，如果不是就是宽依赖。

窄依赖和宽依赖如下图所示：
左边为窄依赖，左边的一个子RDD虽然继承了两个父RDD分区，但是两个父RDD分区的数据全部在一个子RDD分区中。
右边为宽依赖，父RDD分区中的数据被多个子RDD分区继承，因此是宽依赖。

在这里插入图片描述
相比于宽依赖，窄依赖对优化很有利，主要基于以下两点：

宽依赖往往对应着shuffle操作，需要在运行过程中将同一个父RDD的分区传入到不同

了解本专栏

最笨的羊羊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark job划分stage和Spark参数设置调优

Spark job划分和参数设置一、Spark的job划分1.RDD弹性分布式数据集(RDD)是不可变Java虚拟机(JVM)对象的分布式集合，该数据集是分布式的，数据集被划分成块，分布在多个执行器节点上。RDD有两组并行操作，转换(返回指向新RDD的指针)和动作(在运行计算后向驱动程序返回值)。RDD转换操作是惰性的，不会立即计算结果，只有动作执行了并且需要将结果返回给驱动程序时，才会计算转换。2.窄依赖和宽依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用。宽依赖是指父RDD的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

最笨的羊羊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。