Spark 并行度

最新推荐文章于 2024-05-04 15:53:03 发布

不忘初欣丶

最新推荐文章于 2024-05-04 15:53:03 发布

阅读量2.5k

点赞数

分类专栏： spark 文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44639720/article/details/130032025

版权

spark 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

文章目录

1. Spark 并行度
2. Spark 设置并行度
3. 集群中如何规划设置并行度

1. Spark 并行度

Spark的并行计算指的是在同一时间内，有多少个task在同时运行。

并行度：并行能力的设置，比如设置并行度6，其实就是要6个task并行再跑，在有了6个task并行的前提下，rdd的分区就被规划成6个分区了。

2. Spark 设置并行度

在代码中和配置文件中以及提交程序的客户端参数`中设置

全局并行度配置参数：spark.default.parallelism

优先级从高到低：

代码中
客户端提交参数
配置文件
默认（默认1，但是不会全部都以1来跑，多数时候基于读取文件的分片数据来作为默认并行度）

实现：

配置文件设置：

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

在客户端提交参数中设置：

bin/spark-submit --conf "spark.default.parallelism=100"

在代码中设置：

conf = SparkConf()
conf.set("spark.default.parallelism", "100")

针对RDD的并行度设置-不推荐

只能在代码中写，算子：repartition算子、coalesce算子、partitionBy算子

3. 集群中如何规划设置并行度

建议：设置为CPU总核心的2~10倍
比如集群可用CPU核心是100个，建议并行度设置200~1000
确保是CPU核心的整数倍即可，最小是2倍，最大一般10倍

为什么设置最少2倍？

CPU的一个核心同一时间只能干一件事情。所以，在100个核心的情况下，设置100个并行，就能让CPU 100%出力，但是这种设置下，如果task的压力不均衡，某些task先执行完了，就会导致某个CPU核心的空闲。所以，我们将task（并行）分配的数量变多，比如800个并行，同一时间只有100个在运行，700个在等待，但是可以确保某个task运行完了，后续有task补上，不让cpu闲下来，最大程度利用集群的资源。

规划并行度，只看集群总CPU核数

不忘初欣丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 并行度

Spark中并行度设置
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。