Spark 并行度

1. Spark 并行度

Spark的并行计算指的是在同一时间内,有多少个task在同时运行。

并行度:并行能力的设置,比如设置并行度6,其实就是要6个task并行再跑,在有了6个task并行的前提下,rdd的分区就被规划成6个分区了。

2. Spark 设置并行度

代码中配置文件中以及提交程序的客户端参数`中设置

全局并行度配置参数:spark.default.parallelism

优先级从高到低:

  1. 代码中
  2. 客户端提交参数
  3. 配置文件
  4. 默认(默认1,但是不会全部都以1来跑,多数时候基于读取文件的分片数据来作为默认并行度)

实现:

配置文件设置:

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

在客户端提交参数中设置:

bin/spark-submit --conf "spark.default.parallelism=100"

在代码中设置:

conf = SparkConf()
conf.set("spark.default.parallelism", "100")

针对RDD的并行度设置-不推荐

只能在代码中写,算子:repartition算子、coalesce算子、partitionBy算子

3. 集群中如何规划设置并行度

建议设置为CPU总核心的2~10倍
比如集群可用CPU核心是100个,建议并行度设置200~1000
确保是CPU核心的整数倍即可,最小是2倍,最大一般10倍

为什么设置最少2倍?

CPU的一个核心同一时间只能干一件事情。所以,在100个核心的情况下,设置100个并行,就能让CPU 100%出力,但是这种设置下,如果task的压力不均衡,某些task先执行完了,就会导致某个CPU核心的空闲。所以,我们将task(并行)分配的数量变多,比如800个并行,同一时间只有100个在运行,700个在等待,但是可以确保某个task运行完了,后续有task补上,不让cpu闲下来,最大程度利用集群的资源。

规划并行度,只看集群总CPU核数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
spark并行度和shuffle并行度Spark中两个重要的概念。 spark并行度是指在Spark作业中同时执行的任务数量。它由spark.default.parallelism参数控制,默认值为CPU核心数。可以通过设置该参数来调整并行度,以便更好地利用集群资源。 shuffle并行度是指在进行shuffle操作时,数据被划分为多个分区并在不同的节点上进行处理的能力。它由spark.sql.shuffle.partitions参数控制,默认值为200。可以通过设置该参数来调整shuffle操作的并行度,以便更好地平衡负载和提高性能。 spark.sql.shuffle.partitions和spark.default.parallelism的区别在于它们的作用范围和影响对象。spark.default.parallelism是全局参数,影响整个Spark应用程序的并行度。而spark.sql.shuffle.partitions是针对Spark SQL中的shuffle操作的参数,只影响与shuffle相关的操作的并行度设置spark.sql.shuffle.partitions和spark.default.parallelism的值可以根据具体的需求进行调整。一般来说,可以根据数据量、集群规模和任务复杂度等因素来决定并行度设置。较大的并行度可以提高作业的执行速度,但也会增加资源消耗。较小的并行度可以减少资源消耗,但可能导致作业执行时间较长。 总结起来,spark并行度是指整个Spark应用程序的任务并行度,而shuffle并行度是指shuffle操作的并行度。可以通过调整spark.default.parallelismspark.sql.shuffle.partitions的值来优化Spark作业的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值