Spark并行度设置总结

Spark性能调优之合理设置并行度
1.Spark的并行度指的是什么?    spark作业中,各个stage的task的数量,也就代表了spark作业在 各个阶段stage的并行度!    当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如 果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。 同时并行运行,还可以让每个task要处理的数量变少(很简单的原 理。合理设置并行度,可以充分利用集群资源,减少每个task处理数 据量,而增加性能加快运行速度。)
 
    举例:        假如, 现在已经在spark-submit 脚本里面,给我们的spark作 业分配了足够多的资源,比如50个executor ,每个executor 有10G 内存,每个executor有3个cpu core 。 基本已经达到了集群或者yarn 队列的资源上限。 task没有设置,或者设置的很少,比如就设置了,100个task 。 50个 executor ,每个executor 有3个core ,也就是说 Application 任何一个stage运行的时候,都有总数150个cpu core ,可以并行运行。但是,你现在只有100个task ,平均分配一下,每 个executor 分配到2个task,ok,那么同时在运行的task,只有100个 task,每个executor 只会并行运行 2个task。 每个executor 剩下的一 个cpu core 就浪费掉了!你的资源,虽然分配充足了,但是问题是, 并行度没有与资源相匹配,导致你分配下去的资源都浪费掉了。合理 的并行度的设置,应该要设置的足够大,大到可以完全合理的利用你 的集群资源; 比如上面的例子,总共集群有150个cpu core ,可以并 行运行150个task。那么你就应该将你的Application 的并行度,至少 设置成150个,才能完全有效的利用你的集群资源,让150个task ,并 行执行,而且task增加到150个以后,即可以同时并行运行,还可以让 每个task要处理的数量变少; 比如总共 150G 的数据要处理, 如果 是100个task ,每个task 要计算1.5G的数据。 现在增加到150个 task,每个task只要处理1G数据。
2.如何去提高并行度?

   1、task数量,至少设置成与spark Application 的总cpu core 数 量相同(最理性情况,150个core,分配150task,一起运行,差不多 同一时间运行完毕)官方推荐,task数量,设置成spark Application 总cpu core数量的2~3倍 ,比如150个cpu core ,基本设置 task数 量为 300~ 500. 与理性情况不同的,有些task 会运行快一点,比如 50s 就完了,有些task 可能会慢一点,要一分半才运行完,所以如果 你的task数量,刚好设置的跟cpu core 数量相同,可能会导致资源的 浪费,因为 比如150task ,10个先运行完了,剩余140个还在运行, 但是这个时候,就有10个cpu core空闲出来了,导致浪费。如果设置 2~3倍,那么一个task运行完以后,另外一个task马上补上来,尽量让 cpu core不要空闲。同时尽量提升spark运行效率和速度。提升性能。
    2、如何设置一个Spark Application的并行度?
      spark.defalut.parallelism   默认是没有值的,如果设置了值 比如说10,是在shuffle的过程才会起作用(val rdd2 = rdd1.reduceByKey(_+_) //rdd2的分区数就是10,rdd1的分区数不 受这个参数的影响)
      new SparkConf().set(“spark.defalut.parallelism”,”“500)
 
    3、如果读取的数据在HDFS上,增加block数,默认情况下split与 block是一对一的,而split又与RDD中的partition对应,所以增加了block 数,也就提高了并行度。    4、RDD.repartition,给RDD重新设置partition的数量    5、reduceByKey的算子指定partition的数量                 val rdd2 = rdd1.reduceByKey(_+_,10)  val rdd3 = rdd2.map.filter.reduceByKey(_+_)    6、val rdd3 = rdd1.join(rdd2)  rdd3里面partiiton的数量是 由父RDD中最多的partition数量来决定,因此使用join算子的时候, 增加父RDD中partition的数量。    7、spark.sql.shuffle.partitions //spark sql中shuffle过程中 partitions的数量
 
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值