Spark处理RDD,分区数和executor的关系

在代码中将RDD进行了hash重分区成56个partition,RDD中包含从HDFS上读取的4亿条记录,每一行记录存为RDD中的一个元素

所以最终RDD有4亿个元素,56个分区,对应spark程序中56个task

查看任务时显示如下:

再结合spark的原理图:

共申请了201个executor(Driver端占1个,申请200个executor),

总tasks数为56,每个executor具有3个cores,理论上每个executor可以处理1-4个task(可以有一个排队处理);

实际处理任务的时候,从201个executor中挑选出了56个executor来处理任务,

这里每个executor只处理一个task,因为申请的资源较多,但任务量并不大,所以没有达到资源瓶颈,每个executor只用了一个core的资源,所以并行度是56;

56个并行度同时往ES的一个Index里写入数据,ES集群共8台,设有8个主分片,

也就是一台数据节点处理一个分片,每个分片处理7个task的数据写入。

如果并行度增大,每个数据节点处理的tasks数过多,会造成集群崩溃宕机,所以在项目初始会进行压测。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1. RDD(Resilient Distributed Datasets):弹性分布式据集,是Spark中最基本的据抽象,是一个不可变的分布式对象集合,可以并行计算。RDD可以通过从Hadoop InputFormat中读取据、在Spark中的其他RDD转换操作和从外部存储系统中获取据创建。 2. DAG(Directed Acyclic Graph):有向无环图,它表示Spark任务执行的依赖关系。每个Spark应用程序都会生成一个DAG,用于描述任务之间的依赖关系。 3. Executor:执行器,是Spark中执行计算任务的工作进程。一个Spark应用程序可以由多个Executor组成,每个Executor都运行在独立的JVM进程中,负责运行Spark应用程序中的任务。 4. Application:Spark应用程序,是一个包含了用户编写的Spark任务代码和Spark集群上的资源配置信息的集合。在Spark中,应用程序通常以JAR包的形式提交到Spark集群中运行。 5. Task:任务,是Spark应用程序中最小的计算单元,是对RDD的一个分区进行操作的一段代码。每个Task都会被分配到一个Executor上运行。 6. Job:作业,是由一组相关的Task组成的,这些Task可以并行执行,且它们之间存在依赖关系Spark应用程序中的每个Action操作都会生成一个Job。 7. Stage:阶段,是Spark作业中的一个任务划分单元,是由若干个Task组成的。Spark会将一个Job划分成多个Stage,以便进行并行计算。一个Stage中的所有Task都可以并行执行,但是它们之间存在着依赖关系Spark将具有相同的计算依赖关系的Task划分为同一个Stage。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值