Spark深入解析(十八):SparkCore之扩展之RDD相关概念关系

本文探讨了Spark中的RDD相关概念,包括InputSplit、Task、Executor和Partition之间的关系。每个Executor由多个core组成,每个core一次执行一个Task。Task的数量等于RDD的partition数,而分区数取决于数据读入阶段和Reduce阶段的操作。在计算资源固定的情况下,调整RDD分区数目能影响任务并行度,从而影响计算效率。理解这些概念对于Spark性能调优至关重要。
摘要由CSDN通过智能技术生成

RDD相关概念关系

在这里插入图片描述


  输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

  • 1)每个节点可以起一个或多个Executor。
  • 2)每个Executor由若干core组成,每个Executor的每个core一次只能执行一个Task。
  • 3)每个Task执行的结果就是生成了目标RDD的一个partiton。

注意: 这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是Executor的一个工作线程。而 Task被执行的并发度 = Executor数目 * 每个Executor核数。 至于partition的数目:

  • 1)对于数据读入阶段,例如sc.textFile,输入文件被划分为多少InputSplit就会需要多少初始Task。
  • 2)在Map阶段partition数目保持不变。
  • 3)在Reduce阶段,RDD的聚合会触发shuffle操作,聚合后的RDD的partition数目跟具体操作有关,例如repartition操作会聚合成指定分区数ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值