谈谈对Spark RDD的理解

RDD理解

RDD(Resilient Distributed Datasets)是一个不可变的,可分区,可并行操作的数据结构。它可以在集群中的多个节点上分布式存储和计算,以实现高效地处理数据。提供了一种简单可靠,可扩展的数据处理方式。
2. RDD不可变,由一系列的Partition组成;由于RDD不可变,所以其更新数据是只能创建新的RDD对象。
3. RDD之间由依赖关系,分为宽依赖和窄依赖
宽依赖:父RDD的每个分区都有可能被子RDD的多个分区使用
重算子RDD数据时需要重算每个父RDD的每个分区的所有数据,这些重算的结果可能只有一部分属于这个字RDD
窄依赖:一对一或者多对一,即一个父RDD的一个分区仅仅只被一个子RDD的一个分区使用
重算子RDD数据时,只需要计算父RDD对应分区数据即可
4. 函数是作用在Partition上的,Partition就是最小的计算单元
5. 分区器是作用在k v格式的RDD上
6. RDD提供了一系列的最佳计算位置,利于数据本地化处理

RDD如何实现容错性

  1. Spark任务调度层面:spark会在task层面及stage层面进行重试。TaskSchedule默认重试四次,修改参数是spark.task.maxFailures;stage默认重试4次,修改参数是spark.stage.maxConsecutiveAttempts;task重试失败后,DAGScheduler会进行stage重试,如果还是失败,则整个Spark Job失败。
  2. RDD Lineage血缘关系:Spark RDD之间是有血缘关系的,子RDD通过Transformation类算子基于父RDD生成,形成Lineage链。RDD的依赖关系分为宽依赖和窄依赖,以此保证RDD的容错性。窄依赖中父RDD与子RDD为一对一或多对一的关系,所以当子RDD丢失时,只需要计算父RDD对应的分区数即可。而在宽依赖中,父RDD与子RDD为多对多的关系,这就会导致在重新计算父RDD过程中,可能只有很小的一部分属于子RDD,会造成过高的冗余的计算。
  3. chechpoint数持久化:为解决宽依赖中冗余计算导致过高的开销问题,可以针对RDD设置checkpoint检查点(类似于快照),将数据持久化到磁盘中。当子RDD重新计算是,只需要基于checkpoint的数据开始计算即可。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

难得将就

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值