RDD理解
RDD(Resilient Distributed Datasets)是一个不可变的,可分区,可并行操作的数据结构。它可以在集群中的多个节点上分布式存储和计算,以实现高效地处理数据。提供了一种简单可靠,可扩展的数据处理方式。
2. RDD不可变,由一系列的Partition组成;由于RDD不可变,所以其更新数据是只能创建新的RDD对象。
3. RDD之间由依赖关系,分为宽依赖和窄依赖
宽依赖:父RDD的每个分区都有可能被子RDD的多个分区使用
重算子RDD数据时需要重算每个父RDD的每个分区的所有数据,这些重算的结果可能只有一部分属于这个字RDD
窄依赖:一对一或者多对一,即一个父RDD的一个分区仅仅只被一个子RDD的一个分区使用
重算子RDD数据时,只需要计算父RDD对应分区数据即可
4. 函数是作用在Partition上的,Partition就是最小的计算单元
5. 分区器是作用在k v格式的RDD上
6. RDD提供了一系列的最佳计算位置,利于数据本地化处理
RDD如何实现容错性
- Spark任务调度层面:spark会在task层面及stage层面进行重试。TaskSchedule默认重试四次,修改参数是
spark.task.maxFailures
;stage默认重试4次,修改参数是spark.stage.maxConsecutiveAttempts
;task重试失败后,DAGScheduler会进行stage重试,如果还是失败,则整个Spark Job失败。 - RDD Lineage血缘关系:Spark RDD之间是有血缘关系的,子RDD通过Transformation类算子基于父RDD生成,形成Lineage链。RDD的依赖关系分为宽依赖和窄依赖,以此保证RDD的容错性。窄依赖中父RDD与子RDD为一对一或多对一的关系,所以当子RDD丢失时,只需要计算父RDD对应的分区数即可。而在宽依赖中,父RDD与子RDD为多对多的关系,这就会导致在重新计算父RDD过程中,可能只有很小的一部分属于子RDD,会造成过高的冗余的计算。
- chechpoint数持久化:为解决宽依赖中冗余计算导致过高的开销问题,可以针对RDD设置checkpoint检查点(类似于快照),将数据持久化到磁盘中。当子RDD重新计算是,只需要基于checkpoint的数据开始计算即可。