【Spark Core】【RDD】【06】依赖关系

败给你的黑色幽默丶

已于 2022-02-27 21:54:09 修改

阅读量328

点赞数

分类专栏： # Spark 文章标签： spark scala java

于 2021-10-10 21:27:06 首次发布

本文链接：https://blog.csdn.net/weixin_43589563/article/details/120687521

版权

1.RDD 血缘关系

在这里插入图片描述
依赖关系：两个相邻RDD之间的关系
血缘关系：多个连续的RDD的依赖关系

2.RDD血缘关系的演示

下图演示了RDD的血缘关系：
在这里插入图片描述

RDD是不会保存数据的，但是每个RDD会保存自己的血缘关系；
血缘关系的意义：因为RDD不保存数据，一旦计算失败了，不能从上一个RDD重新计算，必须重头计算，那么RDD必须要知道数据源在哪里，血缘关系就用于追溯数据源，提高了容错性

血缘关系演示

package SparkCore._04_血缘关系

import org.apache.spark.rdd.RDD
import org.apache.spark.{
   SparkConf, SparkContext}

/**
 * yatolovefantasy
 * 2021-10-08-21:12
 */
object wordcount {
   
  def main(args: Array[String]): Unit = {
   

    val conf: SparkConf = new SparkConf().setAppName("wc").setMaster("local[*]")
    val sc = new SparkContext(conf)

    val fileRDD: RDD[String] = sc.textFile("SparkCore/target/classes/wc.txt")
    println(fileRDD.toDebugString)
    println("***********************")

    val words: RDD[String] = fileRDD.flatMap(_.split(" "))
    println(words.toDebugString)
    println("***********************")

    val wordToOne: RDD[(String, Int)] = words.map((_, 1))
    println(wordToOne.toDebugString)
    println("***********************")

    val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_ + _)
    println(wordToSum.toDebugString)
    println("****************