1.Rdd由一组分区组成 (partition) 默认是一个block 对应一个分区
2.每个分区都有一个 Task 来处理 ,函数实际上 是作用在每一个分区上的
3.RDD 直接由一系列的依赖关系 宽依赖 与窄 依赖
宽依赖 存在 shuffle 算子分区对应的关系 是一对多 关系 窄依赖 没有 shuffle 算子 分区对应一对一关系
根据宽窄依赖切分 Stage , Stage 是一组并行计算的 task
4.分区类算子都会作用在 key value 的 RDD 上
5.spark为 task 提供了 最佳 运算位置 ,尽量将 task 发送到 数据所在的 executor 上,移动计算 不是 移动数据 (taskScheduler 知道 数据的位置 ,Task 由 TaskScheduler 来传送到对应的 executor 中 执行)
Spark RDD五大特征
最新推荐文章于 2024-01-03 21:24:18 发布