![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
华山论键
安能摧眉折腰事权贵,使我不得开心颜!
展开
-
RDD底层实现原理
RDD底层实现原理 RDD是一个分布式数据集,顾名思义,其数据应该分部存储于多台机器上。事实上,每个RDD的数据都以Block的形式存储于多台机器上,下图是Spark的RDD存储架构图,其中每个Executor会启动一个BlockManagerSlave,并管理一部分Block;而Block的元数据由Driver节点的BlockManagerMaster保存。BlockManagerSlave生成Block后向BlockManagerMaster注册该Block,BlockManagerMaster管理RD原创 2020-05-27 22:35:12 · 515 阅读 · 0 评论 -
Spark RDD 宽窄依赖——顿悟篇
1.宽窄依赖 ●两种依赖关系类型 RDD和它依赖的父RDD的关系有两种不同的类型,即 ·宽依赖(wide dependency/shuffle dependency) ·窄依赖(narrow dependency) ●图解 ●如何区分宽窄依赖 窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖 宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle) 2.为什么要设计宽窄依赖 2.1对于窄依赖 Spark可以并行计算 如果有一个分区数据丢失,只需要从父RDD的对应1个分区重新计原创 2020-05-16 19:35:13 · 553 阅读 · 0 评论