Spark RDD计算-Transformation(实战和面试都值得拥有)
1、RDD特性
RDD概念:
RDD为Spark核心抽象,其全名为弹性分布式数据集。看到此名字,千万别认为它只是一个数据集,存放一些计算元数据的逻辑抽象。
RDD的五个特征:
1.每个RDD都由若干个Partition组成
2. 函数作用在RDD上,这个特点在开发时可以直观感受
3. RDD之间存在依赖关系,这种依赖关系形成“血统图”
4.携带分区器的RDD决定RDD的分区数量
5.计算最佳位置的选择(数据本地化)
RDD的弹性体现:
1.RDD数据存储自动进行...
转载
2020-05-29 16:22:05 ·
243 阅读 ·
0 评论