spark大数据分析:spark core(1) RDD概念

最新推荐文章于 2021-01-10 17:00:29 发布

_东极

最新推荐文章于 2021-01-10 17:00:29 发布

阅读量453

点赞数

分类专栏： spark-鲨鱼

年轻人应该玩转风口浪尖的一切技术

本文链接：https://blog.csdn.net/wwwzydcom/article/details/107677638

版权

spark-鲨鱼专栏收录该内容

76 篇文章 6 订阅

订阅专栏

文章目录

- - RDD 的初步了解

RDD 的初步了解

数据存储

RDD 是一种集合,用来存储和管理数据

分布式存储

分布式运算思想是将大数据量数据分成多份,使用多台机器处理,待所有机器处理完毕汇总到同一台机器上,RDD中数据切分为多个分区,对于开发者是封闭的,可以通过 foreachPartition 遍历当前RDD的分区

内存优先

默认情况下数据可以缓存在内存中则不通过磁盘

数据可靠性

RDD之间有强的血缘关系,在程序运行时,中间某个RDD出现丢失或错误情况,通过血缘关系重新运算,恢复不是全量数据进行重算,只是需要重新计算的分区数据,对于一些依赖链较长的可以通过checkPoint来进行持久化RDD

数据分析

RDD 之间有转换算子和行动算子对数据进行操作

程序调度

Driver

构建spark的上下文实例(SparkContext),程序的主入口,包含所有的代码,记录每一个RDD的依赖关系

Job

在整个程序中,每次action 操作会产生一个job 而转换算子并不会产生job

stage

每一个job 由多个Stage 组成,依次执行,只要涉及到数据重组(比如shuffle) 就会产生新的stage,每一个stage结束,数据在分区中会发生变化

task

一个stage包含多个task,一个task 一次只处理一个分区中数据

master

在spark提交程序时,需要与Master服务通信,申请运行任务所需的资源

worker

当前程序申请的运算资源由worker服务提供

executor

用于执行运算任务(Task)的进程,Executor 进程负责接收Driver进程派发过来运算任务(Task)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。