Spark编程模型

最新推荐文章于 2021-06-01 19:08:47 发布

李思苇

最新推荐文章于 2021-06-01 19:08:47 发布

阅读量259

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wenxindiaolong061/article/details/78575608

版权

RDD是核心

Spark的计算全部基于接口RDD，RDD包括一组partitions和几个接口方法。

spark的计算过程实质是对一个RDD实例进行处理生成另一个RDD实例
计算过程会生成base RDD、transformation RDD、action RDD、cache RDD几类RDD
- 输入算子从hdfs读取blocks生成一个base RDD，每个block生成一个partition
- 转换算子对base RDD内的partitions内的数据进行过滤生成一个filter RDD，也是transformation RDD
- 缓存算子对RDD缓存生成cache RDD
- 最后对RDD进行collect等操作时生成action RDD
lineage实现容错性，并且更高效
lineage是指记录了RDD间的partitions的依赖关系，如果其中一个partition的数据丢失，则可以根据依赖关系，从头到尾再计算一遍，这样哪个partition出错才重新计算哪个，节省时间。
延时调度，更加高效。
只有遇到需要生成action RDD的算子时，才会真正开始计算和调度
窄依赖和宽依赖
- 窄依赖：如果一个算子的源RDD的partition和生成的RDD内的partition是1对1的关系，则此算子的源RDD和生成的RDD间的依赖关系是窄依赖。包括map、union等。
- 宽依赖：如果源RDD的partitions和生成的RDD的partitions是1对多的关系，则为宽依赖。包括groupBy、没有做预分区(co-partition)的join等。
根据宽依赖划分stage
从后往前根据RDD间的partition的依赖关系，遇到宽依赖则从此算子开始到前一个宽依赖的算子之前的算子结束，为一个stage
partition为计算的最小单位
不需物化，迭代进行

窄依赖与宽依赖

窄依赖在计算时更加节能高效
窄依赖允许在单节点上流水操作，源RDD的一个partition完成即可对此partition进行计算，无需shuffle更高效。
宽依赖必须源RDD的所有partitions都已经准备好后，再对这些源partitions进行shuffle
窄依赖在故障恢复时，更加节能高效
如果算子是窄依赖，其中一个partition计算失败，只需将其父partition重新计算一遍
如果算子中有宽依赖则宽依赖则需将多个partition进行重新计算。

Spark Application的组成

一个Spark Applicaiton包括一个driver和多个executors
dirver：运行main函数和生成SparkContext的程序
executor：在集群的节点上对某个应用启动一个进程，执行计算任务
cluster manager是调度计算任务、为任务分配资源的，比如yarn
Job：和action算子是一一对应的，一个action算子会生成一个Job
Task：一个Job有多个算子，每个算子作用在一个partition上形成一个Task。
Stage：宽依赖的算子必须等待上一算子的所有Task都执行完成，所有源partition都以就绪后，才能开始执行，这时就形成了一个stage。当前stage必须等待上一stage执行完毕，才能开始执行，是串行的。一个stage内不同partition的Task间可以多partition并行执行的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark编程模型

RDD是核心Spark的计算全部基于RDD，RDD包括一组partitions和几个接口方法。 - 包括一组partitions - 记录了RDD间的依赖关系，形成lineage，实现容错性如果其中一个partition的计算出粗，根据依赖关系，从头到尾再计算一遍 - 根据宽依赖拆分stage 拆分stage的方法是，从后往前，只要遇到一个算子的partition对
复制链接

扫一扫

李思苇 CSDN认证博客专家 CSDN认证企业博客

码龄15年

104: 原创

5万+: 周排名

205万+: 总排名

33万+: 访问

: 等级

3394: 积分

54: 粉丝

87: 获赞

39: 评论

343: 收藏

私信

关注

热门文章

分类专栏

javaweb 5篇
web-css 1篇
nginx 5篇
数据结构 1篇
数学基础 1篇
架构 1篇
intellij 2篇
DOS 1篇
vmware
JAVA-语法基础 50篇
Spring 4篇
mysql 3篇
JAVA-JVM 7篇
maven 4篇
flume 6篇
elastic 19篇
kafka 2篇
linux 13篇
hdfs 2篇
java多线程 6篇
hadoop 6篇
hbase 3篇
优质技术网站
杂 4篇
研发管理 4篇
shell 8篇
REST 2篇
JAVA-JPA 7篇
springboot 4篇

最新评论

正则表达式总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
弱引用——WeakReference——所引用的对象的回收规则
qq_40735131: 这句话是不是有误 ----> 如果垃圾收集器在某个时间点确定某个对象的可达性是弱可达的（即这个对象可以通过一个弱引用链可达，即使同时也有其它强引用链或者软引用链可达此对象），那么GC就会清除所有引用这个对象的弱引用，还会通过可以到达这个对象的强引用链和软引用链找到链上其它对象上的所有弱引用、并清除所有这些弱引用。
弱引用——WeakReference——所引用的对象的回收规则
qq_40735131: 你确定弱引用的引用在有强引用时进行GC会将弱引用的连接断开？
Stream： Core Java 2 第一章
TTianbo123: 博主的技术面很广哦，厉害👍可以加您微信随时交流吗？非常感谢
弱引用——WeakReference——所引用的对象的回收规则
qq_34860636: 感谢楼主解答

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。