Spark部分：spark中资源调度和任务调度，RDD的弹性分布模式（图解）

最新推荐文章于 2022-07-16 18:36:16 发布

道法—自然

最新推荐文章于 2022-07-16 18:36:16 发布

阅读量678

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyqwilliam/article/details/81123314

版权

RDD：RDD(Resilient Distributed Datasets) ,弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建，然而这些限制使得实现容错的开销很低。对开发者而言，RDD可以看作是Spark的一个对象，它本身运行于内存中，如读文件是一个RDD，对文件计算是一个RDD，结果集也是一个RDD ，不同的分片、数据之间的依赖、key-value类型的map数据都可以看做RDD。

RDD是基于内存的，是实时读取的。

MapReduce是基于磁盘的，是离线读取的。

Spark与MapReduce的区别

都是分布式计算框架，Spark基于内存，MR基于HDFS。
Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

道法—自然

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark部分：spark中资源调度和任务调度，RDD的弹性分布模式（图解）

RDD：RDD(Resilient Distributed Datasets) ,弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建，然而这些限制使得实现容错的开销很低。对开发者而言，RDD可以看作是Spark的一个对象，它本身运行于内存中，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。