spark中粗粒度和细粒度，RDD

最新推荐文章于 2021-12-05 20:59:07 发布

放弃可耻但是有用～

最新推荐文章于 2021-12-05 20:59:07 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/weixin_44332962/article/details/102887968

版权

Wee粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。举个例子，比如你提交应用程序时，指定使用5个executor运行你的应用程序，每个executor占用5GB内存和5个CPU，每个executor内部设置了5个slot，则Mesos需要先为executor分配资源并启动它们，之后开始调度任务。另外，在程序运行过程中，mesos的master和slave并不知道executor内部各个task的运行情况，executor直接将任务状态通过内部的通信机制汇报给Driver，从一定程度上可以认为，每个应用程序利用mesos搭建了一个虚拟集群自己使用。
细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark On Mesos还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。与粗粒度模式一样，应用程序启动时，先会启动executor，但每个executor占用资源仅仅是自己运行所需的资源，不需要考虑将来要运行的任务，之后，mesos会为每个executor动态分配资源，每分配一些，便可以运行一个新任务，单个Task运行完之后可以马上释放对应的资源。每个Task会汇报状态给Mesos slave和Mesos Master，便于更加细粒度管理和容错，这种调度模式类似于MapReduce调度模式，每个Task完全独立，优点是便于资源控制和隔离，但缺点也很明显，短作业运行延迟大。

RDD 弹性分布式数据集，spark的核心。

RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。

可以简单的理解为一张白纸上有很多分区，分区里面写满了待处理的任务与计算方法，维护了一份RDD之间关系的表等等。等到要计算时就会发放到Weorke节点那里，然后通过通过这种张指导自己的分区与计算方法。因此Rdd作为数据结构，只能是为只读的分区记录集合。

一个RDD可以包含多个分区，各个分区可用互相依赖

RDD分区及分区与工作节点的分布关系