Spark知识点总结
1.Spark基本架构
- Cluster Manager : Spark的集群管理器, 主要负责对整个集群资源的分配与管理. Cluster Manager分配的资源属于一级资源, 它将各个Worker上的内存, CPU分配给Application, 但不负责对Executor的资源分配. 在standalone模式下即为Master主节点, 控制整个集群, 监控Worker.
- Worker: Spark的工作节点. 主要负责管理本节点. 1.将自己的内存, CPU等资源通过注册机制告知Cluster Manager. 2.创建Executor, 并分配资源给Executor. 3.同步资源信息, Executor信息给Cluster Manager.
- Executor: 执行器, 是为某个Application运行在Worker上的JVM进程. 负责任务的执行, 与Worker, Driver的信息同步
- Driver: Application的驱动程序, Application通过Driver与Cluster Manager, Worker进行通信. Driver可以运行在Application中, 也可以由Application提交给Cluster Manager, 并由Cluster Manager安排Worker运行
- Appl