spark
zccao_gong
收获不止spark!
展开
-
Spark源码系列(一)spark-submit提交作业过程
终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver Program的过程。 作业提交方法以及参数 我们先看一下用Spark Submit提交的方法吧,下面是从官方上面摘抄的内容。 # Run on a Spar原创 2015-07-24 12:13:51 · 2241 阅读 · 0 评论 -
Spark要点
Spark要点: 内存计算,DAG; RDD:Resilient Distributed Dataset 弹性分布式数据集 RDD可以基于工作集应用 RDD特征:有很多partition(数据分片),并行度从上一个RDD继承;每个split(数据分片)对应一个函数function(),函数处理就是以任务方式运行;RDD依赖一组其他的RDD;对于key-value RD原创 2016-09-14 11:53:50 · 426 阅读 · 0 评论