目录
1安装Spark
2示例
2.1Spark应用、作业、阶段和任务
2.2Scala独立应用
3弹性分布式数据集
3.1创建
3.2转换和动作
聚合转换
foldByKey操作作用于RDD[K,V]根据K将V做折叠、合并处理,其中的参数zeroValue表示先根据映射函数将zeroValue应用与V,进行初始化V,在将映射函数应用于初始化后的V。
3.3持久化
持久化级别
3.4序列化
4共享变量
4.1广播变量
4.2累加器
待补充
5剖析Spark作业运行机制
5.1作业提交
5.2DAG构建
5.3任务调度
5.4任务执行
6执行器和集群管理器
运行在YARN上的SPARK