1、推荐书籍:
《Advanced Analytics with Spark》
《Machine Learning with Spark》
《The Lion Way:Machine Learning plus Intelligent Optimization》
《Pattern recognition and machine learning》
《The elements of statistical learning》
2、Spark的特点:
3、spark的RDD是一种粗粒度并行并行的数据集。
4、
Spark编程模型:一个Spark程序分为两块,Spark RDD空间和scala原生数据空间,其中Spark RDD空间是分布式并行的,scala原生数据空间是单机的。连接两个空间的桥梁是两类算子,分别为输入算子(textAsFile\parallelize)和行动算子(action操作)
5、
两类算子
6、
Spark的运行调度
State的划分是从后往前按照宽依赖和窄依赖划分的
DAGScheduler
TaskScheduler
7、
RDD的宽依赖和窄依赖
宽依赖和窄依赖最本质的区别是:运算过程中是否进行shuffle