Spark是什么:Spark is a unified analytics engine for large-scale data processing.Spark是一个大规模的数据统一分析引擎
Spark的核心(Spark core)是RDD(分布式弹性数据集)
了解分区的概念(Spark的分区概述图的描述):
HDFS Input Splits(逻辑分区和物理分区,物理分区是每块默认128M),数据通过管道读入内存就成了RDD,经过运算(数据转换)又形成新的RDD,经过shuffle又返回原来状态了(又变成了原来的4个分区状态)如果一个大文件被分成9个块(物理分区),那么每个块对应一个task,即物理分区和task是一一匹配的