RDDs的血统关系图:
Spark维护着RDDs之间的依赖关系和创建关系, 叫做 血统关系图
Spark使用血统关系来计算每个RDD的需求和恢复丢失的数据
延迟计算(Lazy Evaluation)
Spark第一次使用Action操作是才进行真正的计算, 以减少数据传输
Spark 内部记录metadata 表明 transformations操作已经响应
加载数据也是延时计算, 数据只有在必要的时候才会被加载进去
RDD缓存
默认每次在RDDs上面进行action操作时Spark都重新计算RDDs, 如果向重复利用一个RDD,可以使用RDD.persist(), 以免进行重复的计算
unpersist()方法从缓存移除
缓存级别