要将计算过程中的数据保存下来,该RDD值被多次使用时能避免反复计算,就需要用到三种算子,分别是cache,persist,checkpoint。 一、cache算子 该算子是懒执行算子,需要action算子触发执行,默认将数据存储在内存中, //用法 var rdd=sc.textfile("") rdd=rdd.cache() 二、persist算子 该算子同样是懒执行算子,其可以手动的指定持久化级别 级别 说明 MEMORY_ONLY 只保存在内存,如果内存不够,可能持久化失败,