1 惰性计算
利用惰性计算,有两点好处:
1)将真正需要计算的数据集进入shuffle过程,减少带宽IO
2)中间过程的RDD数据要是受损,重新计算一遍较为方便。
2 persist和checkpoint区别
persist(DISK_ONLY)与checkpoint区别为:
persist随着程序结束,被一起删除;checkpoint除非人为,否则一直存储在磁盘。
1 惰性计算
利用惰性计算,有两点好处:
1)将真正需要计算的数据集进入shuffle过程,减少带宽IO
2)中间过程的RDD数据要是受损,重新计算一遍较为方便。
2 persist和checkpoint区别
persist(DISK_ONLY)与checkpoint区别为:
persist随着程序结束,被一起删除;checkpoint除非人为,否则一直存储在磁盘。