wyn1175397098zt的博客

爱上java,爱上大数据

spark的cache和checkpoint的区别

要知道区别,就要首先知道实现的原理和使用的场景

    cache就是讲共用的或者重复使用的RDD按照持久化的级别进行缓存。

    checkpoint 就是将业务非常长的逻辑计算的中间结果缓存到HDFS上,他的实现原理是:

                首先找打stage最后的finalRDD,然后按照RDD的依赖关系回溯,找到使用checkpoint的RDD。

                然后标记这个checkpoint的RDD

                重新启动一个线程将checkpoint之前的RDD缓存到HDFS上面。

                最后RDD的依赖关系从checkpoint的位置切断

  为了更好提高spark的性能。可以在使用checkpoint之前,先cache一下。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wyn1175397098zt/article/details/79947241
文章标签: spark
上一篇scala的简单语法
下一篇spark调优
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭