![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkRDD
文章平均质量分 77
YZY_001
这个作者很懒,什么都没留下…
展开
-
Spark中cache和persist的区别
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 2.3.2 的源码,可以看到/** * Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def cache(): t...原创 2018-12-25 23:39:31 · 602 阅读 · 0 评论 -
spark性能调优之使用Kryo序列化
在SparkConf中设置一个属性,spark.serializer,org.apache.spark.serializer.KryoSerializer类;注册你使用到的,需要通过Kryo序列化的,一些自定义类,SparkConf.registerKryoClasses()SparkConf.set(“spark.serializer”, “org.apache.spark.serializ...转载 2018-12-25 23:44:08 · 286 阅读 · 0 评论