spark参数调优系列 目录地址:
https://blog.csdn.net/zyzzxycj/article/details/81011540
⑤ Compression and Serialization
spark.broadcast.compress
广播变量前是否会先进行压缩。默认true (
spark.io.compression.codec)
spark.io.compression.codec
压缩RDD数据、日志、shuffle输出等的压缩格式 默认lz4
spark.io.compression.lz4.blockSize
使用lz4压缩时,每个数据块大小 默认32k
spark.rdd.compress
rdd是否压缩 默认false,节省memory_cache大量内存 消耗更多的cpu资源(时间)。
spark.serializer.objectStreamReset
当使用JavaSerializer序列化时,会缓存对象防止写多余的数据,但这些对象就不会被gc,可以输入reset 清空缓存。默认缓存100个对象,修改成-1则不缓存任何对象。