spark 将数据序列化存放内存

在spark shell客户端启动后执行

scala> var rdd =  sc.textFile("hdfs://mycluster/spark/data/acc.txt")
rdd: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.cache()
res1: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.count()
res2: Long = 2 

查看spark web ui:
在这里插入图片描述
显示没有序列化的数据在内存中大小为208B
执行命令删除该数据:

scala> rdd.unpersist()
res3: org.apache.spark.rdd.RDD[String] @scala.reflect.internal.annotations.uncheckedBounds = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

在这里插入图片描述
重新序列化后存放内存,执行命令:

scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevel

scala> rdd.persist(StorageLevel.MEMORY_ONLY_SER)
res4: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.count()
res5: Long = 2 

查看结果只有45B:
在这里插入图片描述
结论:显示同样大小的数据在序列化后存放内存所占用空间会显著变小

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值