spark 将数据序列化存放内存

最新推荐文章于 2024-05-28 09:41:37 发布

yj2434

最新推荐文章于 2024-05-28 09:41:37 发布

阅读量193

点赞数

分类专栏： # Spark 分布式计算框架核心高阶进阶

本文链接：https://blog.csdn.net/yj2434/article/details/109433584

版权

Spark 分布式计算框架核心高阶进阶专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在spark shell客户端启动后执行

scala> var rdd =  sc.textFile("hdfs://mycluster/spark/data/acc.txt")
rdd: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.cache()
res1: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.count()
res2: Long = 2

查看spark web ui：
在这里插入图片描述
显示没有序列化的数据在内存中大小为208B
执行命令删除该数据：

scala> rdd.unpersist()
res3: org.apache.spark.rdd.RDD[String] @scala.reflect.internal.annotations.uncheckedBounds = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

在这里插入图片描述
重新序列化后存放内存，执行命令：

scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevel

scala> rdd.persist(StorageLevel.MEMORY_ONLY_SER)
res4: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.count()
res5: Long = 2