Spark分区原理和分区后数据的划分

最新推荐文章于 2023-04-21 21:37:17 发布

「已注销」

最新推荐文章于 2023-04-21 21:37:17 发布

阅读量1k

点赞数 2

分类专栏：大数据-Spark 文章标签： spark

本文链接：https://blog.csdn.net/wushuoyouting/article/details/113737891

版权

Spark分区原理和数据的分布

将从内存数据和文件数据两个方向，讲述下数据如何分区，分区后的数据如何分配的问题
本实例使用本地模式实践解析

1. 集合数据的分区和数据分布

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("parallelism")
//sparkConf.set("spark.default.parallelism","5")
val sc = new SparkContext(sparkConf)
val rdd = sc.makeRDD(List(1,2,3,4,5),3)

// 将处理的数据保存成分区文件
rdd.saveAsTextFile("output")
sc.stop()

1.1 集合数据如何设置分区数

使用makeRDD
第二个参数表示分区数量，如果第二个参数不传递，则使用默认的并行度:defaultParallelism

override def defaultParallelism(): Int = backend.defaultParallelism()
override def defaultParallelism(): Int =
    scheduler.conf.getInt("spark.default.parallelism", totalCores)

通过源码可知：
Spark会从配置对象"spark.default.parallelism"中获取分区数
如果获取不到，则使用totalCores属性，totalCores表示当前环境的最大处理器核数(本地模式下就是cpu的核数)

修改配置
sparkConf.set(“spark.default.parallelism”,“5”)
sparkConf.setMaster(“local[4]”)
local[*]表示分区数为处理器核算，local[4]表示指

最低0.47元/天解锁文章

「已注销」

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark分区原理和分区后数据的划分

Spark分区原理和数据的分布将从内存数据和文件数据两个方向，讲述下数据如何分区，分区后的数据如何分配的问题本实例使用本地模式实践解析1. 集合数据的分区和数据分布val sparkConf = new SparkConf().setMaster("local[*]").setAppName("parallelism")//sparkConf.set("spark.default.parallelism","5")val sc = new SparkContext(sparkConf)val
复制链接

扫一扫