![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
君积行
这个作者很懒,什么都没留下…
展开
-
spark中rdd分区数量的决定因素
spark中rdd分区数量的决定因素1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval,batch interval的时间决定defau...原创 2019-08-24 19:10:30 · 2063 阅读 · 1 评论 -
Spark RDD的五大特性及Spark常用算子说明
Spark RDD的五大特性及Spark常用算子说明一、RDD的五大特性1.a list of partiotioner有很多个partiotioner(这里有3个partiotioner),可以明确的说,一个分区在一台机器上,一个分区其实就是放在一台机器的内存上,一台机器上可以有多个分区。2.a function for partiotioner一个函数作用在一个分区上。比如说一个分区有1...原创 2019-08-24 20:50:57 · 499 阅读 · 0 评论