spark中parallelize和makeRDD函数的区别

最新推荐文章于 2021-06-19 22:22:46 发布

一只学技术的狮子

最新推荐文章于 2021-06-19 22:22:46 发布

阅读量707

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_44786007/article/details/104639474

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

parallelize和makeRDD的函数结构

def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
  }
 
def makeRDD[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T]
 
def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T]

第一个makeRDD的实现是依赖于parallelize的实现，两者一致；
第二个makeRDD的实现分配一个本地Scala集合形成一个RDD，为每个集合对象创建一个最佳分区。
总之，makeRDD的使用对后期的优化很有好处。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只学技术的狮子

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark中parallelize和makeRDD函数的区别

parallelize和makeRDD的函数结构def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollectionRDD[T](this,...
复制链接

扫一扫