Spark的RDD转换算子-map、mapPartitions、mapPartitionsWithIndex

最新推荐文章于 2024-05-23 09:29:03 发布

牧码文

最新推荐文章于 2024-05-23 09:29:03 发布

阅读量700

点赞数 1

分类专栏： Spark 文章标签： spark scala big data

本文链接：https://blog.csdn.net/weixin_46429290/article/details/119965524

版权

Spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Spark的RDD转换算子-map、mapPartitions、mapPartitionsWithIndex

RDD算子包括RDD转换算子和RDD行动算子，其实算子就相当于一种方法，在方法中封装想要实现所需结果的逻辑，比如在将旧的RDD包装成新的RDD上，所使用的有map、flatMap等，其实这就是转换算子。在整个任务的调度和作业的执行方面，只有调用了collect之后，才会出发任务的执行，比如collect方法，这就是行动算子。

RDD转换算子

RDD根据数据处理方式的不同将算子整体上分为value型、双value型、key-value型

value型：

map：

转换算子其实就是转换方法，比如一个案例简单的理解一下转换算子map

案例：实现一个简单的乘2操作

def mapFunction(num: Int): Int = {
	num * 2
}

//map传入的可以是一个方法名
val mapRDD: RDD[Int] = rdd.map(mapFunction)

//map传入的也可以是一个匿名函数
val mapRDD: RDD[Int] = rdd.map(
	(num: Int) => {
		num * 2
	}
)

//=====>匿名函数简化
val mapRDD: RDD[Int] = rdd.map(_ * 2)

对于多个分区的数据处理上，map又会涉及到并行计算的特点

如果对于一个分区数据，map的操作会一个个的执行逻辑，只有前面一个数据的全部逻辑执行完成后，后面的数据才会开始执行，分区内的数据执行是有序的

但是对于不同分区内的数据计算确是无序的

比如：List(1, 2, 3, 4)

对于这个列表，如果是一个分区，那么会执行1 - 2 - 3 - 4，因为都是同一个分区的，在内部执行是有序的

如果分为了两个分区，按照RDD的内存分区数据原则，两个分区的数据分别为（1,2）和（3,4），1肯定会在2的前面执行，3肯定会在4的前面执行，但是1和2哪个先执行却不知道，因为不同分区的数据的执行是无序的

mapPartitions：

对于map是并行处理的，需要等数据一个一个的执行，这样一来就会消耗很多的运行时间，而mapPartitions则是可以以分区为单位进行数据转换操作，但是会将整个分区的数据加载到内存中进行引用，就是处理完得数据不会被释放掉，存在着对象引用的现象，所以在内存较小，数据量较大的时候，容易出现内存溢出。

mapPartitions返回的是一个迭代器

val mpRDD: RDD[Int] = rdd.mapPartitions(
	iter => {
		iter.map(-*2)
	}
)

map和mapPartitons的区别：

数据处理的角度：

Map 算子是分区内一个数据一个数据的执行，类似于串行操作。而 mapPartitions 算子是以分区为单位进行批处理操作。

功能的角度：

Map 算子主要目的将数据源中的数据进行转换和改变。但是不会减少或增多数据。MapPartitions 算子需要传递一个迭代器，返回一个迭代器，没有要求的元素的个数保持不变，所以可以增加或减少数据

性能的角度：

Map 算子因为类似于串行操作，所以性能比较低，而是 mapPartitions 算子类似于批处理，所以性能较高。但是 mapPartitions 算子会长时间占用内存，那么这样会导致内存可能不够用，出现内存溢出的错误。所以在内存有限的情况下，不推荐使用。使用 map 操作。

mapPartitionsWithIndex：

如果只想要获得某个分区的数据，那么该怎么办？就可以使用mapPartitionsWithIndex转换算子

比如需要获得1分区的数据，而不想获得其他分区的数据

rdd.mapPartitionsWithIndex(
    //两个参数，一个是分区索引，一个是迭代器
	(index, iter) => {
		iter
	} else {
		Nil.iterator
	}
)

说明：

mapPartitionsWithIndex转换算子会有一个分区索引和一个迭代器

牧码文

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark的RDD转换算子-map、mapPartitions、mapPartitionsWithIndex

Spark的RDD转换算子-map、mapPartitions、mapPartitionsWithIndexRDD算子包括RDD转换算子和RDD行动算子，其实算子就相当于一种方法，在方法中封装想要实现所需结果的逻辑，比如在将旧的RDD包装成新的RDD上，所使用的有map、flatMap等，其实这就是转换算子。在整个任务的调度和作业的执行方面，只有调用了collect之后，才会出发任务的执行，比如collect方法，这就是行动算子。RDD转换算子RDD根据数据处理方式的不同将算子整体上分为value型、
复制链接

扫一扫