Spark 算子

最新推荐文章于 2024-08-23 09:20:50 发布

请大佬带带我

最新推荐文章于 2024-08-23 09:20:50 发布

阅读量110

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/weixin_45967421/article/details/109440971

版权

本文详细介绍了Spark的主要算子，包括map、flatMap、mapPartitions、filter、groupByKey、reduceByKey、sortByKey、sortBy、join、leftOuterJoin、distinct、repartition、coalesce、count、collect、foreach、foreachPartition、cogroup和sample。这些算子在数据处理中起到关键作用，例如数据转换、过滤、分组、排序和采样等。

摘要由CSDN通过智能技术生成

1.map:将原来RDD的每个数据项通过 map 中的用户自定义函数映射转变为一个新的元素。输入一条输出一条;
val newRDD = listRDD.map(line=>line.split(",")) //每一行变成了一个数组
2.flatMap:先进行一次 map 操作，然后把输出的结果合并成一个对象
listRDD.flatMap(line=>line.split(",")).foreach(println)//一行变成多行
//输出结果
// a
// b
// c
// d
// e
// f
3.mapPartition:与 map 函数类似，只不过映射函数的参数由 RDD 中的每一个元素变成了 RDD 中每一个分区的迭代器。将 RDD 中的所有数据通过 JDBC 连接写入数据库，如果使用 map 函数，可能要为每一个元素都创建一个 connection，这样开销很大，如果使用 mapPartitions，那么只需要针对每一个分区建立一个 connection。
4.filter:依据条件过滤的算子
val list = 1 to 10
val listRDD = sc.parallelize(list)
listRDD.filter(line=>line%2==0).foreach(println)//2,4,6,8,10
5.groupByKey:依据 Key 进行分组
6.reduceByKey:先分组，后聚合根据传入的匿名函数聚合，适合在 map 端进行 combiner
val list = list(“a”,“a”,“b”,“c”)
val listRDD = sc.parallelize(list)
//首先将数据转换成key-value格式

最低0.47元/天解锁文章

请大佬带带我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark 算子

1.map:将原来RDD的每个数据项通过 map 中的用户自定义函数映射转变为一个新的元素。输入一条输出一条;val newRDD = listRDD.map(line=>line.split(",")) //每一行变成了一个数组2.flatMap:先进行一次 map 操作，然后把输出的结果合并成一个对象listRDD.flatMap(line=>line.split(",")).foreach(println)//一行变成多行//输出结果// a// b//
复制链接

扫一扫