Spark算子

最新推荐文章于 2024-02-06 09:26:22 发布

dsjyyds77

最新推荐文章于 2024-02-06 09:26:22 发布

阅读量1.6k

点赞数 1

文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_52163399/article/details/124546013

版权

一、Transformation算子

1.1 产生shuffle的算子：

groupBy：按照指定字段进行分组，生成RDD元素类型是KV键值对。
distinct：去重。
coalesce：增大分区时需设置shuffle为true，如果减少分区，建议使用coalesce，减少分区使用coalesce可以避免shuffle操作，提高线程的利用率

repartition：可增多也可以减少分区，会产生shuffle。
sortBy：按照指定字段进行排序，底层采用RangeParititioner分区器
intersection：交集，会产生shuffle。
subtract：差集，会产生shuffle，RDD1.subtract(RDD2) 的结果就是取出RDD1中除开交集的元素。
partitionBy / groupByKey / reduceByKey / foldByKey / CombineByKey / aggregateByKey / sortByKey / mapValues 均会产生shuffle。
join / leftOuterJoin / rightOuterJoin / fullOuterJoin / cogroup 均会产生shuffle。
cogroup：每个RDD进行groupByKey后再进行fullouterJoin。

1.2 不产生shuffle的算子：
map：针对RDD里面每个元素进行一对一映射。
mapPartitions：针对RDD里面每个分区进行操作。
mapPartitionsWithIndex：针对RDD里面每个分区进行操作，函数里面传入有两个部分，一个是index分区号，一个是分区迭代器。
flatMap：(map + flatten)，相当于sql中的UDTF函数。
union：并集，不会产生shuffle [两个集合所有元素合并,不会去重]
zip：拉链，不会产生shuffle [两个RDD拉链，必须保证分区数和元素个数一致]

二、Action算子

collect：
（1）Collect算子是搜集RDD每个分区的数据，最终将数据以数组的形式封装传给Driver；
（2）如果RDD数据量比较大，Driver的内存默认只有1G，此时会出现内存溢出，工作一般会将Driver内存设置为3~5G；
（3）可以通过bin/spark-submit --driver-memory 5G 来设置。
take：获取RDD前N哥元素组成的数组；take先启动一个job从0号分区找，如果0号分区数据不够N个元素，在启动一个job，在从其他分区找剩余元素。
takeOrdered；返回RDD排序后前N个元素组成的数组。
first：获取RDD中的第一个元素；first首先会启动一个job从0号分区获取第一个元素，0号分区如果没有数据，会再启动一个job从其他分区获取第一个元素。
count：统计RDD中的元素个数。
countByKey：统计每个key的个数。
save：将数据保存到文件中；saveAsTextFile(path)：保存成Text文件。
foreach：针对每个元素遍历。
foreachPartititon：针对每个分区遍历；使用场景为一般用于将数据保存到mysql/ hbase/redis地方，可以减少资源链接创建与销毁的次数。