package com.bjsxt.spark
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import scala.actors.threadpool.Arrays
import scala.collection.mutable.ListBuffer
object SparkJoin {
def main(args: Array[String]): Unit = {
val conf=new SparkConf().setAppName("test").setMaster("local");
val sc=new SparkContext(conf);
val rdd6=sc.parallelize(Array("a","b","b","b","c","d","d","e","f","g","h"),2);
/**
* saveAsTextFile:将计算结果保存成文件
*/
rdd6.saveAsTextFile("./result")
/**
* foreachPartition:只是简单的分区遍历,没有其他的操作
*/
val rdd8=rdd6.foreachPartition(iter=>{
while(iter.hasNext){
println(iter.next())
}
})
println("_____________________________________________________-")
/**
* mapPartitions插入分区操作
*/
val
Scala版算子(包括:join,leftjoin,rightjoin,fulljoin,distinct,saveAsTextFile,foreachPartition,mapPartit)【代码】
最新推荐文章于 2024-04-18 18:07:16 发布
本文深入探讨Scala中常见的数据处理算子,包括join、leftjoin、rightjoin、fulljoin实现数据融合,distinct操作去除重复项,saveAsTextFile用于结果持久化,以及如何通过foreachPartition和mapPartitions进行并行处理优化。通过实例解析,帮助读者掌握Scala大数据处理的核心技巧。
摘要由CSDN通过智能技术生成