Spark常用RDD算子(scala和java版本)

本文详细介绍了Spark中RDD的创建与各种操作,包括`parallelize`、`makeRDD`、`textFile`等创建方法,以及`filter`、`map`、`flatMap`、`distinct`等基本操作。还涉及键值对操作如`reduceByKey`、`groupByKey`,以及Action操作如`first`、`take`、`collect`等,最后讨论了RDD的保存方式,如`saveAsTextFile`、`saveAsHadoopFile`等。
摘要由CSDN通过智能技术生成

1、创建RDD

1.1 parallelize

调用SparkContext()的parallelize(),将一个存在的集合,变成一个RDD,这种方式适用于学习spark和做一些spark测试。

scala版本

def parallelize[T](seq: Seq[T],numSlices: Int)(implicit evidence$1: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]

第一个参数是一个Seq集合,第二个参数是分区数,返回的是RDD

scala> sc.parallelize(List(1,2,3),2)
res0: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:25

java版本

def parallelize[T](list : java.util.List[T], numSlices : scala.Int) : org.apache.spark.api.java.JavaRDD[T] = { /* compiled code */ }

第一个参数是List集合(注意只能接收List集合),第二个参数是分区,不填就是默认,返回的是JavaRDD。

	SparkConf conf = new SparkConf().setMaster("local[1]").setAppName("parallelize");
    JavaSparkContext sc = new JavaSparkContext(conf);

    List<String> strings = Arrays.asList("hello word", "hello java", "hello spark");
    JavaRDD<String> rdd1 = sc.parallelize(strings);
    List<String> collect = rdd1.collect();
    for (String value:collect){
     //for循环遍历打印
    	System.out.println(value);
    }

1.2 makeRDD

只有scala版本才有makeRDD,跟parallelize类似。

def makeRDD[T](seq: Seq[(T, Seq[String])])(implicit evidence$3: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]
def makeRDD[T](seq: Seq[T],numSlices: Int)(implicit evidence$2: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]

scala> sc.makeRDD(List("hello scala","hello spark"),2)
res0: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at makeRDD at <console>:25

1.3 textFile

调用SparkContext.textFile()方法,从外部存储中读取数据来创建 RDD

scala版本

def textFile(path: String,minPartitions: Int): org.apache.spark.rdd.RDD[String]

//通过加载本地文件产生RDD
val lines:RDD[String] = sc.textFile("D:\\test\\a.txt ")
//通过加载HDFS文件产生RDD
val linesHDFS:RDD[String] = sc.textFile("hdfs://hadoop20:9000/wctest/a.txt")

java版本

//通过加载本地文件产生RDD
JavaRDD<String> stringJavaRDD = sc.textFile("D:\\test\\a.txt");
//通过加载HDFS文件产生RDD
JavaRDD<String> stringJavaRDD = sc.textFile("hdfs://hadoop20:9000/wctest/a.txt");

注:textFile支持分区,支持正则匹配,支持多路径,多路径可以用逗号隔开。

//正则匹配
val lines = sc.textFile("D:\\test\\a*.txt ")
//多路径用逗号隔开
val lines = sc.textFile("dir1,dir2")

2、基本操作

2.1 filter

scala版本

filter(func):对原 RDD 中每个元素使用func 函数进行过滤,并生成新的 RDD

def filter(f: Int => Boolean): org.apache.spark.rdd.RDD[Int]

val lines:RDD[String] = sc.textFile("D:\\test\\b.txt").filter(line=>line.contains("hello"))
lines.collect().foreach(println)
/*输出:
hello spark
aaa bb hello*/

java版本

JavaRDD<String> lines = sc.textFile("D:\\test\\b.txt");
JavaRDD<String> filterRDD = lines.filter(new Function<String, Boolean>() {
   
     @Override
     public Boolean call(String s) throws Exception {
   
         return s.contains("hello");

       }
        });
      List<String> collect2 = filterRDD.collect();
        for(String str:collect2){
   
            System.out.println(str);
      }
/*输出:
hello spark
aaa bb hello*/
    

2.2 map

map(func) :对原RDD中每个元素运用func函数,并生成新的RDD

map算子输入分区与输出分区一一对应。

scala版本

import org.apache.spark.{
   SparkConf, SparkContext}

object MapDemo {
   
  def main(args: Array[String]): Unit = {
   
    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("mapdemo")
    val sc = SparkContext.getOrCreate(sparkConf)
    val rdd1 = sc.makeRDD(1 to 9,2)
    rdd1.map(_*2).collect.foreach(println)

java版本

public class MapJava {
   
    public static void main(String[] args) {
   
    SparkConf conf = new SparkConf().setMaster("local[1]").setAppName("MapJava");
        JavaSparkContext sc = new JavaSparkContext(conf);
     	JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1, 2, 3, 4, 5));
        JavaRDD<Integer> mapRdd = rdd.map(new Function<Integer, Integer>() {
   
            @Override
            public Integer call(Integer integer) throws Exception {
   
                return integer * 2;
            }
        });

        List<Integer> collect = mapRdd.collect();
        for (Integer i : collect) {
   
            System.out.println(i);
        }
    }
}

2.3 flatMap

flatMap(func):将每个元素进行扁平化处理,也就是将某个元素按照规则生成多个元素。

flatMap的函数应用于每一个元素,对于每一个元素返回的是多个元素组成的迭代器。

scala版本

scala> val lines = sc.textFile("D:\\test\\b.txt")
scala>lines.flatMap(line=>line.split("\\s")).collect.foreach(println)

java版本

public class FlatMapJava {
   
    public static void main(String[] args) {
   
        SparkConf conf = new SparkConf().setMaster("local[1]").setAppName("FlatMapJava");
        JavaSparkContext sc = new JavaSparkContext(conf);       
		JavaRDD<String> rdd = sc.parallelize(Arrays.asList("hello world", "hello java", "hello spark"));
        JavaRDD<String> flatMapRdd = rdd.flatMap(new FlatMapFunction<String, String>() {
   
            @Override
            public Iterator<String> call(String s) throws Exception {
   
                String[] split = s.split(" ");
                return Arrays.asList(split).iterator();
            }
        });

        List<String> collect = flatMapRdd.collect();
        for (String s : collect) {
   
            System.out.println(s);
        }
    }
}

2.4 distinct

去重,此操作涉及到混洗,操作开销很大。

scala版本

val rdd1=sc.parallelize(List("aa", "bb", "cc", "dd", "aa", "dd"))
rdd1.distinct.collect.foreach(println)

java版本

List<String> strings = Arrays.asList("aa", "bb", "cc", "dd", "aa", "dd");
JavaRDD<String> strRdd = sc.parallelize(strings);
JavaRDD<String> distinct = strRdd.distinct();
List<String> collect = distinct.collect();
for (String str : collect) {
   
    System.out.println(str);
}

3、操作集合

3.1 union

两个RDD进行合并

scala版本

val u1=sc.parallelize(1 to 3)
val u2=sc.parallelize(3 to 4)
(u1++u2).collect.foreach(println) //输出:1 2 3 3 4
u1.union(u2).collect.foreach(println) //输出:1 2 3 3 4

java版本

List<String> strings = Arrays.asList("aa", "bb", "cc", "dd");
JavaRDD<String> strRdd = sc.parallelize(strings);
List<String> strings2 = Arrays.asList("aa", "bb", "cc");
JavaRDD<String> strRdd2 = sc.parallelize(strings2);

JavaRDD<String> unionRdd = strRdd.union(strRdd2);
List<String> collect = unionRdd.collect();
for (String str : collect) {
   
     System.out.println(str);
}

3.2 intersection

求两个RDD的交集

scala版本

val u1=sc.parallelize(1 to 3)
val u2=sc.parallelize(3 to 4)
u1.intersection(u2).collect.foreach(println) //输出:3 

java版本

List<String> strings = Arrays.asList("aa", "bb", "cc", "dd");
JavaRDD<String> strRdd = sc.parallelize(strings);
List<String> strings2 = Arrays.asList("aa", "bb", "cc");
JavaRDD<String> strRdd2 = sc.parallelize(strings2);

JavaRDD<String> interactionRdd = strRdd.intersection(strRdd2);
List<String> collect = interactionRdd.collect();
for (String str : collect) {
   
    System.out.println(str);
}    

3.3 subtract

RDD1.subtract(RDD2),但会在RDD1中出现,但是不在RDD2中出现的元素,不去重。

scala版本

scala> val rdd1=sc.parallelize(List(1,2,3))
scala> val rdd2=sc.parallelize(List(3,4,5))
scala> rdd1.subtract(rdd2).collect.foreach(println)

java版本

List<String> strings = Arrays.asList("aa", "bb", "cc", "dd");
JavaRDD<String> strRdd = sc.parallelize(strings);
List<String> strings2 = Arrays.asList("aa", "bb", "cc");
JavaRDD<String> strRdd2 = sc.parallelize(strings2);

JavaRDD<String> subtractRdd = strRdd.subtract(strRdd2);
List<String> collect = subtractRdd.collect();
for (String str : collect) {
   
	System.out.println(str);
}//输出:dd

3.4 cartesian

RDD1.cartesian(RDD2) 返回RDD1和RDD2的笛卡儿积,这个开销非常大,慎用。

scala版本

scala> val RDD1 = sc.parallelize(List("1","2","3"))
scala> val RDD2 = sc.parallelize(List("a","b","c"))
scala> RDD1.cartesian(RDD2).collect.foreach(println)
(1,a)
(1,b)
(1,c)
(2,a)
(2,b)
(2,c)
(3,a)
(3,b)
(3,c)

java版本

JavaRDD<String> rdd1 = sc.parallelize(Arrays.asList("1", "2", "3"));
JavaRDD<String> rdd2 = sc.parallelize(Arrays.asList("a", "b", "c"));
JavaPairRDD<String, String> cartesianRdd = rdd1.cartesian(rdd2);
List<Tuple2<String, String>> collect = cartesianRdd.collect();
for (Tuple2<String, String> tp2 : collect) {
   
	System.out.println(tp2);
}

4、创建键值对

4.1 mapToPair

将每行的第一个单词作为键,1作为value创建pairRDD

scala版本

scala是没有mapToPair函数的,scala版本只需要map就可以了

val rdd1 = sc.textFile("D:\\test\\b.txt")
val rdd2 = rdd.map(x=>(x.split(" ")(0),1))
rdd2.collect.foreach(println)

java版本

JavaRDD<String> rdd1 = sc.textFile("D:\\test\\b.txt");
JavaPairRDD<String, Integer> pairRdd = rdd1.mapToPair(new PairFunction<String, String, Integer>() {
   
	 @Override
    public Tuple2<String, Integer> call(String s) throws Exception {
   
		String[] split = s.split(" ");
		String key = split[0];
		return new Tuple2<>(key, 1);
	}
});
List<Tuple2<String, Integer>> collect = pairRdd.collect();
for (Tuple2<String, Integer> tp : collect) {
   
	System.out.println(tp);
}

4.2 flatMapToPair

mapToPair是一对一,一个元素返回一个元素,而flatMapToPair可以一个元素返回多个,相当于先flatMap,再mapToPair。

scala版本

val pairRdd = sc.textFile("D:\\test\\b.txt").flatMap(x=>x.split(" ")).map((_,1))
pairRdd.collect().foreach(println)

java版本

JavaRDD<String> rdd1 = sc.textFile("D:\\test\\b.txt");
JavaPairRDD<String, Integer> pairRdd = rdd1.flatMapToPair(new PairFlatMapFunction<String, String, Integer>() {
   
	@Override
	public Iterator<Tuple2<String, Integer>> call(String s) throws Exception {
   
		ArrayList<Tuple2<String, Integer>> list = new ArrayList();
        String[] split = s.split(" ");
        for (int i = 0; i < split.length; i++) {
   
        	String key = split[i];
            Tuple2<String, Integer> tp2 = new Tuple2<>(key, 1);
            list.add(tp2);
         }
         return list.iterator();
     }
});
List<Tuple2<String, Integer>> collect = pairRdd.collect();
for (Tuple2<String, Integer> o : collect) {
   
	System.out.println(o);
}

5、键值对聚合操作

5.1 combineByKey

聚合数据处理集中式数据比较方便,那涉及到分布式数据集呢,该如何实现。

def combineByKey[C](createCombiner:(V)=C,
                   mergeValue: (C, V) => C,
                   mergeCombiners: (C, C) => C): RD
  • createCombiner:combinewByKey()会遍历分区中的所有的元素,因此每个元素的键要么还没遇到过,要么就是和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建key对应的累加器的初始值。
  • mergeValue:区内累加。如果这是一个在处理当前分区之前已经遇到的键,它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并。
  • mergeCombiners:区间合并。每个分区都是独立处理的,如果有两个或者更多的分区都有同一个键的累加器,就需要使用mergeCombiners()方法将各个分区的结果进行合并。

scala版本

import org.apache.spark.rdd.RDD
import org.apache.spark.{
   HashPartitioner, SparkConf, SparkContext}

object CombineByKeyScala {
   
  //样例类
  case class ScoreDetail(name:String,subject:String,score:Integer)

  def main(args: Array[String]): Unit = {
   
    val conf = new SparkConf().setMaster("local[2]").setAppName(
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值