RDD的操作

最新推荐文章于 2024-03-24 12:11:10 发布

.Mr Zhang

最新推荐文章于 2024-03-24 12:11:10 发布

阅读量1k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/zhangtikang134/article/details/103972153

版权

RDD的创建

三种创建方式

从内存中创建

使用parallelize

	val rdd = sc.parallelize(Array(1,2,3,4,5,6,7,8))

使用makeRDD

	val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6,7,8))

从外部存储创建（往后看）
由其他RDD转换（往后看）

传递给RDD的函数

运行在集群中的Spark API 强依赖于 driver 程序中给RDD传入的函数。官方推荐以下两种方式：

简短的匿名函数
伴生对象的静态方法

	object MyFunctions {
   
	  def func1(s: String): String = {
    ... }
	}
	
	myRdd.map(MyFunctions.func1)

除了使用静态方法以外，编码中也会出现传递一个实例方法的引用，但是这样会导致整个实例对象会被序列化发送到集群：

	//等同于rdd.map(x => this.func1(x))
	class MyClass {
   
	  def func1(s: String): String = {
    ... }
	  def doStuff(rdd: RDD[String]): RDD[String] = {
    rdd.map(func1) }
	}

如果抛序列化的异常，使类继承scala.Serializable即可。
访问类实例属性也有类似情况。

	//等同于rdd.map(x => this.field + x)
	class MyClass {
   
	  val field = "Hello"
	  def doStuff(rdd: RDD[String]): RDD[String] = {
    rdd.map(x => field + x) }
	}
	//为了避免这种情况可以这么做
	def doStuff(rdd: RDD[String]): RDD[String] = {
   
	  val field_ = this.field
	  rdd.map(x => field_ + x)
	}

理解闭包

理解Spark集群中执行的变量、方法的作用域和生命周期是个难点。
RDD 操作其作用域范围以外的变量常常会带来迷惑。
以下例子，就算运行在local模式同一JVM中，结果也跟想象不同：

	var counter = 0
	var rdd = sc.parallelize(data)
	// Wrong: Don't do this!!
	rdd.foreach(x => counter += x)
	println("Counter value: " + counter)

Job运行过程中，Spark将RDD操作分割成一个个Task，序列化后分发到Executor上执行。Executor执行的内容称作闭包。这个闭包中的变量、方法必须对Executor可见，比如上例foreach(）中涉及的部分。我们知道java对象经过序列化和反序列化以后，旧对象跟新对象是不一样的，所以Executor上的新闭包是一个副本，修改也是作用在副本上。所以上例打印的是0。

类似的情况，比如使用 rdd.foreach(println) or rdd.map(println)打印RDD的数据。在local模式单机上跑，Exexutor、Driver都在一个JVM中，可以在控制台上看到打印，但是在集群模式下，它是在Exexutor上打印，而不是在Driver端打印。要想在Driver上打印，需要使用collect()把整个RDD的数据抓取过来再打印，如果数据量大可能OOM，安全的做法是使用take()，比如rdd.take(100).foreach(println)

RDD转换算子

从操作对象上，分为value 类型和 key-value类型

value类型

map(func)
意义：将每一个输入元素经过func函数转换映射成新元素

	scala> var source = sc.parallelize(1 to 10)

	scala> val mapadd = source.map(_ * 2)
	
	scala> mapadd.collect()
	res8: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)

filter(func)
意义：过滤func函数计算后返回值为true的元素

	scala> var sourceFilter = sc.parallelize(Array("laozhang","laoli","woqu","daye"))
	
	scala> val filter = sourceFilter.filter(_.contains("lao"))
	
	scala> filter.collect()
	res5: Array[String] = Array(laozhang, laoli)

flatMap(func)
意义：将每一个输入元素经过func函数转换映射成新的0或多个元素（func返回一个Seq ）

	scala> val sourceFlat = sc.parallelize(1 to 5)

	scala> val flatMap = sourceFlat.flatMap(1 to _)
	
	scala> flatMap.collect()
	res22: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5)

mapPartitions(func)
意义：以每一个分区为单位经func函数处理（func类型Iterator[T] => Iterator[U]）
跟map的区别：
map每次处理一条数据。mapPartition每次处理一个分区，每个分区处理完以前，数据不能回收，可能导致OOM，但是效率比map高。

	scala> val rdd = sc.parallelize(Array(1,2,3,4))

	scala> val mapRdd = rdd.mapPartitions(x=>x.map(_*2))
	
	scala> mapRdd .collect()
	res15: Array[Int] = Array(2, 4, 6, 8)

mapPartitionsWithIndex(func)
意义：以每一个分区为单位经func函数处理，多了一个分区号（func类型(Int, Interator[T]) => Iterator[U]）

	scala> val rdd = sc.parallelize(Array(1,2,3),2)

	scala> val indexRdd = rdd.mapPartitionsWithIndex((index,itr)=>(itr.map((index,_))))
	
	scala> indexRdd.collect(

最低0.47元/天解锁文章

.Mr Zhang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD的操作

RDD的创建三种创建方式从内存中创建使用parallelize val rdd = sc.parallelize(Array(1,2,3,4,5,6,7,8))使用makeRDD val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6,7,8))从外部存储创建（往后看）由其他RDD转换（往后看）传递给RDD的函数运行在集群中的Spar...
复制链接

扫一扫

专栏目录