Spark： ------ 共享变量、广播变量、计数器

最新推荐文章于 2023-01-10 19:27:20 发布

姜同学的学习笔记

最新推荐文章于 2023-01-10 19:27:20 发布

阅读量217

点赞数

分类专栏： spark 文章标签： apache spark

本文链接：https://blog.csdn.net/weixin_45764675/article/details/105303580

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

共享变量

当RDD中的转换算子需要用到定义Driver中地变量的时候，计算节点在运行该转换算子之前，会通过网络将Driver中定义的变量下载到计算节点。同时如果计算节点在修改了下载的变量，该修改对Driver端定义的变量不可见。

scala> var i:Int=0
i: Int = 0
scala> sc.textFile("file:///root/t_word").foreach(line=> i=i+1)
scala> print(i)
0

广播变量

当出现超大数据集和小数据集合进行连接的时候，能否使用join算子直接进行jion，如果不行为什么？

//100GB
var orderItems=List("001 apple 2 4.5","002 pear 1 2.0","001 ⽠瓜⼦子 1 7.0")
//10MB
var users=List("001 zhangsan","002 lisi","003 王五")
var rdd1:RDD[(String,String)] =sc.makeRDD(orderItems).map(line=>(line.split(" ")
(0),line))
var rdd2:RDD[(String,String)] =sc.makeRDD(users).map(line=>(line.split(" ")(0),line))
rdd1.join(rdd2).collect().foreach(println)

系统在做join的操作的时候会产生shu!le，会在各个计算节点当中传输100GB的数据用于完成join操作，因此join网络代价和内存代价都很高。因此可以考虑将小数据定义成Driver中成员变量，在Map操作的时候完成join。

scala> var users=List("001 zhangsan","002 lisi","003 王五").map(line=>line.split("
")).map(ts=>ts(0)->ts(1)).toMap
users: scala.collection.immutable.Map[String,String] = Map(001 -> zhangsan, 002 ->
lisi, 003 -> 王五)
scala> var orderItems=List("001 apple 2 4.5","002 pear 1 2.0","001 ⽠瓜⼦子 1 7.0")
orderItems: List[String] = List(001 apple 2 4.5, 002 pear 1 2.0, 001 ⽠瓜⼦子 1 7.0)
scala> var rdd1:RDD[(String,String)] =sc.makeRDD(orderItems).map(line=>(line.split("
")(0),line))
rdd1: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[89] at map at
<console>:32
scala> rdd1.map(t=> t._2+"\t"+users.get(t._1).getOrElse("未知")).collect()
res33: Array[String] = Array(001 apple 2 4.5 zhangsan, 002 pear 1 2.0 lisi,
001 ⽠瓜⼦子 1 7.0 zhangsan)

但是上面写法会存在一个问题，每当一个map算子遍历元素的时候都会向Driver下载userMap变量，虽然该值不大，但是在计算节点会频繁的下载。正是因为此种情景会导致没有必要的重复变量的拷贝，Spark提出广播变量。

Spark 在程序运行前期，提前将需要广播的变量通知给所有的计算节点，计算节点会对需要广播的变量在计算之前进行下载操作并且将该变量缓存,该计算节点其他线程在使用到该变量的时候就不需要下载。

//100GB
var orderItems=List("001 apple 2 4.5","002 pear 1 2.0","001 ⽠瓜⼦子 1 7.0")
//10MB 声明Map类型变量
var users:Map[String,String]=List("001 zhangsan","002 lisi","003 王
五").map(line=>line.split(" ")).map(ts=>ts(0)->ts(1)).toMap

//声明广播变量，调⽤用value属性获广播值
val ub = sc.broadcast(users)
var rdd1:RDD[(String,String)] =sc.makeRDD(orderItems).map(line=>(line.split(" ")
(0),line))
rdd1.map(t=> t._2+"\t"+ub.value.get(t._1).getOrElse("未知")).collect().foreach(println)

计数器

Spark提供的Accumulator，主要用于多个节点对一个变量量进行共享性的操作。Accumulator只提供了累加的功能。但是确给我们提供了多个task对一个变量并行操作的功能。但是task只能对Accumulator进行累加操作，不能读取它的值。只有Driver程序可以读取Accumulator的值

scala> val accum = sc.longAccumulator("mycount")
accum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 1075, name:
Some(mycount), value: 0)
scala> sc.parallelize(Array(1, 2, 3, 4),6).foreach(x => accum.add(x))
scala> accum.value
res36: Long = 10

姜同学的学习笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark： ------ 共享变量、广播变量、计数器

共享变量当RDD中的转换算子需要用到定义Driver中地变量的时候，计算节点在运行该转换算子之前，会通过网络将Driver中定义的变量下载到计算节点。同时如果计算节点在修改了下载的变量，该修改对Driver端定义的变量不可见。scala> var i:Int=0i: Int = 0scala> sc.textFile("file:///root/t_word").foreach...
复制链接

扫一扫

专栏目录