spark 累加器 ,共享变量

最新推荐文章于 2024-07-07 12:05:15 发布

cherish-zp

最新推荐文章于 2024-07-07 12:05:15 发布

阅读量159

点赞数

分类专栏：大数据 spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/zp1220/article/details/105427303

版权

大数据同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

spark中 3大数据结构

RDD : (弹性分布,分布式数据集)
广播变量 : 分布式的只读共享变量
累加器 : 分布式的只写共享变量

 在某些情况下用rdd计算不是很好,所以有了 广播变量和累加器

例:

		val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2)

        var sum = 0

        ints.foreach(x=> {
            sum += x
        })
        
        println(sum)  // 0 
        //解释如下: sum 在 drver 端, 当executor 端 需要用到 driver端的sum 变量是, driver端会发送sum=0到executor,在 executor端 会进行累加计算, 
        //但是累加后的值不会返回给driver端 所以sum端的值还是 0

在这里插入图片描述

因此需要使用共享变量 (累加器)

		val conf = new SparkConf()
        conf.setMaster("local[*]").setAppName("SessionStepTime01")
        val spark = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()

        spark.sparkContext.setLogLevel("warn")

        val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2)

        var sum = 0

        //ints.foreach(x=> {
            sum += x
       // })

       // println(sum)

        val accumulator: LongAccumulator = spark.sparkContext.longAccumulator
        ints.foreach(x=> {
        	//执行累加器累加功能
            accumulator.add(x)
        })
        //获取累加器的值
        sum = accumulator.value
        println(sum ) // 10

自定义累加器使用

import org.apache.spark.util.AccumulatorV2
import scala.collection.mutable

/**
  * 自定义累加器
  */
/**
  * AccumulatorV2 里面需要两个参数 一个输入类型, 一个输出类型
  */
class SessionAggrStatAccumulator extends AccumulatorV2[String, mutable.HashMap[String, Int]] {

  // 保存所有聚合数据  定义输出的对象(返回的对象)
  private val aggrStatMap = mutable.HashMap[String, Int]()

  //单钱你累加器是否为出事状态
  override def isZero: Boolean = {
    aggrStatMap.isEmpty
  }

  //复制累加器状态
  override def copy(): AccumulatorV2[String, mutable.HashMap[String, Int]] = {
    val newAcc = new SessionAggrStatAccumulator
    aggrStatMap.synchronized{
      newAcc.aggrStatMap ++= this.aggrStatMap
    }
    newAcc
  }

  //重置累加器对象
  override def reset(): Unit = {
    aggrStatMap.clear()
  }

  //根据业务逻辑,向累加器中增加数据
  override def add(v: String): Unit = {
    if (!aggrStatMap.contains(v))
      aggrStatMap += (v -> 0)
    aggrStatMap.update(v, aggrStatMap(v) + 1)
  }

  //合并累加器 (不同executor端的数据进行合并 返回driver端)
  override def merge(other: AccumulatorV2[String, mutable.HashMap[String, Int]]): Unit = {
    other match {
      case acc:SessionAggrStatAccumulator => {
        (this.aggrStatMap /: acc.value){ case (map, (k,v)) => map += ( k -> (v + map.getOrElse(k, 0)) )}
      }
    }
  }

  //输出的值
  override def value: mutable.HashMap[String, Int] = {
    this.aggrStatMap
  }
}

	// 设置自定义累加器，实现所有数据的统计功能,注意累加器也是懒执行的
    val sessionAggrStatAccumulator = new SessionAggrStatAccumulator

    // 注册自定义累加器
    sc.register(sessionAggrStatAccumulator, "sessionAggrStatAccumulator")
    //添加值
    sessionAggrStatAccumulator.add("1-2");
    //获取值
    val value: mutable.HashMap[String, Int] = sessionAggrStatAccumulator.value

cherish-zp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 累加器 ,共享变量

spark中 3大数据结构RDD : (弹性分布,分布式数据集)广播变量 : 分布式的只读共享变量累加器 : 分布式的只写共享变量在某些情况下用rdd计算不是很好,所以有了广播变量和累加器例: val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2) ...
复制链接

扫一扫