Spark共享变量

最新推荐文章于 2023-07-14 20:00:00 发布

万事无Bug

最新推荐文章于 2023-07-14 20:00:00 发布

阅读量83

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_45264992/article/details/120843504

版权

Spark 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Spark共享变量

概念：
在这里插入图片描述
广播变量：

广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。

Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据，或者以反序列化形式缓存数据是十分重要的时候，显式地创建广播变量才有用。

通过在一个变量v上调用SparkContext.broadcast(v)可以创建广播变量。广播变量是围绕着v的封装，可以通过value方法访问这个变量。

累加器
累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。Spark原生地只支持数字类型的累加器，编程者可以添加新类型的支持。如果创建累加器时指定了名字，可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程。（对于python还不支持）
累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者"+="方法在累加器上进行累加操作。但是，它们不能读取它的值。只有驱动程序能够读取它的值，通过累加器的value方法。

使用示范：

演示案例：
统计文本中每个单词出现次数，以及特殊字符的总数。

import org.apache.spark.{SparkConf, SparkContext}
import org.sparkproject.jetty.util.StringUtil

object ShareVariable {
  def main(args: Array[String]): Unit = {
    var conf = new SparkConf().setMaster("local[*]").setAppName("xiaobai")
    var sc=new SparkContext(conf)
    sc.setLogLevel("ERROR")
    // 创建一个计数器/累加器
    var counter=sc.longAccumulator("myCounter")
    //定义一个特殊字符集合
    var list=List(",",".","#","!","$","%","?","*","")
    //将其和作为一个广播变量广播出去广播到各个节点。
    var broadcast = sc.broadcast(list)
    var data=sc.textFile("data/1.txt")
    //去除空行
    var data1=data.filter(StringUtil.isNotBlank)
    //按照空格或多个空格切分
    var data3 =data1.flatMap(_.split("\\s+"))
    var data4 =data3.filter(s=>
      {
        var list=broadcast.value
        if(list.contains(s)){
          counter.add(1)
          false
        }else{
          true
        }
      }
    ).map((_,1)).reduceByKey(_+_)

    data4.foreach(println(_))
    println(counter.value)
  }
}

万事无Bug

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark共享变量

Spark共享变量概念：使用示范：演示案例：统计文本中每个单词出现次数，以及特殊字符的总数。import org.apache.spark.{SparkConf, SparkContext}import org.sparkproject.jetty.util.StringUtilobject ShareVariable { def main(args: Array[String]): Unit = { var conf = new SparkConf().setMaster("
复制链接

扫一扫