Spark共享变量

Spark共享变量

概念:
在这里插入图片描述
广播变量:

广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。

Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存,在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据,或者以反序列化形式缓存数据是十分重要的时候,显式地创建广播变量才有用。

通过在一个变量v上调用SparkContext.broadcast(v)可以创建广播变量。广播变量是围绕着v的封装,可以通过value方法访问这个变量。

累加器
累加器是仅仅被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。Spark原生地只支持数字类型的累加器,编程者可以添加新类型的支持。如果创建累加器时指定了名字,可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程。(对于python还不支持)
累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者"+="方法在累加器上进行累加操作。但是,它们不能读取它的值。只有驱动程序能够读取它的值,通过累加器的value方法。

使用示范:

演示案例:
统计文本中每个单词出现次数,以及特殊字符的总数。

import org.apache.spark.{SparkConf, SparkContext}
import org.sparkproject.jetty.util.StringUtil

object ShareVariable {
  def main(args: Array[String]): Unit = {
    var conf = new SparkConf().setMaster("local[*]").setAppName("xiaobai")
    var sc=new SparkContext(conf)
    sc.setLogLevel("ERROR")
    // 创建一个计数器/累加器
    var counter=sc.longAccumulator("myCounter")
    //定义一个特殊字符集合
    var list=List(",",".","#","!","$","%","?","*","")
    //将其和作为一个广播变量广播出去广播到各个节点。
    var broadcast = sc.broadcast(list)
    var data=sc.textFile("data/1.txt")
    //去除空行
    var data1=data.filter(StringUtil.isNotBlank)
    //按照空格或多个空格切分
    var data3 =data1.flatMap(_.split("\\s+"))
    var data4 =data3.filter(s=>
      {
        var list=broadcast.value
        if(list.contains(s)){
          counter.add(1)
          false
        }else{
          true
        }
      }
    ).map((_,1)).reduceByKey(_+_)

    data4.foreach(println(_))
    println(counter.value)
  }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark共享变量主要有两种类型:累加器和广播变量。累加器用于对信息进行聚合,而广播变量则用于高效分发较大对象。 累加器是一种只能被“加”的变量,可以在分布式计算中进行并行操作,最终得到一个全局的结果。累加器通常用于计数器、求和等场景,可以在不同的节点上进行并行计算,最终将结果汇总。例如,可以使用累加器来统计某个单词在整个数据集中出现的次数。 广播变量则是一种将较大的只读数据分发到所有节点上的机制,可以在分布式计算中减少网络传输和内存消耗。广播变量通常用于将一些只读数据(如配置信息、字典等)在所有节点上缓存一份,以便在任务执行时快速访问。例如,可以使用广播变量将一个大型的机器学习模型分发到所有节点上,以便在任务执行时快速加载。 下面是两个Spark共享变量的例子: 1.使用累加器统计单词出现次数 ```python from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("wordCount").setMaster("local") sc = SparkContext(conf=conf) # 创建一个累加器 wordCount = sc.accumulator(0) def countWords(line): global wordCount words = line.split() for word in words: wordCount += 1 # 读取文件并进行单词计数 lines = sc.textFile("file.txt") lines.foreach(countWords) # 输出单词总数 print("Total words: ", wordCount.value) ``` 2.使用广播变量缓存机器学习模型 ```python from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("machineLearning").setMaster("local") sc = SparkContext(conf=conf) # 创建一个广播变量 model = sc.broadcast(loadModel()) def predict(data): # 使用广播变量中的模型进行预测 result = model.value.predict(data) return result # 读取数据并进行预测 data = sc.textFile("data.txt") result = data.map(predict) # 输出预测结果 print(result.collect()) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值