累加器

最新推荐文章于 2024-05-28 16:23:12 发布

yjgithub

最新推荐文章于 2024-05-28 16:23:12 发布

阅读量4.2k

点赞数 2

分类专栏： Spark

本文链接：https://blog.csdn.net/yjgithub/article/details/82497515

版权

Spark 专栏收录该内容

22 篇文章 3 订阅

订阅专栏

目录
1.累加器简单使用
2.累加器异常
3.自定义累加器

1.累加器简单使用

Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。

/**
  * @Auther: chenyj
  * @Date: 2018/9/7 14:23
  * @Description:
  */
object spark {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("spark").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val accum = sc.longAccumulator("longAccum") //统计偶数的个数
    val rddSum = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2)
      .filter(n=>{
        if(n%2==0)
          accum.add(1L)
          n%2==0
    }).reduce(_+_)
    println("accum: "+accum.value)
    println("rddSum: "+rddSum)
    sc.stop()
  }
}

这是结果正常的情况，但是在使用累加器的过程中如果对于spark的执行过程理解的不够深入就会遇到两类典型的错误：少加（或者没加）、多加.
结果

accum: 4
rddSum: 20

2.累加器异常

2.1 少加

/**
  * @Auther: chenyj
  * @Date: 2018/9/7 14:23
  * @Description:
  */
object spark {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("spark").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val accum = sc.longAccumulator("longAccum") //统计偶数的个数
    val rddSum = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2)
      .map(n=>{
          accum.add(1L)
    })
    println("accum: "+accum.value)
    sc.stop()
  }
}

结果:

accum: 0

原因:
执行完毕，打印的值是多少呢？答案是0，因为累加器不会改变spark的lazy的计算模型，即在打印的时候像map这样的transformation还没有真正的执行，从而累加器的值也就不会更新。

2.2 多加

/**
  * @Auther: chenyj
  * @Date: 2018/9/7 14:23
  * @Description:
  */
object spark {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("spark").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val accum = sc.longAccumulator("longAccum") //统计偶数的个数
    val rddSum = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2)
      .map(n=>{
          accum.add(1L)
        n
    })
    rddSum.count
    println("accum1:"+accum.value)
    rddSum.reduce(_+_)
    println("accum2: "+accum.value)
    sc.stop()
  }
}

结果:

accum1:9
accum2:18

原因:
我们虽然只在map里进行了累加器加1的操作，但是两次得到的累加器的值却不一样这是由于count和reduce都是action类型的操作，触发了两次作业的提交，所以map算子实际上被执行了了两次，在reduce操作提交作业后累加器又完成了一轮计数，所以最终累加器的值为18。究其原因是因为count虽然促使numberRDD被计出来，但是由于没有对其进行缓存，所以下次再次需要使用numberRDD这个数据集是，还需要从并行化数据集的部分开始执行计算。解释到这里，这个问题的解决方法也就很清楚了，就是在count之前调用numberRDD的cache方法（或persist），这样在count后数据集就会被缓存下来，reduce操作就会读取缓存的数据集而无需从头开始计算了。改成如下代码即可：

import org.apache.spark.{SparkConf, SparkContext}

/**
  * @Auther: chenyj
  * @Date: 2018/9/7 14:23
  * @Description:
  */
object spark {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("spark").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val accum = sc.longAccumulator("longAccum") //统计偶数的个数
    val rddSum = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2)
      .map(n=>{
          accum.add(1L)
        n
    })
    //cache()
    rddSum.cache().count
    println("accum1:"+accum.value)
    rddSum.reduce(_+_)
    println("accum2: "+accum.value)
    sc.stop()
  }
}

3.自定义累加器

在2.0版本后，累加器的易用性有了较大的改进，而且官方还提供了一个新的抽象类：AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。官方同时给出了一个实现的示例：CollectionAccumulator类，这个类允许以集合的形式收集spark应用执行过程中的一些信息。例如，我们可以用这个类收集Spark处理数据时的一些细节，当然，由于累加器的值最终要汇聚到driver端，为了避免 driver端的outofmemory问题，需要对收集的信息的规模要加以控制，不宜过大。
实现自定义类型累加器需要继承AccumulatorV2并至少覆写下例中出现的方法，下面这个累加器可以用于在程序运行过程中收集一些文本类信息，最终以Set[String]的形式返回。

自定义累加器

import java.util

import org.apache.spark.util.AccumulatorV2

/**
  * @Auther: chenyj
  * @Date: 2018/9/7 14:55
  * @Description:
  */
class teAccumulator extends AccumulatorV2[String, java.util.Set[String]]{
  private val _teArray: java.util.Set[String] = new java.util.HashSet[String]()

  override def isZero: Boolean = {
    _teArray.isEmpty
  }

  override def copy(): AccumulatorV2[String, util.Set[String]] = {
    val newTe = new teAccumulator();
    _teArray.synchronized{
      newTe._teArray.addAll(_teArray)
    }
    newTe
  }

  override def reset(): Unit = {
    _teArray.clear()
  }

  override def add(v: String): Unit = {
    _teArray.add(v)
  }

  override def merge(other: AccumulatorV2[String, util.Set[String]]): Unit = {
    other match {
      case o: teAccumulator => _teArray.addAll(o.value)
    }
  }

  override def value: util.Set[String] = {
    java.util.Collections.unmodifiableSet(_teArray)
  }
}

测试类

import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.JavaConversions._

/**
  * @Auther: chenyj
  * @Date: 2018/9/7 14:23
  * @Description:
  */
object spark {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("spark").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val accum = new teAccumulator()
    sc.register(accum,"teAccSum")
    val sum = sc.parallelize(Array("1", "2a", "3", "4b", "5", "6", "7c", "8d", "9"), 2).filter(line => {
      val pattern = """^-?(\d+)"""
      val flag = line.matches(pattern)
      if (!flag) {
        accum.add(line)
      }
      flag
    }).map(_.toInt).reduce(_ + _)

    println("sum: " + sum)

    for(i <- accum.value)
      println(i)
    sc.stop()
    }
}

ps: 注意导入 import scala.collection.JavaConversions._
否则报错 :value foreach is not a member of java.util.Set[String]
结果:

sum: 24
7c
8d
4b
2a

yjgithub

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
累加器

目录 1.累加器简单使用 2.累加器异常 3.自定义累加器1.累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。/** * @Auther: chenyj * @Date: 2018/9/7 14:23 * @Description: ...
复制链接

扫一扫