第58课: 广告点击广告累计点击数分析与实现

本节重要讲:广告点击的累计动态更新是如何实现的。
主要采用updateStateByKey算子。


1、PairDStreamFunctions类解析

为了实现广告点击的累计动态更新,主要采用updateStateByKey算子。
该函数的实现在PairDStreamFunctions类中。

以Spark2.0为例,打开源码文件:
spark-2.0.0\streaming\src\main\scala\org\apache\spark\streaming\dstream\PairDStreamFunctions.scala

PairDStreamFunctions类通过隐式转换为DStream的KV键值对扩展了一些有效的函数 。
定位到updateStateByKey函数的代码块:

/**
   * Return a new "state" DStream where the state for each key is updated by applying
   * the given function on the previous state of the key and the new values of each key.
   * Hash partitioning is used to generate the RDDs with 
   * Spark's default number of partitions.
   * If `this` function returns None, then corresponding 
   * state key-value pair will be eliminated.
   * @tparam S State type
   */
  def updateStateByKey[S: ClassTag](
      updateFunc: (Seq[V], Option[S]) => Option[S]
    ): DStream[(K, S)] = ssc.withScope {
    updateStateByKey(updateFunc, defaultPartitioner())
  }

它也是一个Transformation操作,跟RDD差不多,从一种状态变成一个新的状态。

展开阅读全文

没有更多推荐了,返回首页