本节重要讲:广告点击的累计动态更新是如何实现的。
主要采用updateStateByKey算子。
1、PairDStreamFunctions类解析
为了实现广告点击的累计动态更新,主要采用updateStateByKey算子。
该函数的实现在PairDStreamFunctions类中。
以Spark2.0为例,打开源码文件:
spark-2.0.0\streaming\src\main\scala\org\apache\spark\streaming\dstream\PairDStreamFunctions.scala
PairDStreamFunctions类通过隐式转换为DStream的KV键值对扩展了一些有效的函数 。
定位到updateStateByKey函数的代码块:
/**
* Return a new "state" DStream where the state for each key is updated by applying
* the given function on the previous state of the key and the new values of each key.
* Hash partitioning is used to generate the RDDs with
* Spark's default number of partitions.
* If `this` function returns None, then corresponding
* state key-value pair will be eliminated.
* @tparam S State type
*/
def updateStateByKey[S: ClassTag](
updateFunc: (Seq[V], Option[S]) => Option[S]
): DStream[(K, S)] = ssc.withScope {
updateStateByKey(updateFunc, defaultPartitioner())
}
它也是一个Transformation操作,跟RDD差不多,从一种状态变成一个新的状态。