第58课: 广告点击广告累计点击数分析与实现

本节重要讲:广告点击的累计动态更新是如何实现的。
主要采用updateStateByKey算子。


1、PairDStreamFunctions类解析

为了实现广告点击的累计动态更新,主要采用updateStateByKey算子。
该函数的实现在PairDStreamFunctions类中。

以Spark2.0为例,打开源码文件:
spark-2.0.0\streaming\src\main\scala\org\apache\spark\streaming\dstream\PairDStreamFunctions.scala

PairDStreamFunctions类通过隐式转换为DStream的KV键值对扩展了一些有效的函数 。
定位到updateStateByKey函数的代码块:

/**
   * Return a new "state" DStream where the state for each key is updated by applying
   * the given function on the previous state of the key and the new values of each key.
   * Hash partitioning is used to generate the RDDs with 
   * Spark's default number of partitions.
   * If `this` function returns None, then corresponding 
   * state key-value pair will be eliminated.
   * @tparam S State type
   */
  def updateStateByKey[S: ClassTag](
      updateFunc: (Seq[V], Option[S]) => Option[S]
    ): DStream[(K, S)] = ssc.withScope {
    updateStateByKey(updateFunc, defaultPartitioner())
  }

它也是一个Transformation操作,跟RDD差不多,从一种状态变成一个新的状态。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值