Spark算子执行流程详解之二

4.count

def count(): Long = sc.runJob(this, Utils.getIteratorSize_).sum

计算数据总量,每个分区各自计算自己的总数,然后汇总到driver端,driver端再把每个分区的总数相加统计出对应rdd的数据量,其流程如下:

 


5.countApprox

在一定的超时时间之内返回rdd元素的个数,其rdd元素的总数分布符合正态分布,其分布因子为confidence,当超过timeout时,返回一个未完成的结果。

/**
 * :: Experimental ::
 * Approximate version of count() that returns a potentially incomplete result
 * within a timeout, even if not all tasks have finished.
 */
@Experimental
def countApprox(
    timeout: Long,
    confidence: Double = 0.95): PartialResult[BoundedDouble] = withScope {

//定义在excutor端计算总数的函数
  val
countElements: (TaskContext, Iterator[T]) => Long = { (ctx, iter) =>
    var result = 0L
   
while (iter.hasNext) {
      result += 1L
     
iter.next()
    }
    result
  }

//定义在driver端的一个监听回调函数,当task完成的时候,会触发里面的merge操作,当超时时间到之后或者任务提前完成的话,会取里面的当前状态,即currentResult
  val
evaluator = newCountEvaluator(partitions.length, confidence)

//提交任务
  sc.runApproximateJob(this, countElements, evaluator, timeout)

}

继续往下看,看看evaluator是如何执行的:

def runApproximateJob[T,U, R](
    rdd: RDD[T],
    func: (TaskContext, Iterator[T]) =>U,
    evaluator: ApproximateEvaluator[U, R],
    timeout: Long): PartialResult[R] = {
  assertNotStopped()
  val callSite = getCallSite
  logInfo("Starting job: " + callSite.shortForm)
  val start = System.nanoTime
 
val cleanedFunc = clean(func)

// cleanedFunc就是countElementsevaluator就是CountEvaluator,超时时间为timeout
  val
result = dagScheduler.runApproximateJob(rdd, cleanedFunc, evaluator, callSite, timeout,
    localProperties.get)
  logInfo(
    "Job finished: " + callSite.shortForm +", took " + (System.nanoTime- start) / 1e9 + " s")
  result

}

继续看runApproximateJob的实现:

def runApproximateJob[T,U,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值