spark函数aggregate 简单实例理解

最新推荐文章于 2022-10-20 15:53:43 发布

Inequality-Sign

最新推荐文章于 2022-10-20 15:53:43 发布

阅读量585

点赞数

分类专栏： hadoop 文章标签： spark rdd

本文链接：https://blog.csdn.net/ymybxx/article/details/79350499

版权

hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

首先，Spark文档中aggregate函数定义如下

def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U

这是一个柯里化函数，第一个参数列表中传一个初始化值，

柯里化的目的是让后一个参数列表中的类型可以由前一个参数列表中参数类型进行推演得到，这是一个参数列表无法完成的事情

seqOp操作会聚合各分区中的元素，其中第一次操作的U就是初始值zeroValue，然后combOp操作把所有分区的聚合结果再次聚合，同理，第一次操作的U就是初始值zeroValue

也就是说如果rdd的partition的数量为n，那么U就会被引用n+1次


scala> val rdd = sc.parallelize(List(1,2,3,4,5),3)
rdd.aggregate(1)(_+_,_+_)
res16: Int = 19


scala> rdd.aggregate(10)(math.max(_,_),_+_)
res19: Int = 40

为什么求解最大值的时候结果会是40呢。由于每次进行聚合的初始值都是10，所以最大值结果一直都是10。一共是3个分区，所以一共要进行四次聚合，因此结果是40

暂时对aggregate的理解就到这里

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Inequality-Sign

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark操作 aggregate、aggregateByKey 实例

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

12-21

748

1. aggregate函数将每个分区里面的元素进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。seqOp操作会聚合各分区中的元素，然后combOp操作把所有分区的聚合结果再次聚合，两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T)，第一个T跟zeroValue做操作，结果再作为与第二个T做操作的zeroValue，直到遍历完整个分区。comb...

Spark中aggregate算子详解介绍

CSDN 精品推荐

08-17

273

前面文章我们讲解了如何使用 `aggregateByKey` 来对相同key的值进行分区内和分区间聚合，本文将使用另外一种算子 `aggregate` 来对数据进行聚合。

参与评论您还未登录，请先登录后发表或查看评论

Spark操作之aggregate、aggregateByKey详解

08-25

主要介绍了Spark操作之aggregate、aggregateByKey详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

spark的aggregate函数理解

QQ1131221088的博客

01-29

322

先看源码： def aggregate(self, zeroValue, seqOp, combOp): """ Aggregate the elements of each partition, and then the results for all the partitions, using a given combine functions ...

spark aggregate函数详解

bitcarmanlee的博客

09-25

1万+

aggregate算是spark中比较常用的一个函数，理解起来会比较费劲一些，现在通过几个详细的例子带大家来着重理解一下aggregate的用法。1.先看看aggregate的函数签名在spark的源码中，可以看到aggregate函数的签名如下：def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) =

spark函数讲解：aggregate

漂浮

07-13

2547

函数原型： def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U Aggregate the elements of each partition, and then the results for all the partitions, using

spark算子之Aggregate

weixin_30293135的博客

08-31

256

Aggregate函数一、源码定义 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This functi...

Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations

黑白影的博客

06-08

3230

一、简单聚合 1.1 数据准备 // 需要导入spark sql内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate() val empDF = spark.read.json(...

Spark算子：RDD行动Action操作–aggregate、fold、lookup；reduce/fold/aggregate区别

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

12-25

362

关键字：Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookup aggregate def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U aggregate用户聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型，

Spark的RDD的aggregate() 函数

lucasmaluping的专栏

12-13

683

aggregate() 函数的返回类型不需要和 RDD 中的元素类型一致，所以在使用时，需要提供所期待的返回类型的初始值，然后通过一个函数把 RDD 中的元素累加起来放入累加器。考虑到每个结点都是在本地进行累加的，所以最终还需要提供第二个函数来将累加器两两合并。 aggregate(zero)(seqOp,combOp) 函数首先使用 seqOp 操作聚合各分区中的元素，然后再使用 comb...

Spark MLlib 之 aggregate和treeAggregate从原理到应用

weixin_33892359的博客

07-09

190

在阅读spark mllib源码的时候，发现一个出镜率很高的函数——aggregate和treeAggregate，比如matrix.columnSimilarities()中。为了好好理解这两个方法的使用，于是整理了本篇内容。由于treeAggregate是在aggregate基础上的优化版本，因此先来看看aggregate是什么. 更多内容参考我的大数据学习之路 aggregate 先直...

Spark aggregate函数简解示例

11-21

674

aggregate函数将每个分区里面的元素进行聚合，然后用combine函数将每个分区的结果和初始值zeroValue进行combine操作。这个函数最终返回的类型不需要和RDD中的元素类型一致。示例：解释：

理解Spark RDD中的aggregate函数

记录日常开发过程中遇到的一些问题

05-09

1182

原文地址：https://blog.csdn.net/qingyang0320/article/details/51603243 这篇文章介绍spark的aggregate用法，解释的挺清楚的，记录在这里：首先，Spark文档中aggregate函数定义如下： defaggregate[U](zeroValue:U)(seqOp: (U,T) ⇒U,combOp: (U,U) ...

Spark中的aggregate算子

阿生

08-09

3430

Spark的aggregate算子 aggragete算子作为spark的算子之一，虽然没有map，reduce算子使用的多但是也是一个不容忽略的算子，但是关于这个算子的用法很多解释都含糊不清，下面就记载下来以备以后观看。 aggregate在scala语言中本来就存在，它的输入值和返回值的类型可以不一致，而reduce函数输入和输出数据类型必须一致。首先他需要接受一个输入的初始值，然...

轻松理解 Spark 的 aggregate 方法

anxian8397的博客

04-20

378

2019-04-20 关键字：Spark 的 agrregate作用、Scala的 aggregate是什么 Spark编程中的 aggregate方法还是比较常用的。本篇文章站在初学者的角度以大白话的形式来讲解一下 aggregate方法。 aggregate方法是一个聚合函数，接受多个输入，并按照一定的规则运算以后输出一个结果值。 ag...

spark中aggregate函数的应用与问题