reduceByKey(_+_)

最新推荐文章于 2023-08-02 07:15:00 发布

Bitmao888

最新推荐文章于 2023-08-02 07:15:00 发布

阅读量510

点赞数 1

分类专栏： spark 文章标签： spark 大数据 scala

原文链接：https://www.cnblogs.com/zhangrui153169/p/11375643.html

版权

spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

比如我的内存中存在如下的以key-value形式的数据集（RDD）：

hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 … …

reduceByKey的作用对象是(key, value)形式的RDD，而reduce有减少、压缩之意，reduceByKey的作用就是对相同key的数据进行处理，

最终每个key只保留一条记录。

保留一条记录通常有两种结果。一种是只保留我们希望的信息，比如每个key出现的次数。第二种是把value聚合在一起形成列表，

这样后续可以对value做进一步的操作

以上面的数据集为例，在spark中比如是word：RDD[(String, Int)] 两个字段分别是word、单个单词在不同文件中出现的次数，现在

我们需要统计每个单词出现的总次数。

我们可以这样写：

val word = rdd1.reduceByKey((x,y) => x+y)
对上述的写法简化一下：

val word= rdd1.reduceByKey(+)

reduceByKey

reduceByKey会寻找相同key的数据，当找到这样的两条记录时会对其value(分别记为x,y)做(x,y) => x+y的处理，即只保留求和之后的数据作为value。

反复执行这个操作直至每个key只留下一条记录。

如果觉得简化后的写法比较难易理解，先看不简化之前的写法是这样理解的，以上面的数据集为例，从左到右第一个hello这个key对应的值是1，

这个1就是不简化写法之前的x，然后继续找从左到右第五个又是hello，那么第二个找到的helloKey对应的value是2，这个2就是不简化写法之前的y。

然后reduceByKey就对当前找到的这两个相同的key的value做一个加法，然后得到一个新的key-value，这个新的的key-value的key就是hello而value就

是相加以后的结果3，然后继续找第三个key为hello的单词，找到以后和刚才相加以后得到的新的hello：3继续相加，此时你可以把之前相加得到

的3作为x，把找到的第三个key为hello的单词对应的value作为y，然后继续相加，再得到第二个新的key-vlaue，这个第二个新的key-vlaue的key为hello，

value为4，然后这个第二个新的vlaue4又作为x，然后在继续找其他的相同的key，找到后以此类推。

而简化以后的写法第一个_下划线就代表x，第二个_下划线代表y。然后原理就是上面写的

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
reduceByKey(_+_)

reduceByKey
复制链接

扫一扫

专栏目录

Bitmao888 CSDN认证博客专家 CSDN认证企业博客

码龄5年

133: 原创

24万+: 周排名

165万+: 总排名

7万+: 访问

: 等级

1801: 积分

61: 粉丝

54: 获赞

12: 评论

230: 收藏

私信

关注

热门文章

分类专栏

量化交易 1篇
宏观日志
金学堂
spark 18篇
大数据 88篇
mysql 12篇
bug 2篇
java练习 12篇
java基础知识 15篇

最新评论

JavaSE第7天练习题（面向对象二，继承、多态、super关键字）
Java小白自学中……: public class StudentLeader extends student{ private String job; public void meeting(){ System.out.println("学生干部喜欢开会!"); } }
impala介绍与安装（yum）
over_________: 博主您好 cdh5.14.0-centos6.tar.gz 官网已经不提供下载您这边方便给个资源吗
JavaSE基础第14天练习（字节缓冲流，转换流，字符流）
黑黑的大帅: 最后一题没有解决学号重复录入的问题
java基础知识七（面向对象二）
阿跌: IT黑马的呀
JavaSE第11天练习题（Collection接口、List接口、ArrayList类）
惊鸿人间一片: 哦，这个是重复判断list集合中是不是还有s这个对象，判断结果为False的时候再结束整个循环，如果没有这行代码，那么，b就永远是true，就会卡在这了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。