Spark经典案例之数据去重

最新推荐文章于 2024-05-28 22:46:39 发布

rong_code

最新推荐文章于 2024-05-28 22:46:39 发布

阅读量2.3k

点赞数 1

分类专栏： Spark Core

本文链接：https://blog.csdn.net/zhang__rong/article/details/88355301

版权

本文通过业务场景数据去重问题，探讨Spark中reduceByKey和groupByKey的区别。reduceByKey在本地shuffle后汇总，压力较小；而groupByKey会将所有map发送到一个节点汇总，压力大。建议在数据统计时使用reduceByKey以优化性能。

摘要由CSDN通过智能技术生成

/**

业务场景：数据去重问题
Created by YJ on 2017/2/7.
统计数据,尽量用reduceByKey,不要用groupByKey,优化点
reduceByKey,在本机suffle后,再发送一个总map，发送到一个总机器上汇总，（汇总要压力小）
groupByKey,发送本机所有的map,在一个机器上汇总（汇总压力大）
/
/

数据格式
flie1:
2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c
flie2:
2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c
*/

package ClassicCase

import org.apache.spark.{SparkConf, SparkContext}
object case2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("reduce")
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")
    //获取数据
    val two = sc.textFile("hdfs://

最低0.47元/天解锁文章

rong_code

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Spark经典案例之数据去重

/**业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduceByKey,不要用groupByKey,优化点 reduceByKey,在本机suffle后,再发送一个总map，发送到一个总机器上汇总，（汇总要压力小） groupByKey,发送本机所有的map,在一个机器上汇总（汇总压力大）/ /数据格式flie1:2012-3...
复制链接

扫一扫

专栏目录