scala worldCount join会导致数据量几何增长，并且会影响shuffle的性能，不推荐使用

减肥中的小南瓜

于 2022-04-16 14:38:04 发布

阅读量460

点赞数

分类专栏： scala学习笔记文章标签： scala

本文链接：https://blog.csdn.net/weixin_44342318/article/details/124213456

版权

scala学习笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

worldCount join会导致数据量几何增长，并且会影响shuffle的性能，不推荐使用

package study.spark.core.acc

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

object Spark05_Bc {

    def main(args: Array[String]): Unit = {

        val sparConf = new SparkConf().setMaster("local").setAppName("Acc")
        val sc = new SparkContext(sparConf)

        val rdd1 = sc.makeRDD(List(
            ("a", 1),("b", 2),("c", 3)
        ))
//        val rdd2 = sc.makeRDD(List(
//            ("a", 4),("b", 5),("c", 6)
//        ))
        val map = mutable.Map(("a", 4),("b", 5),("c", 6))



        // join会导致数据量几何增长，并且会影响shuffle的性能，不推荐使用
        //val joinRDD: RDD[(String, (Int, Int))] = rdd1.join(rdd2)
        //joinRDD.collect().foreach(println)
        // (a, 1),    (b, 2),    (c, 3)
        // (a, (1,4)),(b, (2,5)),(c, (3,6))
        rdd1.map {
            case (w, c) => {
                val l: Int = map.getOrElse(w, 0)
                (w, (c, l))
            }
        }.collect().foreach(println)

        sc.stop()

    }
}