Spark:distinct算子

最新推荐文章于 2024-05-11 15:48:18 发布

茂密头发的源猴

最新推荐文章于 2024-05-11 15:48:18 发布

阅读量769

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/weixin_48109576/article/details/107891894

版权

distinct是Tranformation算子,具有shuffle

功能:去重

源码

分区取设定分区或者按照核数

将rdd用map变为对偶元组,然后用reduceBykey,

我的理解为:reduceBykey是将key建返回,value取出第一个就不叠加了,局部聚合和全局聚合都用这一个函数

在用map取出key

代码实现
object DistinctDemo {


  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("DistinctDemo").setMaster("local[*]")

    val sc = new SparkContext(conf)

    val rdd: RDD[Int] = sc.parallelize(List(5, 5, 6, 6, 7, 8, 8, 8),2)
    val rdd2: RDD[(Int, Null)] = rdd.map((_, null))
    val rdd3 = rdd2.reduceByKey((x, _) => x)
    val rdd4 = rdd3.map(_._1)

 
    rdd4.saveAsTextFile("distinct-out2")
    sc.stop()

  }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

茂密头发的源猴

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark:distinct算子

distinct是Tranformation算子,具有shuffle功能:去重源码分区取设定分区或者按照核数将rdd用map变为对偶元组,然后用reduceBykey,我的理解为:reduceBykey是将key建返回,value取出第一个就不叠加了,局部聚合和全局聚合都用这一个函数在用map取出key代码实现object DistinctDemo { def main(args: Array[String]): Unit = { val con...
复制链接

扫一扫