Spark优化操作_自定义distinct

最新推荐文章于 2022-04-26 22:24:16 发布

willyan2007

最新推荐文章于 2022-04-26 22:24:16 发布

阅读量2.9k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/willyan2007/article/details/78875160

版权

Spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文介绍了一种通过自定义distinct函数来提高数据处理效率的方法。该方法利用Set的特性在一个partition内实现去重，并通过partitionBy确保相同key值的数据在同一分区内，从而避免了不必要的重复计算。

摘要由CSDN通过智能技术生成

因为默认的distinct算子操作效率太低，自己改写一下。

很简单

def mydistinct(iter: Iterator[(String, Int)]): Iterator[String] = {
  iter.foldLeft(Set[String]())((CurS, item) => CurS + item._1).toIterator
}

//mydistinct的使用过程如下

val rdd2 = rdd1.
  map(x => (x._1 + SPLIT + x._2 + SPLIT + x._3 + SPLIT + x._4, 1)).
  partitionBy(new org.apache.spark.HashPartitioner(100)).
  mapPartitions(SetProcess.mydistinct).
  map(key => {
    val strs = key.split(SPLIT)
    (strs(0), strs(1), strs(2), strs(3))
  })

说明：

1.mydistinct的实现是利用set的特性实现的，在一个partition内实现，再reduce各个partition，从而实现全量去重。

2.mydistinct实现之前，先做partitionBy，因为key值发生变化，父rdd的分区不适用新的rdd，若不做partitionBy,分区与分区之间可能存在一样的，最后reduce的时候还有可能出现重复。

3.做partitionBy就是为了让相同key值的数据，刷新到同一个分区内。再在partition内去重，大大提高的效率。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

willyan2007

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

记录一次spark sql的优化过程

xiaoluobutou的专栏

02-22

292

记录一次spark sql优化的过程

Spark Sql之count(distinct)分析&&学习&&验证

南风知我意

08-27

4863

先说结论：spark sql和hive不一样，spark对count(distinct)做了group by优化 >在hive中count(). >hive往往只用一个 reduce 来处理全局聚合函数，最后导致数据倾斜；在不考虑其它因素的情况下，我们的优化方案是先 group by 再 count ...

3 条评论您还未登录，请先登录后发表或查看评论

【Spark】Spark 优化操作之自定义 distinct

云祁QI

02-04

2555

因为默认的distinct算子操作效率太低，自己改写一下。很简单 def mydistinct(iter: Iterator[(String, Int)]): Iterator[String] = { iter.foldLeft(Set[String]())((CurS, item) => CurS + item._1).toIterator } // mydistinct 的使用过...

Spark SQL distinct分析优化总结

Code_zhu的博客

03-29

7280

Spark count distinct原理由于distinct过程会导致数据膨胀，导致shuffle、reduce双端数据倾斜，因此distinct算子操作特别慢 distinct慢的主要原因：数据膨胀原理： select count(distinct id), count(distinct name) from table_a distinct算子在处理过程中是将distinct后的字段和group by字段共同作为key传入reduce，导致shuffle.

谈谈 MySQL 的 JSON 数据类型操作

奇舞周刊

09-14

725

编者按：本文作者李喆明，奇舞团前端开发工程师MySQL 5.7 增加了 JSON 数据类型的支持，在之前如果要存储 JSON 类型的数据的话我们只能自己做 JSON.stringify(...

spark结合mysql性能优化_总结：Spark性能优化上的一些总结

weixin_28829339的博客

01-19

215

Spark性能调优整理来自于：会增加：一些其他博客的内容自己的理解和pyspark代码的补充实践开发调优Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实...

Spark 优化之：RDD算子优化(篇幅很长，耐心看完收获满满)

AriesLY0411的博客

04-26

946

RDD算子调优 1. 避免RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示对上图中的RDD计算架构进行修改，得到如下图所示的优化结果：一个简单的案例 // 需要对名为“hello.txt”的HDFS文件进行一次map操作，再进行一次reduce操作。 //也就是说，需要对一份数据执行两次算子操作。 // 错误的做法：对于同一份数据执行多次算子操作时，创建多个RDD。 // 这里执行了两次textFile方法，针对同一个HDFS.

Spark 优化一（算子对比）

qq_42418371的博客

03-18

333

reduceByKey和groupByKey 建议使用reduceByKey**或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说比较差。 mapPa...

Spark性能优化指南——高级篇

07-27

Shuffle调优通常包括优化Shuffle写操作的性能，如调整Spark的配置参数，如spark.shuffle.manager、spark.shuffle.file.buffer、spark.shuffle.sort.bypassMergeThreshold等。合理设置这些参数可以减少磁盘I/O的压力...

Spark算子

qq_44676946的博客

04-26

353

Spark的算子的分类从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业（Job），并将数据.

Spark生产优化总结

04-27

Spark生产优化总结，企业中Spark作业的调优等的总结，spark 任务详解、调度、资源分配

【Hive、Spark Sql中为什么说group by是distinct的优化？】

Kruskual的博客

12-15

2914

Hive、Spark Sql中为什么说group by是distinct的优化？用LogicalPlan带你一探究竟group bydistinct看图说话用LogicalPlan带你一探究竟无论是Hive还是SparkSql都会生成LogicalPlan，PhysicalPlan只要我们明白了他在底层如何转换如何优化的就能知道group by和distinct有何区别。 group by sql: “select name from student group by name” distinct

spark海量数据去重策略

abc50319的专栏

05-17

9570

1.目标：尽可能在有限资源的情况下，利用尽量少的资源来达到更高效的效果。今天就给大家分享一个在DDT首页概览实时性能优化算法 – 海量数据高效去重算法。2.常规方法：采用spark sql方式去重3.创新方法：采用spark的分区排序去重算子去重算法。性能大幅度提升，从原来5min左右下降到30s以内（数据量10亿左右）采用spark sql方式和spark 算子分区排序去重算法对比：4.实验对比...

Spark distinct去重原理 (distinct会导致shuffle)

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

01-16

2687

distinct算子原理：含有reduceByKey则会有shuffle 贴上spark源码： /** * Return a new RDD containing the distinct elements in this RDD. */ def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { map(x => (x, null)).redu.

Spark中distinct、reduceByKey和groupByKey的区别与取舍

止鱼

07-30

6813

1. 代码实例： a. val rdd = sc.makeRDD(Seq("aa", "bb", "cc", "aa", "cc"), 1) //对RDD中的元素进行去重操作 rdd.distinct(1).collect().foreach(println) rs: aa bb cc b. val rdd:

spark部分：distinct去重的原理