自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

朱磊的博客

记录学习过程,写写工作日常

原创 Spark 性能优化:代码中常用的几个调整点

前面三篇文章:资源分配,调整并行度,重构 RDD 和 RDD 持久化,这三种优化方式调整到位之后会让整个 Spark 作业执行速度有非常明显的提升。 除此之外我们还有很多其它性能优化的手段,但在和前面三种方式比较,正常情况下提升没有那么大。 1,使用广播变量 在 task 执行算子函数运算的时候,...

2019-05-30 16:08:42

阅读数 145

评论数 0

原创 Spark 性能优化:重构 RDD 及 RDD 持久化

在写 Spark 的应用时,应该尽量避免这两种情况: 1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。 2,出现公用的 RDD 时候不做持久化操作,比如: RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2...

2019-05-30 16:08:14

阅读数 107

评论数 0

原创 Spark 性能优化:调节并行度

并行度:Spark 作业中,会根据 action 操作划分成多个 job,每个 job 中会根据 shuffle 划分成多个 stage,每个 stage 会分配多个 task 去执行,各个 stage 划分的 task 数量就代表了 Spark 作业在该 stage 的并行度。 一,调整并行度的...

2019-05-30 16:07:44

阅读数 150

评论数 0

原创 Spark 性能优化:资源分配

性能调优的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。 一,分配的资源有哪些? 1,分配的 executor 数量; 2,每个 executor 需要的 core 数量; 3,每个 executor...

2019-05-30 16:06:59

阅读数 210

评论数 0

原创 Spark 的执行过程

1,Spark 应用程序启动在自己的 JVM 进程中,即 Driver 进程。启动后 SparkContext 初始化执行配置和输入数据。SparkContext 启动 DAGScheduler 构造执行的 DAG 图,然后切分成最小的执行单位:task。 注:Spark 应用会根据 Action...

2019-05-27 09:15:16

阅读数 131

评论数 0

原创 什么是 RDD ?

Spark 中最基本的数据抽象是 RDD。 RDD:弹性分布式数据集 (Resilient Distributed DataSet)。 1,RDD 有三个基本特性 这三个特性分别为:分区,不可变,并行操作。 a, 分区 每一个 RDD 包含的数据被存储在系统的不同节点上。逻辑上我们可以将 RDD ...

2019-05-23 14:45:17

阅读数 95

评论数 0

原创 Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上; 2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个 Block...

2019-05-22 11:35:34

阅读数 120

评论数 0

原创 Spark 中几个 join 算子

Spark 中和 join 相关的算子有这几个:join、fullOuterJoin、leftOuterJoin、rightOuterJoin 这几种 join 算子和 sql 中的 join 类似,join 相当于内连接,fullOuterJoin 相当于全连接,leftOuterJoin 相当...

2019-05-16 14:35:57

阅读数 291

评论数 0

提示
确定要删除当前文章?
取消 删除