自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Deegue

和果子

  • 博客(9)
  • 收藏
  • 关注

原创 Spark执行计划分析与研究

在学习、使用和研究spark的过程中,逐渐会发现:单纯看官方文档对spark参数调优只能解决一小部分的问题,要想进一步的学习spark,进一步调优甚至在spark源码的基础上二次开发,我觉得收益最高的应该是学习执行计划了。因此在研究spark源码之前,学习执行计划 可以对整个spark执行过程、架构设计都有一个初步的认识。然而国内网站各大博客,都没有找到一个相关入门教程,笔者打算利用空余时...

2018-09-18 11:24:30 20516 5

原创 Spark RDD与Partion

一、RDD的概述1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。...

2018-09-18 11:22:30 11528

原创 Spark性能优化之Whole-stage code generation

一、技术背景    Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Model(火山迭代模型)。一个查询会包含多个Operator,每个Operator都会实现一个接口,提供一个next()方法,该方法返回Operator Tree的下一个Operator,能够让查询引擎组装任意Operator,而不需要去考虑每...

2018-09-17 16:57:58 3863

转载 Spark 统一内存管理模型详解

堆内内存(On-heap Memory)默认情况下,Spark 仅仅使用了堆内内存。Executor 端的堆内内存区域大致可以分为以下四大块:Execution 内存:主要用于存放 Shuffle、Join、Sort、Aggregation 等计算过程中的临时数据 Storage 内存:主要用于存储 spark 的 cache 数据,例如RDD的缓存、unroll数据; 用户内存(Us...

2018-09-17 15:24:59 15953 3

原创 Spark DAG与RDD

1、DAGDAG图中,每个节点都是RDD窄依赖(也叫narrow依赖)从父RDD角度看:一个父RDD只被一个子RDD分区使用。父RDD的每个分区最多只能被一个Child RDD的一个分区使用从子RDD角度看:依赖上级RDD的部分分区     精确知道依赖的上级RDD分区,会选择和自己在同一节点的上级RDD分区,没有网络IO开销,高效。窄依赖包括:OneToOneDepen...

2018-09-17 13:45:02 7227 1

转载 Spark常用算子

Spark的算子的分类   从大方向来说,Spark 算子大致可以分为以下两类:     1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。     Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。     2)...

2018-09-14 17:21:03 14160

原创 spark 参数调优11-Spark Streaming

spark参数调优系列 目录地址:https://blog.csdn.net/zyzzxycj/article/details/81011540 11 Spark Streamingspark.streaming.backpressure.enabled反压,默认false,详细了解请移步https://blog.csdn.net/zyzzxycj/article/detai...

2018-09-05 17:50:32 7873

转载 Spark Streaming 反压(Back Pressure)机制介绍

背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,可...

2018-09-04 16:38:00 5341

原创 spark 数据倾斜调优

数据倾斜应该算是一个比较麻烦的问题,笔者也是刚刚开始学习相关的调优,将看到的比较全面、清晰的几种解决方案整合了一下,并加上了一些理解与心得,供参考!首先,需要对spark执行计划有一定的基础与理解,区分若干的stage进行的不同的操作,并且将数据倾斜问题定位到某个stage是非常关键的,之后就是根据不同业务场景进行相应的处理与调优了。以下内容部分摘自:https://www.iteblog...

2018-09-03 11:53:21 4204

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除