2018年09月_Deegue

原创 Spark执行计划分析与研究

在学习、使用和研究spark的过程中，逐渐会发现：单纯看官方文档对spark参数调优只能解决一小部分的问题，要想进一步的学习spark，进一步调优甚至在spark源码的基础上二次开发，我觉得收益最高的应该是学习执行计划了。因此在研究spark源码之前，学习执行计划可以对整个spark执行过程、架构设计都有一个初步的认识。然而国内网站各大博客，都没有找到一个相关入门教程，笔者打算利用空余时...

2018-09-18 11:24:30 20516 5

原创 Spark RDD与Partion

一、RDD的概述1.1　什么是RDD？RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。...

2018-09-18 11:22:30 11528

原创 Spark性能优化之Whole-stage code generation

一、技术背景 Spark1.x版本中执行SQL语句，使用的是一种最经典，最流行的查询求职策略，该策略主要基于 Volcano Iterator Model（火山迭代模型）。一个查询会包含多个Operator，每个Operator都会实现一个接口，提供一个next（）方法，该方法返回Operator Tree的下一个Operator，能够让查询引擎组装任意Operator，而不需要去考虑每...

2018-09-17 16:57:58 3863

转载 Spark 统一内存管理模型详解

堆内内存(On-heap Memory)默认情况下，Spark 仅仅使用了堆内内存。Executor 端的堆内内存区域大致可以分为以下四大块：Execution 内存：主要用于存放 Shuffle、Join、Sort、Aggregation 等计算过程中的临时数据 Storage 内存：主要用于存储 spark 的 cache 数据，例如RDD的缓存、unroll数据；用户内存（Us...

2018-09-17 15:24:59 15953 3

原创 Spark DAG与RDD

1、DAGDAG图中，每个节点都是RDD窄依赖（也叫narrow依赖）从父RDD角度看：一个父RDD只被一个子RDD分区使用。父RDD的每个分区最多只能被一个Child RDD的一个分区使用从子RDD角度看:依赖上级RDD的部分分区精确知道依赖的上级RDD分区，会选择和自己在同一节点的上级RDD分区，没有网络IO开销，高效。窄依赖包括：OneToOneDepen...

2018-09-17 13:45:02 7227 1

转载 Spark常用算子

Spark的算子的分类　　　从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）...

2018-09-14 17:21:03 14160

原创 spark 参数调优11-Spark Streaming

spark参数调优系列目录地址：https://blog.csdn.net/zyzzxycj/article/details/81011540 11 Spark Streamingspark.streaming.backpressure.enabled反压，默认false，详细了解请移步https://blog.csdn.net/zyzzxycj/article/detai...

2018-09-05 17:50:32 7873

转载 Spark Streaming 反压（Back Pressure）机制介绍

背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候，也就是每个批次数据处理的时间要比Spark Streaming 批处理间隔时间长；越来越多的数据被接收，但是数据的处理速度没有跟上，导致系统开始出现数据堆积，可...

2018-09-04 16:38:00 5341

原创 spark 数据倾斜调优

数据倾斜应该算是一个比较麻烦的问题，笔者也是刚刚开始学习相关的调优，将看到的比较全面、清晰的几种解决方案整合了一下，并加上了一些理解与心得，供参考！首先，需要对spark执行计划有一定的基础与理解，区分若干的stage进行的不同的操作，并且将数据倾斜问题定位到某个stage是非常关键的，之后就是根据不同业务场景进行相应的处理与调优了。以下内容部分摘自：https://www.iteblog...

2018-09-03 11:53:21 4204

Deegue