BigData
文章平均质量分 84
stone-zhu
我的博客:http://zhuleiblog.com
我的github:https://github.com/Zzz468005600
展开
-
一文读懂Apache Kylin
前言随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据技术的第一步,如何让数据产生价值才是大数据领域的终极目标。Hadoop的出现解决了数据存储问题,但如何对海量数据进行OLAP查询,却一直令人十分头疼。企业中的查询大致可分为即席查询和定制查询两种。之前出现的很多OLAP引擎,包括Hive、Presto、SparkSQL等,虽然在很大程度上降低了数据分析的难度,但它们都只适用于即席查询的场景。它们的优点是查询灵活,但是随着数据量转载 2021-03-03 17:35:39 · 712 阅读 · 1 评论 -
数据库三大范式
一、概述目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多规范要求的称为第二范式(2NF),其余范式以次类推。一般来说,数据库只需满足第三范式(3NF)就行了。二、三范式第一范式(1NF):强调数据表的原子性所谓第一范式(1NF)是指在关系模型中,对于添加的一个规范要求,所有的域都应该是原子性的,即数据库表的每原创 2021-02-26 11:53:23 · 869 阅读 · 0 评论 -
星型模型和雪花型模型比较
一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家转载 2021-02-23 10:20:54 · 351 阅读 · 0 评论 -
大数据系统架构
大数据系统大体可以分成以下四个部分:1,数据采集层2,数据计算层3,数据服务层4,数据应用层下图是阿里巴巴大数据系统架构图:一、数据采集层数据采集主要分成以下三块数据:1,Web 端日志2,App 端日志3,第三方数据(比如 mysql 增量数据同步)Web 端和 App 端的日志数据都需要制定各个场景下的埋点规范,用来满足各种通用业务场景下(比如浏览、点击等)的数据分析。Web 端和 App 端数据采集一般都有各自的埋点 SDK 和对应的埋点管理平台,用来确保埋点数据的规范和准确原创 2020-10-26 18:24:47 · 8855 阅读 · 0 评论 -
SparkSQL 性能调优参数
1,spark.hadoopRDD.ignoreEmptySplits默认是false,如果是true,则会忽略那些空的splits,减小task的数量。2,spark.hadoop.mapreduce.input.fileinputformat.split.minsize是用于聚合input的小文件,用于控制每个mapTask的输入文件,防止小文件过多时候,产生太多的task。3,spa...原创 2019-11-10 19:21:31 · 3194 阅读 · 0 评论 -
Spark 共享变量
翻译 Spark 共享变量部分的官方文档(Spark 2.4.3)。通常,当传递给 Spark 操作 (如 map 或 reduce ) 的函数在远程集群节点上执行时,在函数中使用的所有外部变量都是单独拷贝的变量副本。这些变量被复制到每台机器上,对远程机器上的变量更新不会传播回驱动程序。支持通用的、任务间的读写共享变量是很低效的。不过,Spark确实为两种常见的使用模式提供了两种有限的共享变量类...翻译 2019-06-27 14:41:54 · 1077 阅读 · 0 评论 -
Spark 源码分析(六): Executor 向 driver 进行注册
前一篇文章介绍了 Executor 进程的启动,最后启动的是 CoarseGrainedExecutorBackend,执行启动命令后会执行它的 main 方法,启动 CoarseGrainedExecutorBackend 进程。CoarseGrainedExecutorBackend 进程是 Executor 的守护进程,用户 Executor 的创建和维护。首先我们先看下 main 方法...原创 2019-07-02 18:24:32 · 787 阅读 · 0 评论 -
Spark 源码分析(五): Executor 启动
上一篇已经将 Application 注册到了 master 上了,在 master 收到注册消息后会进行一系列操作,最后调用 schedule 方法。这个 schedule 方法会去做两件事,一件事是给等待调度的 driver 分配资源,另一件事是给等待调度的 application 去分配资源启动 Executor。给 application 分配资源启动 Executor 的代码最终会调...原创 2019-07-02 17:39:21 · 629 阅读 · 0 评论 -
Spark:failure: ``union'' expected but `(' found
问题:Spark 1.5.1 本地使用 SQLContext 报错:failure: ``union'' expected but `(' found这个报错在位置在开窗函数执行语句处。原因及解决方法:从 Spark 2.0 开始,Spark SQL 才本地实现了开窗函数(SPARK-8641),在 Spark 2.0 之前要使用开窗函数,必须使用 HiveContext 去操作。同...原创 2019-06-24 10:43:23 · 1215 阅读 · 0 评论 -
Spark 源码分析(四): Application 的注册
在前面一篇文章中分析到了 SparkContext 中的 TaskScheduler 创建及启动。在 StandaloneSchedulerBackend start 代码里除了创建了一个 DriverEndpoint 用于 standalone 模式下用来和 Executor 通信之外还会创建一个 AppClient。这个 AppClient 会向 Master 注册 Applicatio...原创 2019-07-02 16:02:57 · 529 阅读 · 0 评论 -
Spark 源码分析(九): Task 启动
前面已经分析到了 DAGScheduler 对 stage 划分,并对 Task 的最佳位置进行计算之后,通过调用 taskScheduler 的 submitTasks 方法,将每个 stage 的 taskSet 进行提交。在 taskScheduler 的 submitTasks 方法中会为每个 taskSet 创建一个 TaskSetManager,用于管理 taskSet。然后向调度池...原创 2019-07-08 17:01:07 · 459 阅读 · 0 评论 -
Spark 源码分析(七): DAGScheduler 源码分析1(stage 划分算法)
前面几篇文章已经说清楚了从 spark 任务提交到 driver 启动,然后执行 main 方法,初始化 SparkContext 对象。在初始化 SparkContext 对象的过程中创建了两个重要组件:一个是 TaskScheduler(实际上是他的实现类 TaskSchedulerImpl 对象),这个对象内部会持有一个 SchedulerBackend 对象,SchedulerBack...原创 2019-07-03 16:36:22 · 876 阅读 · 0 评论 -
Spark 源码分析(八):DAGScheduler 源码分析2(task 最佳位置计算)
前面一篇文章已经讲了 DAGScheduler 中的 stage 划分算法。实际上就是每当执行到 RDD 的 action 算子时会去调用 DAGScheduler 的 handleJobSubmitted 方法,这个方法内部会根据当前的 RDD 创建一个 ResultStage,然后根据这个 ResultStage 对象创建一个 Job。再将这个 stage 对象传入 submitStage...原创 2019-07-03 23:40:07 · 621 阅读 · 0 评论 -
Spark 的一些名词术语
摘抄官网关于 Spark 中常用的一些名词术语:TermMeaningApplicationUser program built on Spark. Consists of a driver program and executors on the cluster.Application jarA jar containing the user’s Spark ap...原创 2019-06-28 14:47:19 · 678 阅读 · 0 评论 -
Spark 内存管理详解(上):内存分配
本文转自:Spark 内存管理详解(上)——内存分配Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中占据着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本,阅读本文需要读者有一定的Spark和Java基...转载 2019-07-10 14:20:03 · 2313 阅读 · 0 评论 -
Spark 内存管理详解(下):内存管理
本文转自:Spark内存管理详解(下)——内存管理本文最初由IBM developerWorks中国网站发表,其链接为Apache Spark内存管理详解在这里,正文内容分为上下两篇来阐述,这是下篇,上一篇请移步博客列表的上一篇文章。Spark内存管理详解(上)——内存分配 1. 堆内和堆外内存 2. 内存空间分配Spark内存管理详解(下)——内存管理 3. 存储内存管理 ...转载 2019-07-10 14:20:54 · 924 阅读 · 0 评论 -
Spark 中的 RPC
Spark 是一个 通用的分布式计算系统,既然是分布式的,必然存在很多节点之间的通信,那么 Spark 不同组件之间就会通过 RPC(Remote Procedure Call)进行点对点通信。Spark 的 RPC 主要在两个模块中:1,spark-core 中,主要承载了更好的封装 server 和 client 的作用,以及和 scala 语言的融合,它依赖 spark-network-...原创 2019-07-01 11:49:43 · 875 阅读 · 0 评论 -
Spark 源码分析(三): SparkContext 初始化之 TaskScheduler 创建与启动
前面已经分析到了 driver 进程成功在某台 worker 上启动了,下面就开始执行我们写的那些代码了。以一个 wordcount 程序为例,代码如下: val conf = new SparkConf() .setAppName("WordCount") .setMaster("local") val sc = new SparkContext(conf) ...原创 2019-07-02 12:02:01 · 680 阅读 · 0 评论 -
Spark 的 cogroup 和 join 算子
cogroup 这个算子使用的频率很低,join 算子使用频率较高,两者都是根据两个 RDD 的 key 进行关联。具体看下面的代码,先看下面的 2 个 RDD:SparkConf conf = new SparkConf() .setAppName("co") .setMaster("local"); JavaSp...原创 2019-06-26 18:02:10 · 1227 阅读 · 0 评论 -
Spark 源码分析(二): Driver 注册及启动
上一篇文章已经已经执行到 Client 向 masterEndpoint 发送了 RequestSubmitDriver 信息,下面就看看 master 怎么注册 driver 信息,并且怎么让 worker 去启动 driver 的。一,org.apache.spark.deploy.master.Master这个 Master 就是前面 Client 发送的对象,是一个 ThreadSaf...原创 2019-07-01 23:16:15 · 1117 阅读 · 0 评论 -
Spark 中几个 join 算子
Spark 中和 join 相关的算子有这几个:join、fullOuterJoin、leftOuterJoin、rightOuterJoin这几种 join 算子和 sql 中的 join 类似,join 相当于内连接,fullOuterJoin 相当于全连接,leftOuterJoin 相当于左连接,rightOuterJoin 相当于右连接。分别解释下这几种连接在 sql 中的含义,sp...原创 2019-05-16 14:35:57 · 1717 阅读 · 0 评论 -
Spark 中 File,Block,Split,Task,Partition,RDD概念的理解
1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上;2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个 Block 合并成一个 InputSplit(InputSplit不能跨越文件);3,然后,会将这些 Inpu...原创 2019-05-22 11:35:34 · 730 阅读 · 0 评论 -
Spark 的执行过程
1,Spark 应用程序启动在自己的 JVM 进程中,即 Driver 进程。启动后 SparkContext 初始化执行配置和输入数据。SparkContext 启动 DAGScheduler 构造执行的 DAG 图,然后切分成最小的执行单位:task。注:Spark 应用会根据 Action 操作将其划分成多个 job,每个 job 中又会根据 shuffle 动作划分成多个 stage,构...原创 2019-05-27 09:15:16 · 606 阅读 · 0 评论 -
什么是 RDD ?
Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。1,RDD 有三个基本特性这三个特性分别为:分区,不可变,并行操作。a, 分区每一个 RDD 包含的数据被存储在系统的不同节点上。逻辑上我们可以将 RDD 理解成一个大的数组,数组中的每个元素就代表一个分区 (Partition) 。在物理存储中,每个分区...原创 2019-05-23 14:45:17 · 674 阅读 · 0 评论 -
Spark 性能优化:资源分配
性能调优的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。一,分配的资源有哪些?1,分配的 executor 数量;2,每个 executor 需要的 core 数量;3,每个 executor 需要的内存大小;4,driver 的内存大小 (这个影响不大) ;二,在哪里去配置这些资源?...原创 2019-05-30 16:06:59 · 850 阅读 · 0 评论 -
Spark 性能优化:调节并行度
并行度:Spark 作业中,会根据 action 操作划分成多个 job,每个 job 中会根据 shuffle 划分成多个 stage,每个 stage 会分配多个 task 去执行,各个 stage 划分的 task 数量就代表了 Spark 作业在该 stage 的并行度。一,调整并行度的作用假设 Spark 作业的处理的数据量是不变的,这些数据会被分配到每个 task 中去处理,在集群...原创 2019-05-30 16:07:44 · 998 阅读 · 0 评论 -
Spark 性能优化:重构 RDD 及 RDD 持久化
在写 Spark 的应用时,应该尽量避免这两种情况:1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。2,出现公用的 RDD 时候不做持久化操作,比如:RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2然后用 RDD2...原创 2019-05-30 16:08:14 · 241 阅读 · 0 评论 -
Spark 性能优化:代码中常用的几个调整点
前面三篇文章:资源分配,调整并行度,重构 RDD 和 RDD 持久化,这三种优化方式调整到位之后会让整个 Spark 作业执行速度有非常明显的提升。除此之外我们还有很多其它性能优化的手段,但在和前面三种方式比较,正常情况下提升没有那么大。1,使用广播变量在 task 执行算子函数运算的时候,如果要用到外部变量,这种时候需要使用广播变量。因为,如果不使用广播变量,那么所使用的外部变量会在每个 ...原创 2019-05-30 16:08:42 · 458 阅读 · 0 评论 -
Spark 解决数据倾斜的几种常用方法
数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。一,数据倾斜原理一个 Spark 作业,会根据其内部的 Action 操作划分成多个 job,每个 job 内部又会根据 shuffle 操作划分成多个 stage,然后每个 stage 会分配多个 tas...原创 2019-06-06 16:13:29 · 2378 阅读 · 2 评论 -
Yarn 的组成及其工作流程
在 Hadoop1 中 MapReduce 框架即负责集群的资源调度,还负责 MapReduce 程序的运行。由于这种架构资源调度和计算高度耦合,导致了一个 Hadoop 集群中只能跑 MapReduce 计算任务,无法跑其它的计算任务,维护成本很高。在后面的 Hadoop2 中改成了 Yarn + MapReduce 架构,将资源的调度工作交给了 Yarn,MapReduce 只负责计算。这样...原创 2019-06-16 14:20:40 · 2296 阅读 · 0 评论 -
从 MapReduce 的运行机制看它为什么比 Spark 慢
在 Hadoop1 中,MapReduce 计算框架即负责集群资源的调度,还负责 MapReduce 程序的运行。MapReduce 的运行过程有三个关键进程:1,大数据应用进程。这是用户启动的 MapReduce 程序进程,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群的 JobTracker 进程。2,JobTracker 进程。这是 Ha...原创 2019-06-16 14:23:07 · 808 阅读 · 0 评论 -
Spark 的 Yarn-cluster 模式和 Yarn-client 模式
Spark 支持 Yarn 集群的部署模式,在 Spark On Yarn 模式下,每个 Spark 的 Executor 作为一个 Yarn container 在运行,同事支持多个任务在同一个 container 中运行。Yarn 的 Application Master 概念:在 Yarn 中,每个 application 都有一个 Application 都有一个 Application...原创 2019-06-04 17:47:05 · 752 阅读 · 0 评论 -
Spark 中一些常见的 troubleshooting
记录一些常见的 Spark 作业里的 troubleshooting。1,shuffle reduce 端缓冲大小导致的 OOM在 shuffle 过程中,reduce 端在拉取 map 端的数据时,每个 task 会有自己的 缓冲区用来存放每次拉取的数据,这个缓冲区默认是 48M。如果 map 端产生的数据量非常大,并且 map 端的写入数据非常快,那么这时候 reduce 端的所有 ta...原创 2019-06-04 21:30:20 · 316 阅读 · 0 评论 -
ShuffleManager 原理
在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。在 Spark 1.2 以前,默认的 shuffle 计算引擎是 HashShuffleManager。该 ShuffleMananger 有一个非常严重的弊端,就是会产生大量的磁盘文件,进而有大量的磁盘 IO 操作,比较影响性能。因此在 Spark 1.2 之后,默认的 Shuf...原创 2019-06-11 16:19:44 · 759 阅读 · 0 评论 -
Spark 源码分析(一):Spark Submit 任务提交
研究 Spark 内部是怎么运行的,怎么将 Spark 的任务从开始运行到结束的,先从 spark-submit 这个 shell 脚本提交用户程序开始。我们一般提交 Spark 任务时,都会写一个如下的脚本,里面指定 spark-submit 脚本的位置,配置好一些参数,然后运行:./bin/spark-submit \ --class <main-class> \ --...原创 2019-07-01 17:17:09 · 890 阅读 · 0 评论 -
Spark SQL 中 UDF 和 UDAF 的使用
Spark SQL 支持 Hive 的 UDF(User defined functions) 和 UDAF(User defined aggregation functions)UDF 传入参数只能是表中的 1 行数据(可以是多列字段),传出参数也是 1 行,具体使用如下:/** * 拼接一行中两列字段,数据类型一个为长整型,一个为字符串 * Created by zhulei on 2...原创 2019-06-26 15:08:22 · 1040 阅读 · 0 评论 -
几张图看懂列式存储
本文转自:几张图看懂列式存储最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的...转载 2019-02-28 13:28:07 · 238 阅读 · 0 评论