灵境旅行家-CSDN博客

原创 SQL语句的执行顺序

查询语句中select from where group by having order by的执行顺序1.查询中用到的关键词主要包含六个，并且他们的使用顺序依次为select--from--where--group by--having--order by其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不是一样的，而是按照下面的顺序来执行from--where--group by--having--select--order...

2022-03-13 17:23:08 3159

原创数据库、数据仓库、大数据平台、数据中台、数据湖大对比

层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰，有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例，对比分析我们工作中高频出现的几个名词，主要包括以下几个方面：目录数据什么是大数据数据分析与数据挖掘的区别是什么数据库什么是数据库数据库中的分布式事务理论数据仓库什么是数据仓库数据库与数据仓库有什么区别什么是数据集市大数据平台什么是大数据平台什么是大数据开发平台数据中台什么是数据中台数据仓库与数据中台的区别与联系

2022-03-11 18:16:46 7124

转载 SparkCore的调优之Spark内存模型

目录一、概述二、堆内和堆外内存规划2.1　堆内内存2.2　堆外内存2.3　内存管理接口三、内存空间分配3.1　静态内存管理3.2　统一内存管理四、存储内存管理4.1　RDD 的持久化机制4.2　RDD 缓存的过程4.3　淘汰和落盘五、执行内存管理5.1　多任务间内存分配5.2　Shuffle 的内存占用一、概述Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的

2022-03-10 17:32:50 391

转载元数据和主数据管理

企业数据管理的内容和范畴通常包含交易数据、主数据以及元数据。本文将主要针对主数据、元数据的相关概念以及应用跟大家做一个探讨。1.1主数据和主数据管理的概念　　企业主数据是用来描述企业核心业务实体的数据，比如客户、合作伙伴、员工、产品、物料单、账户等；它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据，并且存在于多个异构的应用系统中。　　企业主数据可以包括很多方面，除了常见的客户主数据之外，不同行业的客户还可能拥有其他各种类型的主数据，例如：对于电信行业客户而言，电信运营商提供..

2022-03-09 17:56:27 2346

原创 Flink如何处理反压问题

流处理系统需要能优雅地处理反压（backpressure）问题。反压通常产生于这样的场景：短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理，可能会导致资源耗尽甚至系统崩溃。目前主流的流处理系统 Storm/JStorm/Spark Streaming/Flink 都已经提供了反压机制，不过其实现各不相同。Storm 是通过监控 Bolt 中的接收队列负载情

2022-03-07 17:17:24 2997

原创实时数仓和离线数仓的概念

目录1、数据仓库的发展趋势1.1数据仓库的趋势1.2 数据仓库的发展2、数据仓库架构的演变2.1 传统数仓架构2.2 离线大数据架构2.3 Lambda架构2.4 Kappa架构2.5混合架构3、三种大数据数据仓库架构3.1 离线大数据架构3.2 Lambda 架构3.3 Kappa 架构3.4 Lambda 架构与 Kappa 架构的对比4、实时数仓建设思路5、菜鸟实时数仓案例5.1 整体设计5.2 数据模型6、美团点评基于...

2022-03-06 15:16:36 2938

转载 Spark算子总结

一、RDD概述 1、什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 2、RDD属性（1）、一组分片（Partition），即数据集的基...

2022-03-05 17:59:33 432

转载 hive 数据倾斜调优总结

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些 Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些

2022-03-04 15:20:43 359

转载 hive on spark 调优

hive on spark 性能远比hive on mr 要好，而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on spark。 udf函数也是全部支持。本文主要是想讲hive on spark 在运行于yarn模式的情况下如何调优。下文举例讲解的yarn节点机器配置，假设有32核，120GB内存。1.yarn配置yarn.nodemanager.resource.cpu-vcores和yarn.nodemanager.resource.memory-mb,这两个参数决定这集.

2022-03-03 13:53:23 2152

转载 Spark与Flink如何选择

Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接收到一个时间间隔的数据才会去处理,所以天生很难在实时性上有所提升。虽然在 Spark2.3中提出了连续处理模型( Continuous Processing Model

2022-03-02 17:46:48 2968

转载如何理解数据治理

数据治理数仓建设真正的难点不在于数仓设计，而在于后续业务发展起来，业务线变的庞大之后的数据治理，包括资产治理、数据质量监控、数据指标体系的建设等。其实数据治理的范围很⼴，包含数据本⾝的管理、数据安全、数据质量、数据成本等。在DAMA 数据管理知识体系指南中，数据治理位于数据管理“车轮图”的正中央，是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲，为各项数据管理活动提供总体指导策略。数据治理之道是什么1. 数据治理需要体系建设为发

2022-03-01 17:11:43 1210

原创 Spark sql join的三种实现方式之浅见

目录引言Hash JoinBroadcast Hash JoinShuffle Hash Join引言join是SQL中的常用操作，良好的表结构能够将数据分散到不同的表中，使其符合某种规范(mysql三大范式)，可以最大程度的减少数据冗余，更新容错等，而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现，每种Join对应的不同的应用场景(SparkSQL自动决策使用哪种实现范式)：　　1.Broadcast Hash Join：适..

2022-03-01 16:54:51 964

转载 Spark-bug总结之一次task长时间卡住不动,一直Running的问题解决

目录现象排查现象spark提交任务后，某一个Stage卡住，通过spark界面看到，executor运行正常，卡住的Stage的task已经分配至executor，但task 一直在running并且数据量不大，task不结束，同时log中也无异常报出。20/07/27 07:40:13 INFO CoarseGrainedExecutorBackend: Started daemon with process name: 15841@ip-10-3-1-141.ec2.i

2022-02-28 15:13:10 6533

转载谓词下推究竟是什么

什么是谓词首先我们要了解什么是谓词。谓词，用来描述或判定客体性质、特征或者客体之间关系的词项。根据《现代汉语》的定义汉语的谓词包括动词和形容词。在SQL中，谓词就是返回boolean值即true和false的函数，或是隐式转换为bool的函数。SQL中的谓词主要有 LKIE、BETWEEN、IS NULL、IS NOT NULL、IN、EXISTS.接下来了解什么是谓词下推谓词下推的基本思想即：将过滤表达式尽可能移动至靠近数据源的位置，以使真正执行时能直接跳过无关的数据。传统

2022-02-28 14:53:33 859

转载 flume之taildirSource重复获取数据和不释放资源解决办法

本文针对flume的TailDirSource重复获取数据和不释放资源的问题进行解决。一、问题思考（1）log4j的日志文件肯定是会根据规则进行滚动的：当*.log满了就会滚动把前文件更名为*.log.1,然后重新进行*.log文件打印。这样flume就会把*.log.1文件当作新文件，又重新读取一遍，导致重复。（2）当flume监控的日志文件被移走或删除，flume仍然在监控中，并没有释放资源，当然，在一定时间后会自动释放，这个时间根据官方文档设置默认值是120000ms。二、处理方式

2022-02-25 11:15:45 1628

转载 Flink之Window开窗时间小结

一、滚动窗口（TumblingEventTimeWindows）二、滑动窗口（SlidingEventTimeWindows）三、会话窗口（EventTimeSessionWindows）相邻两次数据的 EventTime 的时间差超过指定的时间间隔就会触发执行。如果加入 Watermark，那么当触发执行时，所有满足时间间隔而还没有触发的 Window 会同时触发执行四、窗口的开始时间以EventTime和东八区为例：一般情况下按小时、分钟、秒开窗时间都是对的，比如按小时，even

2022-02-24 11:21:29 1618

一个记录普通男孩在ＩＴ界学习思考感悟的地方