![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识小记
文章平均质量分 88
灵境旅行家
这个作者很懒,什么都没留下…
展开
-
SQL语句的执行顺序
查询语句中select from where group by having order by的执行顺序1.查询中用到的关键词主要包含六个,并且他们的使用顺序依次为select--from--where--group by--having--order by其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序与sql语句的书写顺序并不是一样的,而是按照下面的顺序来执行from--where--group by--having--select--order...原创 2022-03-13 17:23:08 · 2943 阅读 · 0 评论 -
数据库、数据仓库、大数据平台、数据中台、数据湖大对比
层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:目录数据什么是大数据数据分析与数据挖掘的区别是什么数据库什么是数据库数据库中的分布式事务理论数据仓库什么是数据仓库数据库与数据仓库有什么区别什么是数据集市大数据平台什么是大数据平台什么是大数据开发平台数据中台什么是数据中台数据仓库与数据中台的区别与联系原创 2022-03-11 18:16:46 · 6135 阅读 · 0 评论 -
SparkCore的调优之Spark内存模型
目录一、概述二、堆内和堆外内存规划2.1 堆内内存2.2 堆外内存2.3 内存管理接口三、内存空间分配3.1 静态内存管理3.2 统一内存管理四、存储内存管理4.1 RDD 的持久化机制4.2 RDD 缓存的过程4.3 淘汰和落盘五、 执行内存管理5.1 多任务间内存分配5.2 Shuffle 的内存占用一、概述Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的转载 2022-03-10 17:32:50 · 278 阅读 · 0 评论 -
元数据和主数据管理
企业数据管理的内容和范畴通常包含交易数据、主数据以及元数据。本文将主要针对主数据、元数据的相关概念以及应用跟大家做一个探讨。1.1主数据和主数据管理的概念 企业主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。 企业主数据可以包括很多方面,除了常见的客户主数据之外,不同行业的客户还可能拥有其他各种类型的主数据,例如:对于电信行业客户而言,电信运营商提供..转载 2022-03-09 17:56:27 · 1877 阅读 · 0 评论 -
实时数仓和离线数仓的概念
目录1、数据仓库的发展趋势1.1数据仓库的趋势1.2 数据仓库的发展2、数据仓库架构的演变2.1 传统数仓架构2.2 离线大数据架构2.3 Lambda架构2.4 Kappa架构2.5混合架构3、三种大数据数据仓库架构3.1 离线大数据架构3.2 Lambda 架构3.3 Kappa 架构3.4 Lambda 架构与 Kappa 架构的对比4、实时数仓建设思路5、菜鸟实时数仓案例5.1 整体设计5.2 数据模型6、美团点评基于...原创 2022-03-06 15:16:36 · 2406 阅读 · 0 评论 -
Spark算子总结
一、RDD概述 1、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 2、RDD属性 (1)、一组分片(Partition),即数据集的基...转载 2022-03-05 17:59:33 · 295 阅读 · 0 评论 -
Spark与Flink如何选择
Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接收到一个时间间隔的数据才会去处理,所以天生很难在实时性上有所提升。虽然在 Spark2.3中提出了连续处理模型( Continuous Processing Model转载 2022-03-02 17:46:48 · 2694 阅读 · 0 评论 -
如何理解数据治理
数据治理数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,包括资产治理、数据质量监控、数据指标体系的建设等。其实数据治理的范围很⼴,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在DAMA 数据管理知识体系指南中,数据治理位于数据管理“车轮图”的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。数据治理之道是什么1. 数据治理需要体系建设为发转载 2022-03-01 17:11:43 · 1014 阅读 · 0 评论 -
Spark sql join的三种实现方式之浅见
目录引言Hash JoinBroadcast Hash JoinShuffle Hash Join引言join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动决策使用哪种实现范式): 1.Broadcast Hash Join:适..原创 2022-03-01 16:54:51 · 675 阅读 · 0 评论 -
谓词下推究竟是什么
什么是谓词首先我们要了解什么是谓词。谓词,用来描述或判定客体性质、特征或者客体之间关系的词项。根据《现代汉语》的定义汉语的谓词包括动词和形容词。在SQL中,谓词就是返回boolean值即true和false的函数,或是隐式转换为bool的函数。SQL中的谓词主要有 LKIE、BETWEEN、IS NULL、IS NOT NULL、IN、EXISTS.接下来了解什么是谓词下推谓词下推的基本思想即:将过滤表达式尽可能移动至靠近数据源的位置,以使真正执行时能直接跳过无关的数据。传统转载 2022-02-28 14:53:33 · 574 阅读 · 0 评论 -
Flink之Window开窗时间小结
一、滚动窗口(TumblingEventTimeWindows)二、滑动窗口(SlidingEventTimeWindows)三、会话窗口(EventTimeSessionWindows)相邻两次数据的 EventTime 的时间差超过指定的时间间隔就会触发执行。如果加入 Watermark,那么当触发执行时,所有满足时间间隔而还没有触发的 Window 会同时触发执行四、窗口的开始时间以EventTime和东八区为例:一般情况下按小时、分钟、秒开窗时间都是对的,比如按小时,even转载 2022-02-24 11:21:29 · 1368 阅读 · 0 评论