数据仓库
文章平均质量分 60
☞空白页
这个作者很懒,什么都没留下…
展开
-
HiveSQL高级进阶技巧
直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升!1.删除:insert overwrite tmp select * from tmp where id != '666';2.更新:insert overwrite tmp select id,label, if(id = '1' and label = 'grade','25',value) as value from tmp where id != '666原创 2021-11-08 20:45:03 · 332 阅读 · 0 评论 -
通用的实时数仓构建方法与实践
本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。 01 实时场景 02 实时技术及架构 1. 实时计算技术选型 2. 实时架构 03 业原创 2021-08-31 16:08:32 · 93 阅读 · 0 评论 -
数据仓库--拉链表
1.拉链表概述1.1.什么是拉链表 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效日期。 如果当前信息至今有效,在生效结束日期中填入一个极大值,如(9999-99-99)2.2.为什么要做拉链表拉链表适合于:数据会发生变化,但是变化频率并不高的维度(即:缓慢变化维度) 比如:用户信息会发生变化,但是每天变化的比例不高。如果数据量有一定规模,按照每日全量的方式保存...原创 2021-08-17 16:54:40 · 199 阅读 · 0 评论 -
维度退化(数据仓库)
维度-退化维度刚接触Mondrian,不熟悉如果只有一个事实表,没有单独的维度表,其中事实表就包含维度信息的怎么做Schema文件。一开始做了很多自关联,导致性能下降明显。基本多维度查询速度就很慢,基本出不来了。其实这种同在事实表的,可以用退化维度来实现即可。退化维度是这样的一种维度:由于它过于简单而不值得为它创建一个维表。考虑下面的事实表:假设我们为支付方式列的值创建一个维表:支付方式CreditCashATM这个维表没什么意义,它只有三个取值,没有额外的信息,并产生转载 2021-06-16 09:18:58 · 5042 阅读 · 0 评论 -
关于OLAP数仓,这大概是史上最全面的总结!(万字干货)
有哪些类型的OLAP数仓?按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示:本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓,Cloudera的Impala、Facebook的Presto和Pivotal的GreenPlum均属于这类系统;如果超过百亿级别数据量,那么一般选择离线数仓,如使用Hive或Spark等(SparkSQL3.0看起来性能提升很明显);对于数据量很小的情况,虽转载 2021-06-16 09:06:47 · 320 阅读 · 0 评论 -
通透!数据仓库领域常见建模方法及实例演示
1一、为什么需要数据建模?在开始今天的话题之前,我们不妨思考下,到底为什么需要进行数据建模?随着从IT时代到DT时代的跨越,数据开始出现爆发式的增长,这当中产生的价值也是不言而喻。如何将这些数据进行有序、有结构地分类组织存储,是我们所有数据从业者都要面临的一个挑战。如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置,而不是乱糟糟的堆砌在一起。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑转载 2021-06-16 09:01:24 · 378 阅读 · 0 评论 -
数据切片和切块 钻取 旋转
数据切片和切块 钻取 旋转1 切片和切块(Slice and Dice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“贷款银行、贷款质量、时间”三维立方体中进行切块和切片,可得到各贷款银行、各种贷款的统计情况。每次都是沿其中一维进行分割称为分片,每次沿多维进行的分片称为分块。2、钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。3 旋转(原创 2021-05-13 22:47:44 · 2589 阅读 · 0 评论 -
数据粒度的上卷和下钻
数据粒度的上卷和下钻上卷数据的汇总聚合,细粒度到粗粒度的过程,会无视某些维度下钻数据明细,粗粒度到细粒度的过程,会细化某些维度案例select * from table group by A;select * from table group by A,B;select * from table group by A,B,C;自上而下粒度变细,为下钻;自下而上粒度变粗,为上卷...原创 2021-05-13 22:43:27 · 1693 阅读 · 0 评论 -
Hive数仓之拉链表(原理、设计以及在Hive中的实现)
正 文0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。 分析一下拉链表的优缺点,并对前面.原创 2020-11-25 14:42:26 · 319 阅读 · 0 评论 -
数仓开发神器--DBeaver
DBeaver是一个SQL客户端和数据库管理工具。对于关系数据库,它使用JDBC API通过JDBC驱动程序与数据库交互。对于其他数据库NoSQL,它使用专有数据库驱动程序。DBeaver支持非常丰富的数据库,可以说只有你想不到的,没有它做不到的,开箱即用的DBeaver支持80多种数据库产品,主要包括:种类 名称 关系型 MySQL、MariaDB、PostgreSQL、Microsoft SQL Server、Oracle、DB2、Informix等等 分析...原创 2020-11-10 17:24:32 · 748 阅读 · 0 评论