数据仓库
离线数仓各类知识总结
鱼在江2012
sql boy
展开
-
数据仓库的价值
传统数据库,是数据仓库数据的来源(之一),但他们能提供的服务不同,数据库提供即时的curd操作服务,而数据仓库提供海量面向分析人员数据服务。数据仓库可以提供什么价值?在上面学生信息管理系统的举例中,需求十分的简单,在数据库中直接group by都可以看到结果。但如果我们的分析需求变得复杂的时候,数据仓库便能提供远超数据库的使用体验。一个比较典型的场景:新增用户的分析。比如我在一个网游公司,后端有一张user表,记录了所有的用户数据,每天都会有新的用户注册,所以每天都会有新的数据Insert进原创 2022-03-04 16:47:48 · 679 阅读 · 0 评论 -
数据仓库维度建模流程
对数据分析越来越深入,越来越发现数据标准化的重要性,再高明的数据分析技术,没有规范统一的数据仓库,也是“巧妇难为无米之炊”。遂从头再对数据仓库技术进行一边梳理。1. 维度建模理论概要1.1 维度设计的主要流程1.1.1 选择业务过程业务过程是组织完成的操作性活动,例如:获得订单、处理保险索赔、学生课程注册或每个月每个账单的快照等。业务过程事件建立或获取性能度量,并转换成事实表中的事实。过程定义了特定的设计目标以及对粒度、维度、事实的定义。1.1.2 声明粒度粒度用于确定某一个事实表中原创 2022-03-04 16:31:09 · 604 阅读 · 0 评论 -
数据治理实践
美团配送数据治理实践 - 知乎原创 2022-03-04 17:07:57 · 197 阅读 · 0 评论 -
什么是可加,半可加,不可加事实?
众所周知,数据仓库的事实表中是有数字度量的,一般会根据这些数据度量以及提前规定好的一致性维度来进行统计等工作。那么事实表中的数字度量分三种:1.可加事实,2.半可加事实,3.不可加事实下面让我们来看看它们的定义与区别1.可加事实可加事实指的是该度量可以按照和事实表关联的任一维度进行汇总。比如商品的单价,可以按照品类维度进行汇总,按照店铺维度进行汇总等等。(20201105修正,这里的例子应该是每天新增人口数,这个事实可以基于各个关联的维度汇总,商品单价的话不能基于时间维度汇总,应该属于半原创 2022-03-04 16:25:13 · 1838 阅读 · 0 评论 -
数据表的类型
全量表顾名思义是存储了全部数据的表,全量表没有分区的,所有数据都储存在一个分区中。全量表存储的是截至到目前最新状态的全部记录。增量表增量表是相对于全量表而言的,增量表是每次把新增的数据追加到原表中,增量表中每次新增的数据单独存储在一个分区中。快照表快照表就是截至过去某个时间点的所有数据,关注更多的是过去某个时间点的状态,即快照表主要存储的是历史状态的表。每次快照的数据单独储存在一个分区中。拉链表拉链表储存了某个主体的一整套连续动作的信息。与快照表类似,但拉链表储存的是在快照表的基原创 2022-03-12 16:31:47 · 1169 阅读 · 0 评论