数仓笔记
文章平均质量分 64
新手路上的程序员
这个作者很懒,什么都没留下…
展开
-
数据治理闲谈
第一层: 数据分层、分割数据域、数据准确性、数据产出的稳定性 第二层: 数据血缘、打通数据孤岛(OneID)、统一数据服务(OneService) 第三层: 成本分摊原创 2022-03-04 11:34:22 · 248 阅读 · 0 评论 -
实时数仓的思考
目前主流的数仓构建思想都是以维度建模为主,以下都是在工作中的一些思考和想法。 1.维表延迟问题 主流join动态无时序维表时如何解决因为维表延迟而导致的数据不准问题? 目前来看好像只能通过批处理来修复流数据。如果通过批处理来修复那还能说是kappa架构? 2.历史数据的处理以及新增需求后的刷数 这里说的历史数据处理和刷数的需求在kappa架构不是不能实现而且需要考虑到时间长度的问题。当数据量级上去后使用标准的流式架构处理大量的历史数据(ETL)是一个非常耗时的问题。有时一天都完成不了刷数任务而且由于是使原创 2021-08-03 14:32:35 · 373 阅读 · 0 评论 -
数仓笔记 二
1.事实表分类 1)事务事实表 事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务一条记录。一旦事务被提交,事实表 数据被插入,数据就不再进行更改,其更新方式为增量更新。 2)周期快照事实表 周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等。典型的例子如销售日快照表、库存日快照表等。它统计的是间隔周期内的度量统计,如历史至今、自然年至今、季度至今等等。 ...原创 2020-12-15 14:17:17 · 217 阅读 · 0 评论 -
离线数仓拉链表
1、创建表加载数据(准备工作) -- 用户信息 DROP TABLE IF EXISTS test.userinfo; CREATE TABLE test.userinfo( userid STRING COMMENT '用户编号', mobile STRING COMMENT '手机号码', regdate STRING COMMENT '注册日期') COMMENT '用户信息' PARTITIONED BY (dt string) row format delimite原创 2020-09-20 14:48:18 · 323 阅读 · 0 评论 -
数仓笔记 一
好久没写博客了,最近一直在忙数仓迁移的事,从SqlServer迁移到impala+kudu上,没使用hive。建立一套大数据的数仓,数据接入用的streamSets。 说实话之前好长一段时间都是在练手,不停的将原有SqlServer中的数据导入到kudu中。 1.其中有个缓慢变换维还挺有意思的。比如说以用户为栗。用户中有两个比较重要的属性,用户所在城市,用户类型。当着两个属性其中一个发生变化时...原创 2019-07-11 12:53:38 · 610 阅读 · 0 评论