![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 92
数据仓库
Fouradam
这个作者很懒,什么都没留下…
展开
-
数仓模型理论
1 数仓介绍2 建模理论建模的目标:性能、成本、效率、数据质量中找到平衡点2.0 三范式123要求逐渐严格每一列不可分割属性要完全依赖于主键,不可以只依赖一部分(数据重复很多)案例中主键是学生id和课程,所属系和系主任只依赖学生id3. 主键以外的字段没有依赖关系2.1 ER(Entity Relationship)实体模型Bill Inom用这个建数仓,不现实,哪有那么多时间梳理所有的实体和关系,而且业务也在飞速变化,完全跟不上趟。ods dwd 基本跟数据库来的数据原创 2020-08-28 17:53:58 · 862 阅读 · 1 评论 -
数仓技术架构&采集同步
数据同步工具datax也有集群模式了,现在性能应该还好。sqoop就是调度了map任务集群加机器了记得要在数据库那边加入白名单Flume几十上百台日志服务器的话,直接往hdfs上写也不现实,一般会做两层flume,第二层放个三两台再往hdfs写。一般会后面布kafka,实时离线都从kafka消费,保证数据统一。调度系统Oozie与hadoop、hive、spark有版本依赖关系,注意jar包冲突可以时间触发,还可以数据触发azkaban在报警、失败重启方面比oozie差一些o原创 2020-08-31 23:00:39 · 691 阅读 · 1 评论 -
数据质量管理
阿里做了十年数仓也才打通整个数据质量管理,不是一个两个数仓的人说要管质量就能管的了的。。。。方方面面都得考虑数据质量控制环节1 数据生产环节业务开发数仓说不上话,现有业务后有数仓,起初可能考虑不到,业务变化了等2 采集同步阶段尽量统一标准,控制好边界3 数据模型设计维度退化可能造成数据不一致=>存好历史状态,保证元数据字典完整,尽早计算下面就不会各算各的了4 ETL开发 & 指标体系监控机制才能保证数据的及时性统一口径定义,这个事也不是一个小技术人员就能搞定的,原创 2020-09-01 16:35:18 · 372 阅读 · 0 评论 -
维度建模详解
星座模型只是星型模型的维度公用,类似这种实际开发中,针对某一主题可以有明确的星型模型,星座模型啥的。但是众多主题间也存在维度公用的情况,这样交织在一起形成一张大网,很难说是啥模型吧。1 维度设计1.1 代理键维度表主键,关联事实表解决办法:自创一个自增的id,取代source+id这种判断方法所以有了代理键这个东西:实现方法:前一天gid的max+新增数据的行号,就是增量的gid了。1.2 稳定维度1.3 缓慢渐变维 => 拉链表这样这个id就不唯一了,跟事实表关联的原创 2020-09-01 23:42:22 · 4153 阅读 · 0 评论 -
数仓规范
1 设计规范埋点规范见 数仓技术架构这个博客分层大家也都差不多,不过流量为主的数仓就比较千奇百怪的2 命名规范先把常用的术语抽出来,完了统一编个名字2.1 表的命名规范层_主题_名字_周期ods的标记出源系统2.2 字段命名2.3 脚本命名跟产出表同名导入导出的也标记一下导入导出的这个导出的应该在exp后面加上目的地(BI),这样同一个表导出多系统也不会重名了3 开发规范避免耦合,方便定位错误sql脚本注意对齐,不用tab...原创 2020-09-02 22:51:34 · 639 阅读 · 0 评论