数据仓库
yaofangxugo
邮箱:1427573305@qq.com
展开
-
大数据之路~第一章 总述
    接下来,我们以阿里巴巴大数据架构图来介绍。    大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):    1 数据采集层转载 2019-02-01 15:14:21 · 248 阅读 · 0 评论 -
大数据之路~第三章 数据同步
    大家可能对命名规范重视不太够。在多年的工作中,碰到太多由于命名不规范,导致代码混乱和数据管理困难等问题。这个问题在元数据管理时,体现得特别重要。当然,每个公司的命名规范不一样,只要做到易理解、易管理就行。接下来,说说自己的理解。1 表    表的命名首先按数据分层和主题来划分来定规范。 &nb转载 2019-02-01 15:24:03 · 283 阅读 · 0 评论 -
大数据之路~第四章 离线数据开发
转载 2019-02-01 15:40:50 · 454 阅读 · 0 评论 -
大数据之路~第十章 维度设计
1 维度设计基础 1.1 维度的基本概念 维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述称为“维度”,维度是用于分析事实所需要的多样环境。 转载 2019-02-01 15:46:59 · 776 阅读 · 0 评论 -
大数据之路~第十一章 事实表设计
1 事实表基础2 事务事实表3 周期快照事实表4 累积快照事实表5 三种事实表的比较6 无事实的事实表 第一种是事实类,记录事件的发生。比如用户的浏览日志。 第二种是条件、范围或资格类的,记录维度与维度多对多之间的关系。7 聚集型事实表 聚集的基本原则 &nb...转载 2019-02-01 15:49:15 · 430 阅读 · 0 评论 -
大数据之路~第八章 模型概述
原 理论篇~第三章 数据模型设计 2017年09月24日 10:07:02 wer0735 阅读数:3455 </div> <div class="operating"> ...转载 2019-02-01 15:51:45 · 714 阅读 · 0 评论 -
大数据之路~第十五章 数据质量
随着IT向DT时代的转变,数据重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极重要的角色。而对于日益重视的数据,如何保障其质量也是业界普遍关注的话题。1 数据质量保障原则2 数据质量方法概述 阿里的业务复杂,种类繁多的产品每天产生数以亿计的数据,每天的数据量在PB级以上,而数据消费端的应用又层出...转载 2019-02-01 15:53:45 · 416 阅读 · 0 评论 -
大数据之路~第十二章 元数据
1 元数据概述1.1 元数据定义阿里常见的技术元数据:1 分布式计算系统存储元数据,如MaxCompute表、列、分区等信息。记录了表的表名、分区信息、责任人信息、文件大小、表类型、生命周期,以及列的字段名、字段类型、字段备注、是否是分区字段等系统。2 分布式计算系统运行元数据,如MaxCompute上所有作业运行等信息;类似于Hive的Job日志,包括作业类型、...转载 2019-02-01 15:54:49 · 617 阅读 · 0 评论