数据仓库
zhaojike
这个作者很懒,什么都没留下…
展开
-
数据仓库建设—维度建模
维度建模是DW/BI系统的核心,他是ETL系统的目标、数据库的结构、支持用户查询和制作报表的模型。建模要实现3个主要设计目标,分别是:能尽可能简洁的向用户展示需要的信息;能尽快返回查询结果给用户;能提供相关信息,以便精确的跟踪潜在的业务过程。 维度建模能使任何事情尽可能简单,但绝不是简化。在数据仓库和商业智能中,维度模型是给用户显示信息的首选结构,其比典型的原系统规范化模型更便于用户理解。维度建模中表更少,信息分组为对用户有意义的、一致的业务类别。这些类别称为维度,有助于用户浏览模型,因为可以...转载 2020-10-20 10:07:58 · 1470 阅读 · 0 评论 -
数仓构建流程
首先理解以下基本概念:1. 业务板块:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统。2. 维度:维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建模型,为分析需求服务。维度是度量的环境,是我们观察业务的角度,用来反映业务的一类属性 。属性的集合构成维度 ,也可以称为实体对象。例如, 在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。3. 属性(维度属性):维度所包含的表示维度的列称为维度属性。维度属性是查询约束条件、分组和报...转载 2020-10-20 09:55:13 · 4001 阅读 · 2 评论 -
数仓建设几个关键问题
数仓的功能以我当前的认知,数仓应该至少有下面三个职责:数据整合 统一口径 提高数据分析的效率下面详细说说这三点。数据整合数据整合是为了解决各系统的异构问题。对于大体量的公司来说,往往会投入大量的资源解决“数据孤岛”问题。当一个公司大了以后,随着部门、分公司的增多,信息系统很难再使用统一的系统,每个分公司可能会各自的系统,各个系统中数据结构定义往往是差异,由于这种差异的存在,A、B两个系统不能识别对方的数据,这就我所说的“信息孤岛”。信息好像在一个孤岛上,不能在其他系统中流转。好比,不懂转载 2020-10-19 11:14:24 · 1347 阅读 · 0 评论 -
大数据增量同步实现方案
目前做的项目使用阿里 DataX 作为不同数据源数据同步的实现工具。数据的批量一次性导入比较简单,对于增量数据需要对不同场景设计不同的方案。会变的数据增量同步每天全量同步如人员表、订单表一类的会发生变化的数据,根据数据仓库的4个特点里的反映历史变化的这个特点的要求,我们建议每天对数据进行全量同步。也就是说每天保存的都是数据的全量数据,这样历史的数据和当前的数据都可以很方便地获得。设定日分区,每天同步全量数据。--全量同步create table ods_user_full(..转载 2020-10-19 10:42:00 · 2162 阅读 · 0 评论