浅谈数据仓库和大数据

本文探讨了数据仓库的定义及其与大数据的联系。数据仓库以数据库为基础,服务于决策分析,包括数据同步、调度、元数据管理等多个子平台。随着数据源多样化和数据量暴涨,大数据技术如Hadoop、Hive成为处理主流。数据仓库的服务对象也从传统的高管扩展到产品、运营等多个部门。未来,Data Lake和Data Vault等概念可能将得到更广泛应用。
摘要由CSDN通过智能技术生成

数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术,诚然,数据仓库以数据库为基础,但是他在需求、客户、体系结构与运行机制等方面与数据库存在重大的不同,Kimball说:"我们花了二十年的时间往数据库中加入数据,现在该是拿出来使用的时候了。"    ---摘自数据仓库工具箱:维度建模(第二版)

1.数据仓库理解

根据笔者自己的理解,数据仓库是一个抽象的概念,而实现的载体则是我们常见的各种数据库表。比如传统行业中用到的Oracle、Teradata(简称TD)、GreenPlum(简称GP),互联网行业中用到的Hive、Spark。它的一个主要应用点的体现就是我们企业中建设的数据平台

2.数据平台&数据仓库的组成

先宽泛的讲述下数据平台和数据仓库的组成

数据平台可划分为如下子平台:数据同步平台、数据仓库、调度平台、元数据管理平台、即席查询平台、数据可视化平台、数据质量检测系统

数据仓库由于是一个抽象的概念所以可以简单的理解为不同粒度的数据层,比如:数据缓冲层(存放当日增量数据)、数据明细层(存放最全的明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(一般就是一些宽表,包含多维度和指标,方便用来做多维分析)、数据应用层(主要是开放给业务侧使用,多存放粗粒度的数据报表)

每个公司对每层的命名不一样,所以就不用什么ods,dw等来标识各个层级。

3.数仓和大数据的关系

在写对数仓的理解的时候其实已经点出了数仓和大数据的关系,现在讲一下我个人理解的数仓演变历史以及为什么要用大数据来实现数仓。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:数字5221数字89307,私信管理员即可免费领取开发工具以及入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值