一、数据仓库的介绍
1.1 数据仓库的基本概念
数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的 BI (商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

1.2 数据仓库的主要特征
数据仓库是 面向主题的(Subject-Oriented)、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant)数据集合,用以支持管理决策。
- 主题性。不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。这里的主题怎么来理解呢?比如对于城市,“天气湿度分析” 就是一个主题,对于淘宝
本文详细介绍了数据仓库的基本概念、主要特征和与数据库的区别,强调了数据仓库的分层架构及ETL过程。接着,文章重点讲述了Hive作为数据仓库工具的角色,解释了Hive的用途、体系结构和与关系型数据库的差异。内容涵盖Hive的安装、交互方式以及数据库和表的操作,包括创建、删除、查看数据库和表,以及数据类型的使用。最后,讨论了Hive中的数据存储格式和操作,如装载、插入和导出数据。
订阅专栏 解锁全文
818

被折叠的 条评论
为什么被折叠?



