wzy0623的专栏

数据库、数据仓库、大数据

基于Hadoop生态圈的数据仓库实践 —— 环境搭建(三)

三、建立数据仓库示例模型         Hadoop及其相关服务安装配置好后,下面用一个小而完整的示例说明多维模型及其相关ETL技术在Hadoop上的具体实现。 1. 设计ERD         操作型系统是一个销售订单系统,初始时只有产品、客户、订单三个表,ERD如下图所示。      ...

2016-06-29 16:01:31

阅读数:14844

评论数:5

基于Hadoop生态圈的数据仓库实践 —— 环境搭建(二)

二、安装Hadoop及其所需的服务 1. CDH安装概述 CDH的全称是Cloudera's Distribution Including Apache Hadoop,是Cloudera公司的Hadoop分发版本。有三种方式安装CDH: . Path A - 通过Cloudera Manager自...

2016-06-27 16:16:11

阅读数:3319

评论数:3

基于Hadoop生态圈的数据仓库实践 —— 环境搭建(一)

一、Hadoop版本选型         主流的Hadoop生态圈有Apache、Cloudera、HortonWorks、MapR几个不同版本,其中Cloudera、HortonWorks、MapR这几个是开源产品的商业分发版,其价值主要体现在两个方面:(1)对Hadoop生态圈中各种各样的组件...

2016-06-25 08:23:16

阅读数:3632

评论数:3

基于Hadoop生态圈的数据仓库实践 —— 概述(二)

二、在Hadoop上实现数据仓库 (大部分翻译自《Big Data Warehousing》)         数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 —— 大数据。对许多组织来说,传统关系数据库已经不能够经济地处理他们所面...

2016-06-25 08:17:01

阅读数:10229

评论数:4

基于Hadoop生态圈的数据仓库实践 —— 概述(一)

一、什么是数据仓库         一种被广泛接受的数据仓库定义是Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的 —— 数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持决策。它主要的目标是分析和处理数据,和传...

2016-06-25 07:45:55

阅读数:6489

评论数:4

基于Hadoop生态圈的数据仓库实践 —— 目录

第一部分:概述 一、什么是数据仓库 1. 操作型系统和分析型系统 2. ETL 3. 数据需求 4. 多维数据模型基础 二、在Hadoop上实现数据仓库 1. 大数据的定义 2. 为什么需要分布式计算 3. Hadoop基本组件 4. Hadoop生态圈的其它组件 5. Hadoop生态圈的分布...

2016-06-25 07:35:43

阅读数:2203

评论数:1

CDH 5.7.0 离线安装详解

一、环境 1. IP和主机名,所有主机都可以连接互联网 172.16.1.101 cdh1 172.16.1.102 cdh2 172.16.1.103 cdh3 172.16.1.104 cdh4 2. 硬件资源 每个机器:CPU4核、内存8G、硬盘100G 3. 操作系统 CentOS r...

2016-06-07 10:45:06

阅读数:6349

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭