认识数据仓库
什么是数据库?
1.数据库(Database)是按照数据结构来组织、 存储和管理数据的建立在计算机存储设备上的仓库
2.数据库是长期储存在计算机内、 有组织的、 可共享的数据集合。 数据库中的数据指的是以一定
的数据模型组织、 描述和储存在一起、 具有尽可能小的冗余度、 较高的数据独立性和易扩展性
的特点并可在一定范围内为多个用户共享
那么, 数据仓库是?
数据仓库发展史
数据仓库概念最早可追溯到20世纪70年代, 希望提供一种架构将业务处理系统和分析处理分为不同的层次
20世纪80年代, 建立TA2(Technical Architecture2)规范, 该明确定义了分析系统的四个组成部分: 数据获取、 数据访问、 目录、 用户服务
1988年, IBM第一次提出信息仓库的概念: 一个结构化的环境, 能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量;
抽象出基本组件: 数据抽取、 转换、 有效性验证、 加载、 cube开发等, 基本明确了数据仓库的基本原理、 框架结构, 以及分析系统的主要原则
上面的指标库 是 公用的,不同部门 看到数据指标 是不同的!!
基于大数据的数仓构建特点
随着我们从IT时代步入DT时代, 数据从积累量也与日俱增, 同时伴随着互联网
的发展, 越来越多的应用场景产生, 传统的数据处理、 存储方式已经不能满足日益增
长的需求。 而互联网行业相比传统行业对新生事物的接受度更高、 应用场景更复杂,
因此基于大数据构建的数据仓库最先在互联网行业得到了尝试
尽管数据仓库建模方法论是一致的, 但由于所面临的行业、 场景的不同, 在互
联网领域, 基于大数据的数据仓库建设无法按照原有的项目流程、 开发模式进行, 更
多的是需要结合新的技术体系、 业务场景进行灵活的调整, 以快速响应需求为导向