根据浅显的数据仓库建设经验,结合Teradata TSM数据仓库建设方法论,谈谈如何构建稳定成熟的数据仓库
如果在初期建设没有一个完整的解决方案和长远的发展目标,在集市或者仓库不断扩大最终成为企业级的数据仓库时就不可避免地出现数据质量差、加载混乱、模型不稳定等一系列问题。
我们可以从硬件平台、数据库(平台)及工具、实施方法论、模型、服务团队 5个方面阐述:
(1)硬件平台,硬件平台选型至关重要,因为一个数据仓库搭建之后,一般来说5年内不会发生变更,基于硬件是否能够承载数据的快速增长和数据的处理能力以及硬件的稳定性都决定了数据仓库是否稳定,强健。
(2)数据库(平台)及工具,当前除了商业数据库以外,那么开源的大数据平台有Hadoop、Spark,开源数据库PostgreSQL,Mongo DB,当然现在主流的还是Hadoop+MySQL结合使用。 在工具方面,需要有一套数据管理、数据分析和数据挖掘的工具或者平台。
(3)实施方法论:数据仓库实施方法论与普通的项目实施方法论就有所不同。对于传统的应用系统开发项目,为了避免在项目开发过程中产生范围蔓延镀金的现象,前期需求收集、需求分析的时间会比较长,因而系统需求一般比较明确,上线时一次性交付,有固定的维护期限,而对于数据仓库项目,由于仓库本身的性质和业务人员对仓库概念的了解程度,前期需求一般不甚明确,数据仓库建设大都从少量需求开始, 经过业务系统源数据入仓等漫长的积累过程,问题得到了解决,业务得到了改善,在此过程中,新的业务需求会不断地提出来,仓库建设是一个循环往复的过程。
从策略、研究、分析、设计、安装、开发、集成、管理8个实施阶段。
策略:策略阶段的目标是对将要建置数据仓库的企业提供从哪些业务部门开始入手的建议,共有机会评估和企业评估两项服务
研究:研究阶段的目标是建议企业按最大化投资回报(ROI,Return on Investment)制定开发的优先级。
分析:分析阶段的目标是明确业务需求,业务建模,与现有系统匹配。
设计:设计阶段的目标是定义数据仓库技术体系架构,完成详细设计。
安装:安装阶段的目标是数据仓库基础设施安装或升级。许可的情况下,在安装场地进
行硬件安装、升级、扩容等工作。
开发: 开发阶段的目标是创建数据库,编写、定制、测试数据仓库组件。要负责按照数据映射完成 ETL 的设计、开发和单元测试工作,并建立一套完善的、自动化的 ETL 体系,完成对数据抽取、清洗、加载与转换程序的调度管理。
集成:集成阶段的目标是组装数据仓库组件。
管理:管理阶段的目标是确保数据仓库持续提交可靠的、 可预测的价值。管理阶段要完成的工作包括容量规划、发现和解决性能问题、确保业务持续性
(4)模型:模型是产生数据价值的源头,一般由行业经验丰富的模型师构建,是整个数据仓库的灵魂所在。
(5)服务团队:即一个数据仓库需要从平台建设,数据管理,数据分析,数据挖掘,数据运营等团队,结合行业经验和数据仓库实施经验,这样就能够协迅速找出企业价值并降低风险