数据中心不就是理解为搭建一套交换系统,将数据落地就OK了?
最近写投标文档,项目要建立大数据中心,就没怎么考虑还是按照10年前的想法,数据中心不就是理解为搭建一套交换系统,将数据落地就OK了,就没怎么思索按照历史经验就去写方案,结果被专家一顿批,提出数据汇聚、数据治理的概念,这才开始小心翼翼的开始学习。经验害死人,搞IT就得不断的学习,不能固步自封。先将一些学习总结分享一下。有拍砖的可以直接下手了:)
建数据中心离不开数据,以前设计数据库都是从事务性数据库考虑(做的都是业务系统,思维模式太固定了),没有从数据仓库的角度来统管分析。以下是从数据仓库的角度考虑数据中心的建设:
政府的数据中心建设基本就包括这几个步骤:
1、数据源:支持不同部门的各类来源数据,包括文件型、数据库型、Http服务型和JMS消息型,可以读取各类数据
2、数据汇聚:这里是通过软件实现原始数据的读取存储,将不同的数据都存储到各自的数据库;因为保证与每个部门不发生扯皮的问题,所以必须保证读取的原始数据是对的,要独立存储不做任何加工,组织就按照同步的部门科室进行存放;所以就对应数据仓库的ODS层
3、数据处理:这里是对汇聚的原始数据进行初步的ETL处理,实现对数据的清洗、加工,补全各类信息(包括编码字典解释等),这个步骤的目的是实现数据的规范化