原文《大数据中心架构、大数据存储、数据中心基础设施建设和运维方案》更多相关资料参考公众号:优享智库
大数据中心云架构设计
大数据中心云架构设计
大数据云中心包括iaas、paas、saas三层服务。
大数据中心数据处理
大数据中心数据处理
大数据服务中心建设
数据服务中心是整个智慧项目大数据项目核心组成部分,在规划建设过程中,坚持以数据资源为核心,面向数据应用与服务、信息数据资源标准化与管理,实现数据资源横向集成、纵向贯通、全局共享的运转模式。数据服务中心数据流转图和逻辑架构如下图。
数据中心逻辑架构图
整个数据服务中心逻辑组成部分有:数据存储、数据组织、数据处理、资源管理、数据服务支撑。
数据存储:基于大规模并行处理(Massively Parallel Processing,简称MPP)、Hadoop等分布式计算平台进行搭建,以满足项目行业结构化、图像视音频等非结构化多种类型格式的海量数据资源存储需求。
数据组织:对各类数据资源进行逻辑组织,形成基础数据资源库、专题应用资源库以及资源管理库,满足项目行业数据资源应用、管理与服务的需求。
数据处理:主要包括数据整合汇集、数据标准化处理、通用数据处理、专题数据处理。从多个层面对数据资源进行分析挖掘,为不同业务需求提供数据处理服务支撑。
资源管理:资源管理从应用资源、数据资源、服务资源以及标准资源多个层面实现数据服务中心信息资源的管理与标准建设。
数据服务支撑:数据服务中心实现了智慧项目云数据资源的存储和组织。主要包括基础数据资源库、专题应用资源库和资源管理库。
数据分析处理:面向具体业务需求,建立对应的数据分析处理模型,实现对数据资源的深度挖掘和综合利用。
大数据平台建设
数据集中统一管理后,由于一体化业务为在线运行的系统,为避免大数据应用对现有生产系统造成影响,本期单独建设一套大数据平台,通过ETL将生产数据抽取到大数据平台中,进行分析处理,建立数据仓库,为上层应用提供支撑。
基于大数据等新先进理念,融合MPP、Hadoop、OLTP以及HDFS分布式文件系统等数据处理技术,构建具有海量数据处理能力的项目大数据平台技术支撑体系。有效汇总整合内外部数据资源,实现对数据资源的统一管理、高度共享和高效利用,解决数据资源海量化、异构化,应用需求多样化、复杂化等现实问题,进一步提升信息资源开发利用水平,提升信息资源服务的能力和服务品质,深层次满足上层业务应用、管理决策支持和信息再生应用的需要,达到强化情报信息数据支撑,服务实战应用的目的。
完整的大数据集群应当包含4大部分:ETL集群、MPP集群、Hadoop集群和数据仓库,提供从数据抽取、清洗、转换、加载到数据存储计算及数据仓库建设的一整套完整的大数据解决方案。各节点通过万兆网口连接,满足集群网络IO密集型的要求。
• ETL集群建议不少于1个节点,完成从各种数据源抽取、清洗、转化和加载数据到大数据集群的工作。
• MPP集群建议不少于2个节点。MPP集群负责结构化数据的存储与计算。
• Hadoop集群至少应包含6个节点,以满足数据多个备份的高可靠性要求。Hadoop集群负责非结构化和半结构化数据的存储与计算。
• 数据仓库节点,将ETL集群、MPP集群和Hadoop集群导入的高度提炼汇总后的数据进行存储和分析,满足专业应用需要。
流程如下图所示:
流程图
数据标准化建设
数据标准化是数据服务中心建设的基础。在项目建设时根据项目信息资源标准,并根据实际情况进行完善。数据服务中心数据标准化工作主要以下几个层面出发进行建设:
l 数据内容标准化
通过依据现有相关标准内容,对整合的各类数据资源进行标准化处理,形成标准化数据资源,从而对各个项目业务部门提供标准化的数据资源服务。
l 资源管理标准化
通过对项目信息资源注册、梳理、对标等一系列的工作,建立标准化的资源管理机制,实现对智慧项目全部信息化资源的标准化管理。以管理推动项目信息标准化应用工作,逐步实现项目信息化建设的规范化、标准化。
l 标准化建设
数据标准化工作是一项长期的过程,随着信息化的升级和深入,智慧项目数据标准体系也在逐渐完善,所以通过制定相应的信息管理规范,必要时制定相关信息管理制度,来规范和长期完善数据标准管理平台,保证数据资源标准化工作开展和标准化工作成果的形成。
标准体系建设是智慧项目信息化的重要组成部分,也是项目信息化建设的基础,并贯穿项目信息化工作始终。
数据标准管理的主要作用有以下内容:一是对外应用系统提供标准化服务支撑,例如标准代码字典服务、项目主数据服务等,逐步实现项目信息建设的标准化。二是规范智数据服务中心内容,为数据服务中心标准数据资源库建设提供建设依据,同时基于数据服务中心对外应用系统提供标准化的数据资源服务。三是对数据资源管理提供标准化服务支撑,通过项目数据元标注实现数据资源的标准化关联。
数据资源标准(数据元标准、元数据标准、数据服务接口、数据传输和存储规范等)是项目信息化标准体系中的核心和关键内容,须优先编制和修订。
主题库目录建设
本期将智慧项目一体化业务系统数据库数据通过ETL工具抽取到大数据平台上进行存储和分析,并按照业务应用具体需要,通过二次抽取整合的方式,建立相应主题库,为上层应用提供支撑。