某电信运营商基地经分系统建设——海量数据高效加工及快速查询响应

项目背景

某基地是某电信运营商集中建设、服务全国的公益性民生信息服务平台。随着该基地业务规模和种类的不断拓展,数据规模以前所未有的方式增长,数据类型呈现多样化发展的特点,传统的数据管理能力已经不能满足现有业务发展的需要,提升数据的集中存储和数据资产管控能力迫在眉睫。此外基地业务对于数据的开发和利用也呈多样化要求发展的趋势,表现在数据标签的生成、数据挖掘模型的建立、KPI指标的展现与监控等等。基于这种发展要求,该基地也非常迫切建立新型架构的用户数据分析平台以满足现有业务的发展需要。当时基于小型机+传统关系型数据库构建的经营分析系统,对于基地数据分析等大数据应用存在着扩展性差、性能随数据增加而下降、系统无法灵活变更数据模型以及数据库优化代价高等关键问题。该基地用户数据中心分析平台的建设以实现有效聚合基地数据,实现海量数据高效处理为目标,本期建设采用先进的仓库架构、模型及软件功能,进行规范的基地数据资产管控,实现内部数据有效整合。

需求分析

该基地用户数据中心分析平台实现内部数据的有效整合,通过自助取数、API等多种对外开放能力,将标签、指标能力对外进行提供。该平台为角色用户、业务提供了面向市场的营销支撑能力:
● 实现数据的集中存储及数据资产的集中管理;
● 实现与业务平台和支撑平台的上下行数据接口;
● 实现与重庆业务大数据平台的接口。
作为本项目所实现的分析业务目标包括:
● 指标展现(KPI、报表),数据指标:6个业务,共135指标;
● 数据标签:6个业务,共734标签;
● 数据挖掘:6个业务,每个业务1个模型,共6个模型;
● 标签对外服务:通过自助取数、API等多种形式对外进行标签对外服务。
作为系统数据仓库承载的总数据规模,数据承载60TB数据量,每日入库数据为200GB。整个分析业务相关的数据涉及近10万张表,数据每日的日次处理需要在次日业务时间(8:30)开始前完成。

解决方案

本期平台架构如下包括如下几部分内容:
● 数据接口:本平台聚合现有业务数据,包括:大数据平台、核心平台、以及相关各业务平台数据等;接口数据包括从各个业务系统收集的天气、生活、工作、农情气象、政务、核心平台、营销支持、基地网站、热线等各类业务数据;
● 数据计算和存储:整体仓库采用MPP架构实现高并发、高性能的数据处理能力。数据仓库由ODS、DWD、DW、DM组成,形成面向应用的数据仓库模型架构;
● 数据应用:系统对外提供指标和标签服务;
● 数据共享:在服务提供形式上,对外实现API、文件、消息三类数据共享方式;
● 数据资产管理:提供数据的统一调度、统一监控、统一分发。
作为本系统的数据存储和管理层的数据仓库平台,采用GBase 8a MPP Cluster在MPP内部存储和管理从各个系统收集并清洗过的ODS数据,并在ODS之上利用MPP数据库强大的复杂关系处理能力、数据关联运算能力,进行逐层加工,形成库内DWD、DWA的数据仓库层,并从数据仓库层的数据导出DM数据集市数据供上层应用实现指标运算、标签算法和自助取数处理。对于ODS层的94156张表、DW层的7219张表,系统在每天夜间2:00完成各类数据入库处理后,能够保证在次日的8:30业务时间开始前完成所有的指标计算和标签生成工作,大大提升了数据处理的能力。
在这里插入图片描述

价值体现

● 快速上线:GBase 8a MPP支持SQL92标准,语法上与传统的基于DB2的数据仓库能够最大兼容,缩短了应用开发的周期,节约了项目人力投入;
● 支持海量数据:GBase 8a MPP承载了整个基地业务分析系统的核心数据仓库作用,负责逐层数据加工,基于高效的复杂关系运算和数据关联运算能力,保证了对海量多样的业务数据的整合处理能力和及时的数据加工能力;
● 快速查询响应: GBase 8a MPP作为数据仓库平台,大幅提高数据定位效率和处理并行度,实现在一种平台上同时支持高效的离线批处理和自助取数等交互数据处理模式。

©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页