简介: 本文重点介绍大数据产品集通用解决方案,即大数据在线计算+离线计算一体化解决方案,并通过真实案例模拟来说明此通用解决方案在具体项目中是如何落地的。
概述
本方案重点要落地的业务是中央网信办网络安全应急指挥中心相关业务,由于需要处理的网络数据流量巨大,而且对实时和离线大数据计算分析均有要求,所以提供此在线离线一体化解决方案。
混合云某项目主要业务简介如下:
- 流量采集
流量采集技术是监控网络流量的关键技术之一,为流量分析提供数据来源。为了能够在复杂企业网中有效的分析网络流量。
- 网络探针
互联网探针(NET probe),侦听网络数据包的网络探针称为互联网探针。数据包捕获、过滤、分析都能在“互联网探针”上实现。
本文主要针对流量采集业务来构建场景。
适用场景
- 既要数据实时分析又要数据离线分析的业务。
- 数据量计算较大且分析实时性要求较高的业务。
- 需要备份长期大量数据且能支持查询的业务。
- 数据来源多种多样需要进行大量同步和处理的业务。
技术架构
首先来看看业务架构:由于数据量比较庞大,涉及产品众多,数据链路也比较复杂。
本实践方案基于业务架构图抽象,得出如下图所示的技术架构和主要流程,并依据此编写操作步骤:
从抽象的业务流程图中,可以看出在线计算和离线计算两条主链路,因此可通过本文大数据在线离线一体化解决方案来实施。
方案优势
- 支持离线EB量级数据计算,2w以上并发作业,支持灵活调度多任务并发。
- 实时计算延迟到秒级乃至毫秒级,单个作业吞吐量可达到百万级别。
- 支持冷热数据备份,降低运营成本。
- 支持无缝对接各类数据源进行分析和查询,10亿+数据聚合亚秒级响应。
方案实施
数据建模
业务数据量比较庞大,为了便于处理和分析,首先进行数仓建模,并进行数据分层处理,方便实施多维分析并提升整个系统查询效率,降低查询穿透率。
雪花模型建模
根据对流量采集业务分析,比较适合数据仓库常用建模方法——雪花模型。依据业务特征和雪花模型建模原则,完成数仓建模,具体如下:
从以上模型看出,存在两个事实表,分别描述采集机流量信息和采集机规则事件信息,另外三个维度表分别记录运营商,采集机和地域维度,方便后续的业务分析。
数据分层
离线和在线引擎的数据量非常大,如果直接对接BI做数据分析,会导致查询效率很低。因此需要进行数据分层,将海量的数据来源经过ETL,清洗,根据数据域和应用域抽取到ADS层,交给