搭建一款集数据采集、存储、搜索、加工、分析为一体的海关外贸企业大数据平台,融合结构化数据、非结构化数据,实现了统一数据架构,对海量异构数据的存储归档、信息组织、搜索访问、安全控制、分析可视化,以及数据挖掘、数据治理等,如图1所示。
1、数据分层
数据是分层次的,不同的数据其属性、处理方式、价值都是不同的:
(1)源数据:源数据是海关各个业务系统中生成的大量的业务生产数据,应加强备份和归档工作,防止数据的不完整和损坏。
(2)归档数据:归档数据又称为细节数据,海关外贸企业大数据平台需要抓取所有的源数据进行归档,形成特定完整的数据库。
(3)整合数据:对细节数据进行整合,形成按照主题存放的汇总数据集。
(4)指标数据:针对外贸企业不同维度计算生成内容丰富的指标数据源,为进一步做数据挖掘准备丰富的数据源。
(5)决策支持数据:用于决策分析系统、智能化分析系统数据。
2、数据整理
对于海关文件格式结构化数据可直接用ETL系统工具直接抽取数据,其他数据库数据则可用Sqoop工具抽取,放入HBase通道中,从而满足实时历史数据的查询需求。
- 文件格式数据:直接使用行内ETL工具直接导入到大数据平台中。
(2)实时变更数据:建立专用通道,支持数据实时装载到大数据平台中。
BulkLoader利用HBase数据按照HFile格式存储在HDFS的原理,使用MapReduce直接批量生成HFile格式文件后,RegionServers再将HFile文件移动到相应的Region目录下。
3、数据分类
对现有各种数据库的各类数据进行清洗、转换、并加载到大数据平台。根据代码标准,整合数据类别,形成数据覆盖全面、标准化、规范化的数据集。
4、数据存储
海关外贸企业大数据风控平台对结构化数据采用分布式技术的开源数据仓库,支持各种报表软件的访问和第三方软件集成,同时满足结构化数据的计算和存储。
5、加工数据
海关外贸企业大数据风控平台定义对数据的各种加工任务,主要表现在以下几个方面:
数据集成:根据原有的数据生成新的数据;如根据关联表格设置其他维度生成新的汇总表格等;
文件处理:将视音频文件、图片、邮件等转换成识别文字;
挖掘数据:对平台数据进行各类数据挖掘处理,如关联分析,分类,聚类,回归预测等;
计算指标:实时计算各类指标数据,如计算客户的月销售额,年销售额,进口口岸等。
6、分析数据
大数据平台以可视化方式呈现数据查询、数据视图、报表等。