一、 什么是数据湖
关于数据湖,现在是众说纷纭,有人认为数据湖只是数据存储,是旧瓶装新酒,没啥新义;也有人认为数据湖主要用于冷数据的备份,时间一长,基本等同于数据沼泽;但更多的人倾向于数据湖是解决现有大数据场景问题的一套完整的解决方案。
亚马逊定义的数据湖是一个是集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据,并运行不同类型的分析,从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
微软定义的数据湖是微软Azure公共云平台的一部分,该平台包括200多种产品和云服务。它为结构化,半结构化或非结构化数据提供了无限的存储空间。它可以用于存储任何大小的任何类型的数据。
参考主流公有云服务提供商的数据湖产品,现在的数据湖不仅包括数据的存储,还包括数据的分析计算,是一整套解决方案。实时金融数据湖,是数据湖在中原银行实时场景下的理解还有应用,希望本文可以给大家带来一定的参考。
二、 背景概况
(一) 建设背景
-
银行的决策方式正发生巨大的变迁
银行传统的数据分析主要针对收入、成本、利润、监管等财务数据分析。随着互联网金融的发展,银行业务逐步受到挤压,现在银行需要更多的了解客户,做有针对性的实时化营销和决策分析。即决策方式已经从财务分析转向面向客户(KYC)的实时分析和决策。 -
在银行体系下,传统的数据仓库还无法替代
银行面向收入、成本、利润、监管等财务数据的分析,需要规范、精准的数据加工,而面向规范、精准加工的传统数仓体系,能够较好的解决问题,这已经形成一个共识并存在很长时间,并且现在没有可以完全替代数据仓库的方案,即银行的数据仓库体系在很长时间内仍会是主流方案。 -
银行数据仓库无法有效支持创新业务发展需求
数据仓库整体变更困难,单位存储成本较高,不适合海量日志、事件等变更频繁,实时性高的数据,且对半结构化和非结构化数据兼容差等,也决定了传统数仓无法有效支持银行业务不断创新发展的需求。
(二)实时金融数据湖
实时金融数据湖建设背景阐明了银行