回首数据平台建设心路,探索数据架构新方向
一、引言
本人钱包里有几百块一直没有花出去的现金,在钱包中睡了大概有几个月,不是我这几个月没花钱,而是因为这几个月身边结婚的少了,礼金——现金于我的最大使用场景。尤其今年新冠肺炎疫情的发生,培养了人们诸多新型消费习惯,无接触购物、直播带货、社区团购等新渠道、新服务不断涌现。随着宽带基础设施的完善、5G时代的到来,在线娱乐、在线教育、在线医疗、短视频直播等接受度越来越高,但现金支付的场景越来越少,几乎日常生活中全部的支付场景已经线上化,数字化的时代已经悄然来临。作为一个大数据从业者,我主要从事着数据平台开发的工作,大数据平台该如何建设和发展的问题经常会让我陷入沉思,这里从个人角度出发,分享我对数据平台与数据架构的浅薄观点。
二、对平台的简单认识
(一)关于数据集成
数据集成指的是将多种、多样的数据进行汇聚的一种行为,大数据中我们常用ETL来进行更加详细的表达这种行为。ETL是每个大数据平台不可或缺的一部分,宗旨一般都是为企业提供稳定、可靠、安全的数据传输服务,多年前以DataX为代表的离线数据同步工具已经具备了多源异构数据同步能力,而近年来离线存储体系并没有发生大面积的更迭,所以如果一个ETL产品的定位是离线数据同步,那经过这几年的沉淀和发展其产品应该已经足够成熟。
但是技术的推陈出新总是让人措手不及,当前阶段新的业务需求和下游技术的发展都对更具时效性的ETL提出了诉求,比如需要目标端对接更多管道类大数据组件(如:Kafka、Pulsar等)以及源头端需要适配更多接数据库及组件(如:Canal、Databus、Maxwell、Debezium等),而下一阶段将数据“入湖上云”更是一个触手可及的市场,可以肯定的是各大云厂商会带着自己的迁移工具到企业中去,而一个横向的、跨云的数据同步服务工具也会有市场空间的。综上来讲,一个离线数据同步产品如果想快速响应新的诉求并抓住下一阶段的市场机会,一次系统架构调整相比较于在现有产品上添砖加瓦应该是更具有意义的,或者说一个全新的技术体系产品也可能是更好的选择。
(二)更好的离线计算
根据专家估计,随着近年来数据规模呈几何级数高速增长,到2030年需要处理的数据量会大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”,由此引起的整个网络、存储、计算、传输、结构等方面的变革我们暂且不展开。本文我们将讨论内容限定为企业内部,那么从谷歌发布大数据的三篇文论至今,大数据的存储和计算的技术已经很成熟,现有的计算框架足以应对当前的计算需求,但,也只是应对。企业级计算能力的前提下,如何更好的将金融、证券、保险等行业的跑批耗时大幅度的压缩,我认为可以从以下三方面入手:
-
打造存算分离的架构
通过将数据的存储和计算分离,存算分离能够有效避免服务器的浪费、降低服务器更新频率、提高可扩展性、提高资源利用率,才能做到动态的向计算密集型作业分配更多的算力(算力的潮汐),最终成为降低企业IT成本的直接、有效手段。 -
优化存储
在数据方面通过对现有数据进行去重、拉链、生命周期管理、冷热数据分离、清理外围数据等方面的优化,降低存储清理,提高数据价值密度。在存储架构方面通过对数据块大小调整、小文件管理、元数据管理等一些方法,有效降低NameNode请求压力,从而大幅的提高NameNode在线率。 -
磁盘故障感知
根据上面“硬盘驱动器故障浴盆曲线”(左图)及“前四年硬盘驱动器故障率”(右图)可以看出,硬盘故障是影响跑批时效性的一个定时炸弹,不管近年来的磁盘质量有多大提升,也只不过是延长了故障爆发的时间而已,所以在这样的情况下,做到磁盘故障感知尤其的重要,我认为磁盘故障处理与感知有下面三个阶段:- 现阶段:发现故障->隔离坏盘->磁盘换新->数据平衡
- 下一阶段:预测->重点观察->隔离坏盘->磁盘换新->数据平衡。本阶段的难点工作在于“预测”,我认为可以根据磁盘的生产时间、上架时间、良品率、同型被更换数量、近期R/W速度波动……等等指标进行建模,实现磁盘的故障预测,并根据实际结果对模型调优。
- 最终阶段:通过存算分离的架构,将计算任务上收而非当前的下放。接下来将数据上云,进一步释放本地存储压力,解放数据运维工作,专注云上计算。
(三)离线&实时&AI
有一句话是:“实时计算不会取代离线计算”,谈“替换”需要太大的勇气,更何况在一些传统数据架构企业或业绩导向企业,实时计算更多的是在扮演一些体验优化、离线计算功能补充的角色。当前的应用深度和企业数据架构并不利于使实时计算成为一个业务驱动引擎。而在诸如滴滴、顺丰等互联网与物流企业中,他们对实时计算有天然的需求,便捷的实时数据获取,使得实时计算平台可以实现大量的低延时业务的需求;阿里巴巴内部已经基于实时计算引擎(Flink)改造出了一个通用算法平台(Alink),可以看到的是在不久的未来,离线、实时、AI一定是朝着融合的方向发展。这里我们可以先看一下目前实时计算的架构图,如下:
相对低成本的实时数据获取是实时计算发展的基础,得益于Flink技术的繁荣发展,未来的实时计算将会成为一座桥梁,一边连接传统的离线计算一边探索与AI的融合,简单罗列如下:
- 基于Hive元数据且特定场景下的流批一体;
- 实时计算支持特征工程、在线学习、在线预测等 AI 场景;
- 摆脱中间件以来,不断完善的CDC能力;
- Flink中更强大的复杂事件处理(CEP)服务;
三、平台发展新机遇
如今塞班、黑莓纷纷退出历史舞台,三星手机的销量也今非昔比。这么多年技术领域不变的是一直在变化,而在变的只是变化周期和速度。2C或靠平台运营来实现公司主要收入的商业模式更容易收到技术革新的冲击或带动。在数字化转型的大趋势下,以推动企业现有架构变革或希望通过新技术、新思路来丰富业务增长点的探索显得迫切而有必要。所以在渠道拓展方面对新技术的嗅探、新产品的孵化、新的对外合作模式的创新等,都是一些具体的方式;在技术方面进行探索,最大化的通过技术的变革来创新业务模式、升华服务质量,比如:
- 推进HTAP的研究和探索,更快捷的支撑实时决策场景;
- 拥抱云计算,推进海量数据的敏感字段加密技术,实现将密态数据或非敏感数据上云,降低企业内部存储、运维成本,实现更快的基于云的弹性计算;
- 通过边缘计算,集合内部大数据平台和云上资源,对IoT、客户、设备等数据进行计算和模型预测;
- 丰富平台产品矩阵,随着5G、云计算、边缘计算的到来,首先对现有系统进行云原生改造;其次积极探索新技术可能拉动的产品真空,丰富产品矩阵;
- 加快联邦技术落地,通过数据联邦与联邦学习,降低数据存储和使用成本,扩大模型训练集,提高训练效果;
- 推进流批一体落地,借助Hive的统一元数据与Flink的流批一体技术,在数据湖的基础上加快流批一体技术的落地,推动全面实时化;
四、平台建设挑战
建设并非因为要建设而建设,建设是为了更好的解决需求、完成目标,而平台的不断演进可以更好的服务现有需求并开创新的可能。
(一)数据开发全链路
对大数据平台而言,数据的抽取、存储、加工、管理、开放运营等是大数据的核心能力,数据开发平台等系统的投产极大程度降低了数据的加工、使用门槛,满足了基本的数据研发需要,但是在元数据管理、数据研发规范性、数据质量把关、安全审计等治理方面仍然存在较大的改进空间。通过更接下来的平台建设进一步提升易用性、提升数据稳定性、提高数据质量和数据安全、增强数据调度能力,进而在数据融合加工基础上进一步的完善数据治理体系,从而实现更好的数据开放共享,以便更快捷的支撑应用系统的建设和成长显得尤为重要。
(二)数据“超市”建设
数据能说话、数据助决策。大企业中对数据的诉求和使用好比家庭购物买菜,菜市场和超市都可以买菜,但是菜市场具有占地面积大、对周围交通及环境影响大的特点,而超市则显得比较灵活和便捷,能够更好的适应城区。目前很多业务场景下对数据的使用好像在菜市场买菜,需要接触每个摊位主(数据负责人/提数人员/……),分别沟通来买菜(提数)并逐个结算。而超市则提供了分区、分类、分级的产品供应,并实现了自由选择、统一结算的服务,并且超市往往对顾客隔离了材料加工、包装(数据加工)的过程,更好的购物环境、更优质的服务、更快捷的体验。所以建设好我们的数据超市不但是对我们数据的梳理和分类,实现数据运营也将会把我们的数据服务能力提升到一个新的台阶,给数据使用人员一种更好的使用体验。
(三)换种角度看产品
-
打造云产品
软件运行的环境从主机到虚拟机再到发展到容器,企业降本的诉求一直反压着技术进行着不断的变革,云的出现不仅改变了传统IT行业的构架,更是加速了传统行业的转型和升级。节约了传统企业的IT投入,更是为Paas、SaaS提供了极大的便利。积极拥抱云原生技术,深入推进企业上云,加速企业数字化改造。 -
用产品的眼光看产品
传统的以小组为单位的产品布局提供了很明确的产品责任人和发展模式,其产品的发展方向和速度往往由上层和内部因素共同决定,而面对飞速发展的技术变革、跨产品发展需求等,此模式比较容易形成“画地为牢”的局限性,反而不容易做到快速抢占新产品市场、实现跨界产品需求,所以如果我们反问自己,什么是对这个产品最好的?哪个方向的迭代对产品更好?本产品是否要集成其他小组已有产品的功能?本产品是否具有市场竞争力以及前瞻性?
互联网下的产品往往是“跨界”的,此类产品往往不会过于聚焦于单一的某个功能,但往往是以某个核心功能为中心的上下游功能共同组成了本产品的功能矩阵,实现产品即决方案。提升产品的市场竞争力,降低产品在企业落地难度。
(四)建设数据联邦
“众人拾柴火焰高”,以一个企业内部的数据积累来进行用户行为属性判断、标签加工等事情还是略显薄弱,如果能够实现通过获取外部数据、三方行为数据的使用,通过全天候、多维度的行为分析来最终判定一个主体的属性和标签,将会有利于更好的对主体把控。通过数据上云,实现行业云内数据的共享,实现本地数据与云上数据的联邦。外部产品矩阵、外部数据联邦等等,目的就是对内部提供更加优质的服务,实现更多、更好的产品孵化、更精确的客户定位、赋能业务、最终实现更好的实现数字化转型。
五、平台未来展望
中原银行经过4年的大数据平台建设,已经从原始的人海战术实现了大数据系统的平台化,这很大程度上要归功于我们在大数据平台建设的轻装上阵和极有魄力的领导力,回顾过去展望未来,大数据平台的演进之路大致如下:
在2020年末2021伊始的时间节点,结合业界发展趋势,我认为下一代的大数据平台发展将会形成人工智能和大数据的双引擎局面,对人工智能而言则是需要探索与大数据的融合,于大数据而言,除了与人工智能的融合外也要快速实现新一代的数据存储、计算、使用等方面的变革,基于这个想法大数据平台建设架构大致如下:
最后,希望大数据平台每年都有更好的呈现,每一次阵痛的变革都是为了坚守最原始的初心。
作者:思甜,数据银行部
版权归作者所有,任何形式转载请联系作者。
it_hr@zybank.com.cn