企业五年后卓越或者死亡,数据战略是关键!

 

一、企业清晰的数据战略已经刻不容缓

 

上个月,欧盟委员会于2020年2月19日发布欧盟数据战略,积极推进数字化转型工作,打造欧盟单一数据市场,目的是强化技术主权,提升企业竞争力。

 

2020年3月,中共中央政治局常务委员会召开会议提出,加快5G网络、数据中心等新型基础设施建设进度。与传统基建相比,新型基础设施建设更能体现数字经济特征,能够更好推动中国经济转型升级。

 

如图1,根据国家统计局数据,从2015年到2019年,全国居民人均可支配收入持续增加,2019年全年全国居民人均可支配收入30733元,扣除价格因素,实际增长5.8%。

 

图1 2015年到2019年全国居民人均可支配收入持续增长

(来源,国家统计局官网)

 

消费者收入一方面在增加,一方面更追求个性化。在政策的大背景下,随着移动互联网的普及,5G的加快落地,对于企业,做好数字化转型,满足消费者千人千面的需求是必然的选择。

 

此外,还有一个趋势就是越来越多的企业利用数字化技术,开展线上业务,比如在疫情期间,有房地产企业开始在线上卖房。

 

数据是资产已经是共识,我们的衣食住行不断地产生数据,依托这些数据,使不少互联网企业发展壮大。同样的,在企业的日常运营中也在不断地产生数据,如果能利用好这些数据,将进一步的提升企业竞争力。

 

在企业普遍开展数字化转型的大潮之下,每家企业应明确自己的数据战略,为数字化转型打好基础。

 

数据战略包括数据采集、存储、分析、消费。国际数据公司(IDC)和数据存储公司希捷开展的一项研究发现,2025年,全世界产生的新数据将从2018年的33ZB增至175ZB,中国每年将以超过全球平均值3%的速度产生并复制数据。据该研究报告,2018年中国约产生7.6ZB(1ZB约相当于1万亿GB)的数据,到2025年该数字将增至48.6ZB。与此同时,美国2018年约产生6.9ZB数据,并将在2025年增至30.6ZB。

 

 

二、企业用好数据,面临四个挑战

 

企业如何用好数据,面临以下四个挑战

 

1. 企业内部存在数据竖井,数据采集困难

企业内部的数据,往往存在数据竖井,格式不一致的问题。企业内部的数据,通常是按部门,按数据线保存。不同历史时期,采用的数据库不一样,导致数据格式也不一致。要将数据统一采集存储,需要打破部门壁垒,兼容各种数据格式。

 

2. 数据增速越来越大,数据存储面临挑战

如前文所述,随着新技术的采用,随着信息化的深入,产生的数据越来越多,数据量飞速增加,大量的数据如何存储成为一门技术活:如何能存储海量的数据,让数据根据冷热分层,让数据存储性价比更高成为挑战。

 

3. 海量的数据分析需要专业的能力

数据分析越来越复杂,甚至成为一个生态系统,对于一个企业来说,要做数据分析,往往需要一个团队,需要购买商业产品,需要服务商的支持。如图2,从mattturk.com网站总结的数据和AI生态蓝图可以看出数据分析的复杂性。

 

图2 数据和AI生态蓝图

(来源,mattturk.com网站)

 

4. 安全合规方面面临挑战

我国于2017年6月1日正式实施《中华人民共和国网络安全法》。在数据安全也有诸多规定。明确规定了网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。

 

欧盟于2018年5月25日正式实施了《通用数据保护条例》 (General Data Protection Regulation,简称GDPR),GDPR是一项保护欧盟公民个人隐私和数据的法律,其适用范围不仅包括欧盟成员国境内企业的个人数据、也包括欧盟境外企业处理欧盟公民的个人数据。

 

2019年5月28日国家互联网信息办公室发布《数据安全管理办法》(征求意见稿)。征求意见稿中包括数据收集、数据处理使用和数据安全监督管理等内容。

 

这四个方面的挑战,中小企业面临的挑战更大,大型企业面临的是效率问题,中小企业则面临的是数据战略如何落地的问题,而AWS推出的数据湖服务,可以很好的解决这四个挑战。

 

 

三、AWS数据湖,通过组合拳解决数据难题

 

图3 AWS的数据湖服务架构

(图来源,AWS公开资料)

 

如图3,AWS的数据湖实际上由一系列产品和服务构成:

 

• Amazon RDS:云托管的关系型数据库,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六种常用的关系型数据库。

• Amazon Redshift:数据仓库,性能强大、使用简单,全托管的数据仓库服务,支持大规模并行处理, 支持从GB到TB规模数据的扩展。

• Amazon EMR:大数据处理,在AWS上运行Spark, Hadoop, Hive, Presto, Hbase等大数据分析,高度可扩展的分析和机器学习服务。

• Amazon Kinesis:实时数据,实时收集、处理并分析视频和流数据。

• Amazon Athena:数据交互查询,使用标准SQL对Amazon S3上的数据做交互查询,无需基础设施及配置,无需另外加载数据。

• AWS Glue:ETL 和数据目录服务,无服务器架构的数据目录和ETL服务。AWS Glue 使用能识别常用数据格式和数据类型的预构建分类器(classifiers)抓取数据源并构建数据目录,包括 CSV、Apache Parquet、JSON 等。

• AWS Lake Formation:可以自动化构建数据湖。

 

通过以上产品和服务的组合,AWS的数据湖有以下特点:

 

1. 可以快速的构建数据湖

AWS Lake Formation 可以自动化构建数据湖,可以在数天内构建数据湖,而传统方式需要一个经验丰富的团队,花费数个月的时间。

 

2. 兼容多种数据格式,支持分级存储

AWS数据湖支持关系型和非关系型数据库,Amazon S3 提供五个存储类别和自动数据生命周期管理。Amazon Redshift 的速度比其他云数据仓库要快3倍。

 

3. 支持不同数据库连接和数据交互查询及

 

通过AWS Glue和Amazon Athena服务,可以实现不同数据库连接及数据湖数据交互查询。

 

AWS Glue最主要有两个功能,一个是ETL,ETL是Extract、Transform和Load,即数据的抽取、转换和加载,从数据库提取到数据仓库使用的都是ETL。另外一个功能是数据目录服务的功能,数据都存在数据湖里面,要对数据打标签,做分类工作,AWS Glue可以像爬虫一样对数据湖里的海量数据自动爬取,生成数据目录的功能。

 

Amazon Athena支持使用SQL直接对S3数据交互式查询,使快速存起来的海量的数据可以像传统的使用SQL语言一样,使用标准的数据库查询的语言,方便了技术人员的使用。

 

4. 支持多种数据分析方式

 

图4 AWS数据分析组件

(图来源,AWS公开资料)

 

如图4,AWS支持多种数据分析方式,数据通过各种数据库采集,进入数据湖,然后进行分析和展现。

 

数据分析Amazon EMR是重点,Amazon EMR 提供在云中运行 Apache Spark 和 Apache HIVE 工作负载。EMR 与 AWS 的其余部分进行深度集成便于节省成本的功能,如 EC2 Spot 实例,从而将成本缩减高达 90%。

 

另外,AWS数据分析支持 SQL、R、Scala、Jupyter 和 Python语言,所有的服务均支持使用开放 API 以开放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用专有(适用于数据仓库的 Redshift)和开放引擎(例如 Spark、Hive)访问单一对象存储 (S3) 中存储的数据。

 

更进一步,AWS数据湖可以和机器学习和人工智能服务Amazon SageMaker结合,把数据用来做机器学习、人工智能的数据分析,做更多的自动的预测性的分析。

 

5. 安全

AWS 提供了一套超越标准安全功能的工具,例如对安全策略积极监控和统一管理的加密和访问控制。例如,Amazon Macie 可帮助监控数据湖,以确保不会意外地暴露凭据或个人身份信息 (PII)。Amazon Inspector 可帮助实施最佳实践和识别可能被利用的配置问题,利用 AWS Lake Formation,可以在所有分析服务中对数据湖中的数据进行一致性的访问控制。

 

图5 ,AWS数据湖平台功能

(图来源,AWS公开资料)

 

AWS数据湖是成熟的解决方案,如图5所示,可以提供多种功能,实现不同的业务价值。AWS数据湖已经有许多用户在使用,像娱乐业的二十一世纪福克斯电影公司。还有包括一些金融的案例,比如FINRA,是一个美国的金融监管机构,每天有超过1500亿的事件、20PB的数量,它把所有金融的交易的信息都整合在一起,可以处理所有的内部交易。还有纳斯达克交易所,使用数据湖处理每天500亿条的付款,使用数据湖把上市时间缩短了1/3。

 

 

四、总结:AWS数据湖服务是数据战略落地的强支点

 

疫情期间的健康码经过精准的数据分析,极大的方便了大家的出行,也让大家进一步认识了数据分析的便利性。当前,从政府到企业,都普遍认识到了数据的重要性。数据要发挥作用,必须经过多维度的分析。今后五年,企业必须拥有清晰正确的数据战略并高效的落地,数据战略是通往卓越的必经之路,企业要么因为数据战略的高效落地而卓越,要么死亡。

 

AWS的数据湖服务,能够帮助企业解决数据的采集、存储、分析、消费等全周期的问题,为企业搭建了良好的数据平台,是企业数据战略落地的强支点,能够有力推动企业数字化转型,是企业抢占先机,赢得竞争优势的利器。

 

↓↓ 点击"阅读原文" 【加入云技术社区】

相关阅读:

云厂商眼中的数据湖是什么?它会持续"温而不火"还是即将"破茧成蝶"?

RightScale 2019年云状况调查报告:35% 的云支出被浪费「附50页PDF下载」

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值