亚马逊云科技ZeroETL助力企业做出正确的数据决策

关键字: [亚马逊云科技中国峰会2024, ZeroETL, 数据管道构建, 实时数据同步, 统一数据视图, 机器学习模型训练, 生成式Ai数据分析]

本文字数: 1800, 阅读完需: 9 分钟

导读

在本次演讲中,演讲者介绍了亚马逊云科技的ZeroETL解决方案,用于连接并分析企业的所有数据源。ZeroETL能够简化数据管道构建过程,提高数据同步效率,降低成本。演讲者分享了ZeroETL在电商和金融领域的应用案例,展示了如何利用ZeroETL构建实时数据分析平台,并结合生成式AI助力数据分析,提高工作效率。ZeroETL为企业提供了统一的数据视图,有助于做出更全面正确的业务决策。

演讲精华

以下是小编为您整理的本次演讲的精华,共1500字,阅读时间大约是8分钟。

在很久以前,我是一名软件工程师,那时我会借助各种通用编程语言,基于SQL、NoSQL(包括文档型数据库、宽列数据库和图形数据库)等数据库,构建应用系统来支持个人运营。后来,我有机会进入数据领域,成为一名数据工程师,随后又成为数据架构师。在这个过程中,我发现主要工作变成了每天构建各种数据管道,同时搭建企业或组织的存储计算平台。构建完数据管道后,我们需要花费大量精力去监控它,一旦发现错误,还要耗费精力定位原因并修复,整个过程变得非常复杂。

今天,我们讲的话题是ZeroETL连接并分析所有数据,我们希望ZeroETL能简化整个高级数据管道的过程。我是杨文辉,来自亚马逊云科技的Redshift专家、解决方案架构师。与我一同参与这个Session的是同事朱劲松,他是金融领域的解决方案架构师。我们今天的主要话题分为四个部分:亚马逊云科技在ZeroETL方面的愿景;基于中国区电商领域的典型案例,抽象出一个经典应用场景及架构;朱劲松同事将讲述ZeroETL如何应用于具体金融客户产品用户案例;基于ZeroETL构建的统一数据视图,如何利用生成式AI助力数据分析。

这张图展示了我们作为软件工程师需要从各种数据库构建应用系统,这些系统会逐渐成为数据分析系统的数据源,包括结构化数据、非结构化数据、流式数据和批量数据。我们将这些数据集成、标准化并联合在一起,产生组织所有业务和用户的统一认识,基于这些认识做进一步决策,才能做出更加全面正确的决策。所以我们需要构建数据集成和数据管道,打造全组织的全局数据视图,来自各业务部门的数据分析师、数据科学家可基于这个统一视图获取数据洞察。当然,Redshift这一端也让数据分析师能基于SQL在Redshift上训练和推理机器学习模型。我们还可以用Spark的Connector让Spark高效连接到Redshift,进行Spark应用开发。

第一个ZeroETL产品是Aurora ZeroETL,实现了Aurora MySQL到Redshift的数据同步。与传统第三方CDC工具相比,它更加简单,只需在界面上做简单配置,甚至有些权限配置也在界面上完成,数据就会以10秒及以下的速度同步。在这个过程中,我们不需要维护或管理数据管道,数据同步速度也会变得很快,可支持更多需要实时数据的分析场景,如欺诈检测。Redshift还可以同步来自多个Aurora MySQL的数据,进行数据联合洞察,一个Aurora MySQL的数据也可同步到多个Redshift集群。

第二个是Redshift Streaming Ingestion,只需在Redshift中创建物化视图对接Kafka集群的某个Topic,视图就可以自动刷新,保持10秒及以下延迟同步数据。基于此架构,很多客户为复杂的流式计算场景,会在Kafka或Kinesis Data Streams前加上Flink等计算引擎,做流式数据转换,再通过Streaming Ingestion将结果同步到Redshift做进一步分析。

第三个是Redshift ML,让数据分析师不需要掌握太多机器学习知识,就可以利用SQL在Redshift上进行模型训练,将模型注册为用户自定义函数,为数据预测等场景提供计算支持。

讲完这些后,由于ZeroETL应用广泛,我们对电商领域多个用户的通用架构做了总结抽象。比如订单明细数据可通过ZeroETL同步,客户数据数据量不大可通过Spectrum直连查询减少延迟,历史行为数据也可直连S3查询,实时行为数据可通过流式摄入拉入Redshift构建统一视图。最后,数据分析师不需借助数据科学家,就可通过SQL在Redshift上进行模型训练和推理。

我的部分讲完了,下面有请金松同事分享。

金松:在我演讲开始前,我想先了解一下在座各位是否有构建数据平台的需求?或者你们是数据分析师,需要编写SQL做报表和Dashboard?还是只是一个数据分析的需求方?我相信更多人是属于第三类。

我今天主要分享在金融领域使用ZeroETL构建数据分析平台的场景。在金融风险领域,有很多数据分析需求,如风险管理、市场风险评估、操作风险评估等,目的是保护企业避免风险损失;还有欺诈检测、异常行为识别、交易模式识别等,目的是保护用户资产;另外还有交易监控、市场监控等报告需求,了解市场动态。所有这些都需要构建数据分析平台进行大量分析。

我们以一个客户的量化交易数据平台分析需求为例。该客户已在Aurora中存储用户数据、账户数据、交易策略参数数据及订单原始数据,有10多个集群、3000多张表、5TB数据量。另一方面,真实成交交易数据量很大且需实时写入,采用DynamoDB存储,有10多张表、10TB+数据量。基于这些数据,客户需要构建一个30秒内完成实时分析的平台,对于只投入一个人力资源来构建是一个挑战。

最初,客户采用了以S3为中心的数据湖解决方案。Aurora的数据通过开源工具将变更记录实时流到Kinesis Data Streams,DynamoDB的变更数据通过DynamoDB Stream也流到Kinesis Data Streams,然后由Kinesis Firehose定时将数据写入S3。接着运行Glue作业对变更数据整合去重,获取最新数据快照,再由Athena等查询工具供分析师使用。这种架构的延迟在15到30分钟,流程复杂且基础设施和运维成本高。

应用ZeroETL后,Aurora的数据可在3分钟以内实时同步到Redshift,DynamoDB的变更数据通过Streaming Ingestion也能到达Redshift。由于DynamoDB那条线是变更数据,需与S3端的全量数据整合后,可满足实时查询分析需求。新架构使延迟从30分钟降至15秒,构建效率提高80%,成本降低60%。

未来,DynamoDB也将支持ZeroETL直接同步到Redshift,数据链路将更加简洁。同时,我们还可以进一步应用Redshift ML的机器学习能力,做实时欺诈检测等更多分析,进一步挖掘数据价值。

可以看到,经过几个版本的演进,构建实时数据仓库变得越来越容易。对于需要构建数据平台的人员来说,ZeroETL是一个福音。有了数据平台后,如何高效分析数据也很重要。

我们可以通过生成式AI来辅助数据分析。这里介绍一个基于Amazon Bedrock和知识召回的数据分析智能助手解决方案。假设我是一个运营人员,突然想查看上个月某个年龄段的销售额情况,但我不会分析。传统做法是找数据分析师,分析师再找研发或平台同事获取数据表结构、字段等信息,写SQL查询,流程较长。

而通过生成式AI构建的智能助手,可以理解企业数据元数据、知识库等,快速响应用户的分析需求。用户可直接与助手交互,获取所需数据表结构、字段含义,甚至直接得到分析SQL,大幅提高分析效率。

总之,ZeroETL解决方案致力于简化数据集成和分析全流程,提供高性能、低延迟、低成本的统一数据视图,并借助生成式AI赋能数据分析,推动企业数字化转型。

下面是一些演讲现场的精彩瞬间:

在数据领域的工作中,构建和维护数据管道及存储计算平台是一项复杂而艰巨的任务。

2f152eae8029c823142fb08199ccc31d.jpeg

在亚马逊云科技中国峰会2024上,演讲者介绍了Zerata的首款产品Aurora Zerda,一款能够在Aurora MySQL和Redshift之间实现10秒内数据同步的工具,无需繁琐配置和维护,支持实时数据分析场景。

252aebeed9a561329e96959a46470a07.jpeg

亚马逊云科技中国峰会2024:演讲者询问在座观众是否有构建数据平台、编写SQL报表或仅作为数据分析需求方的需求,引出数据分析的重要性。

bd9ddf5eb5ea0c957427482c4fa1160e.jpeg

亚马逊云科技中国峰会2024:探讨如何利用亚马逊云科技服务构建实时量化交易分析平台,满足30秒内实时分析的挑战性需求

亚马逊云科技中国峰会2024上,演讲者详细阐述了如何利用亚马逊云科技服务构建数据湖解决方案,实现数据实时流入和集成,为数据分析提供最新数据环境。

16d3eba00cc3990e84a562c7050f6e8f.jpeg

亚马逊云科技中国峰会2024上,演讲者生动形象地描述了智能助手如何简化数据分析流程,缩短从提出需求到实现功能的周期。

f942e2e33ca2868c8f807d0484b18af5.jpeg

在亚马逊云科技中国峰会2024上,演讲者提到通过深圳市AI来提高效率和推动创新,并表示有一些创新想法可以快速实现。

7f683553acdedca8d136ed7c064208a7.jpeg

总结

亚马逊云科技正在推进ZeroETL解决方案,旨在简化数据管道构建和分析过程。ZeroETL能够实现数据源与Amazon Redshift之间的实时数据同步,无需复杂的数据管道和中间环节,大幅提高效率和降低成本。该解决方案已在电商和金融等行业得到应用,帮助客户构建实时数据分析平台。

通过Aurora到Redshift的ZeroETL同步,数据延迟可控制在10秒以内,支持实时分析场景。利用Redshift流式摄入功能,可将Kafka数据源直接同步至Redshift物化视图。此外,Redshift机器学习功能允许数据分析师使用SQL进行模型训练和推理,无需深入的机器学习知识。

在金融行业案例中,ZeroETL将DynamoDB和Aurora数据源实时同步至Redshift,构建了一个30秒延迟的实时分析平台,效率提升80%,成本降低60%。未来,ZeroETL将进一步整合DynamoDB数据源,进一步优化数据链路。

最后,亚马逊云科技正在探索利用生成式AI助力数据分析,通过构建企业知识库,用户可快速获取所需SQL查询,提高分析效率。ZeroETL与生成式AI的结合,将进一步推动数据分析创新。

2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。

  • 21
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值