亚马逊云分析领域的创新:零ETL和数据集成
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 0 ETL, Operational Analytics, Data Pipelines, Zero Etl, Data Integration, Amazon Redshift]
导读
参加本次会议,了解 亚马逊云科技 分析服务如何以卓越的性价比帮助您实现数据集成目标。探索新功能,如零 ETL 集成,让您的用户能够访问所有数据;轻松准备数据用于分析、机器学习和生成式 AI 工作负载;构建和维护可扩展且具有弹性的数据管道;并提高决策质量。
演讲精华
以下是小编为您整理的本次演讲的精华。
数据驱动决策在企业中的重要性日益增加,导致对及时获取正确数据的需求不断增长。然而,传统的提取、转换、加载(ETL)方法往往无法满足这些要求,因为许多客户在构建和维护数据管道以在Amazon Redshift上运行企业数据分析时,面临着运营开销、数据陈旧和效率低下的问题。
亚马逊云科技的解决方案是零ETL未来,在这种情况下,数据管道被消除,客户可以直接访问他们的数据以生成洞见。亚马逊云科技拥有一个专门构建的数据策略,包括广泛的数据库和数据仓库组合,其中Amazon Redshift作为完全托管的PB级数据仓库,位于数据之旅的中心。零ETL是由亚马逊云科技构建的一个完全托管、安全、准确、可靠、高效和高性能的工具。客户可以使用亚马逊云科技控制台、CLI或API创建集成,系统会处理所有数据定义语言(DDL)和数据操作语言(DML)操作。零ETL还提供内置监控和可观察性,整个系统可以实现无服务器。
在过去几年中,亚马逊云科技为各种数据源添加了零ETL支持,包括Amazon Aurora MySQL和PostgreSQL、Amazon RDS MySQL和Amazon DynamoDB。最近,亚马逊云科技宣布了面向应用程序的零ETL,使客户能够直接将来自Salesforce、SAP、ServiceNow和Zendesk等SaaS应用程序的数据集成到Amazon Redshift或新的SageMaker Lakehouse中。通过这一推出,Amazon Redshift现在支持12种不同的零ETL源,允许客户在同一个Redshift仓库中运行来自所有运营数据库和应用程序的组合分析。面向应用程序的零ETL通过将摄取和复制合并为一个过程,并结合完整数据同步、检测增量更新和删除以及目标合并操作的最佳实践,消除了构建数据应用程序管道的需求。集成维护是自动的,消除了数据工程团队的运营开销。
Amazon Redshift产品经理Jothia Gurwal分享了客户成功案例,以说明零ETL的好处。FirstCry是印度领先的儿童产品电子商务平台,他们在Aurora和Redshift之间使用零ETL来运行分析。在转移到零ETL之前,他们的服务级别协议(SLA)是15秒,但自从切换后,SLA已降至120毫秒,代表了99%的改善,这无疑是变革性的。
另一位客户Veros Analytics是一家领先的分析公司,为各行业提供解决方案和服务,他们使用从DynamoDB到Redshift的零ETL。之前,他们有一个自制的解决方案,经常会超时,导致运营痛苦。但自从切换到零ETL后,他们的体验显著改善,正如他们的引用所示。
Jothia的同事Hershida随后上台演示了零ETL如何与关系源(如Amazon Aurora)和NoSQL源(如Amazon DynamoDB)一起工作。她展示了创建零ETL集成、应用数据过滤器、监控集成状态以及利用Redshift中的物化视图和排序键等功能的过程。
对于关系源(如Amazon Aurora MySQL、PostgreSQL或RDS for MySQL),目标是Amazon Redshift,零ETL负责播种数据、识别插入、更新、删除或模式更改的变更数据捕获,并允许客户在需要时重新播种或完全加载特定表。客户可以应用数据过滤器,包括或排除某些模式,从而限制复制的对象数量。
当使用Amazon DynamoDB作为源时,零ETL利用DynamoDB导出API将数据卸载到Amazon S3,然后在Amazon Redshift上进行增量更新,确保在复制期间不会影响DynamoDB。集成首先播种数据,然后捕获变更,并允许在需要时重新播种。对于DynamoDB,复制的延迟为15分钟到30分钟。
Hershida强调,Redshift中的零ETL表是只读的,但客户可以运行ALTER TABLE语句来指定排序键,从而提高扫描性能。她还指出,对于关系源,复制的延迟在秒级,而对于DynamoDB,则为15分钟到30分钟。
Hershida演示了客户采用零ETL的各种模式和用例,例如使用物化视图进行增量刷新、选择性数据复制、组合多个源、数据掩码以及与现有ETL管道集成。例如,客户可以为关系源应用从零到5天的刷新间隔,为DynamoDB应用从5分钟到5天的刷新间隔,以控制复制的节奏。
Motive Technologies的Paul随后分享了他们使用零ETL的经历。Motive提供了一套产品和技术,用于实体经济,包括AI行车记录仪、车队管理和支出管理解决方案。他们的主要挑战是将来自各种源(包括PostgreSQL、DynamoDB和Kafka)的数据移动到他们的数据平台和外部数据仓库的复杂性。
Motive面临着高延迟、运营开销和维护多个数据管道和连接器的巨大成本等问题。例如,他们的周期进程从PostgreSQL表的45分钟到DynamoDB表的3-6小时不等。维护工作,包括调整和调整连接器大小、设置复制槽以及跨团队协调,是相当大的。此外,对实际延迟和潜在故障的可见性有限。
通过采用零ETL,Motive能够显著简化其数据集成过程。他们将同步方法的数量从四个减少到一个,实现了延迟改善,PostgreSQL表从45分钟降至15-30秒,DynamoDB表从3-6小时降至15-20分钟。供应和维护所需的工作大大减少,通过CloudWatch等监控解决方案,对集成状态、延迟时间和行计数的增强可见性提供了更好的监督。
零ETL还为Motive带来了大约每月10,000美元的大幅成本节约,即使对于仅涉及11TB数据和每天约1GB的较小用例,通过消除连接器、数据传输成本和加载数据到仓库所需的计算资源。Motive当时的主要位置数据已接近300TB,超过了零ETL的100TB限制。
展望未来,Motive计划将更多数据源迁移到零ETL,包括他们通过30TB Kafka主题以200+MB/秒的速率运行的主要车辆消息管道。他们估计,通过消除数据加载、复制和传输操作,每年可节省约75万美元的成本。此外,Motive对即将推出的SageMaker Lakehouse及其与Iceberg的集成感到兴奋,这将有助于更轻松地跨多个数据源迁移和查询数据。
总之,亚马逊云科技的零ETL和数据集成创新旨在简化数据访问、减少运营开销、提高数据新鲜度,并使客户能够专注于从数据中获取洞见。来自FirstCry、Veros Analytics和Motive Technologies的客户成功案例以及演示,突出了采用零ETL解决方案所带来的巨大好处和成本节约。随着企业继续拥抱数据驱动的决策,亚马逊云科技的零ETL产品为解决传统ETL方法的挑战提供了一个令人信服的解决方案。
下面是一些演讲现场的精彩瞬间:
Andy Jassy介绍了Hershida和Paul来自Motive Technologies公司,他们将作为额外的演讲者出席2024年亚马逊云科技 re:Invent大会。
演示了如何使用亚马逊云科技控制台设置零ETL集成,将Aurora PostgreSQL数据库中的特定表复制到Amazon Redshift集群。
首席执行官分享了他对探险和突破界限的热情,同时感谢Motive的平台团队推动创新,并利用亚马逊云科技服务(如IoT Core)与超过100万辆车辆进行接口。
利用车队数据防止欺诈并通过实时交易阻止、背景检测和高级分析来保护公司。
强调了通过利用Kafka和Amazon Redshift实现30TB车辆消息管道,从而节省了大量成本并改善了数据延迟。
演讲者对SageMaker LakeHouse的正式发布和其Iceberg集成感到兴奋,这简化了数据迁移并实现了跨已迁移和未迁移数据源的查询。
总结
在这个引人入胜的叙事中,我们踏上了一段通往亚马逊云科技分析领域的旅程,在这里,追求运营卓越与创新力量相遇。演讲者们揭示了一种突破性的解决方案——0 ETL,它有望彻底改变企业利用数据获取可操作见解的方式。
亚马逊Redshift的产品经理Jothia Gurwal为我们拉开了序幕,强调了对运营分析的日益增长的需求,以及传统ETL方法在满足这些需求时所面临的挑战。亚马逊云科技专门构建的数据策略,包括其广泛的数据库产品组合和集中的Amazon Redshift数据仓库,为这一变革性解决方案奠定了基础。
Jothia的同事Hershida带领我们深入探索0 ETL的内在机制,展示了它如何无缝集成关系型、NoSQL和SaaS应用程序数据源与Amazon Redshift。通过现场演示,我们见证了创建0 ETL集成、监控其状态以及利用诸如物化视图和数据过滤器等高级功能的简单高效。
代表Motive Technologies的Paul分享了他们在使用0 ETL过程中的非凡历程。Motive是一家通过AI驱动的解决方案为实体经济赋能的公司,他们面临着一个复杂的数据环境,包括多种同步方法、高延迟和运营开销。通过采用0 ETL,他们实现了显著的简化,将同步方法从四种减少到一种,将延迟从几小时缩短到几秒,即使是较小的用例也每月节省了10,000美元的成本。
随着叙事的展开,我们了解到客户在采用0 ETL时所遵循的模式和用例,从增量刷新和数据共享,到集成诸如物联网和网络日志等事件驱动源。演讲者们描绘了一个引人注目的未来愿景,在这里,数据孤岛被打破,分析能力可以无缝扩展,生成式AI体验由统一的数据基础提供支持。
在结尾部分,Paul分享了Motive将整个数据生态系统迁移到0 ETL的宏伟计划,包括他们庞大的30TB车辆消息管道,这将带来更大的成本节约和运营效率。与SageMaker Lakehouse和Iceberg表的集成进一步增强了他们的迁移策略,实现了无缝过渡,同时保持对遗留数据源的访问。
这个引人入胜的故事以一声响亮的行动号召画上句号,敦促企业拥抱0 ETL的变革力量,释放数据的全部潜能,为运营分析开辟一条不再是负担而是创新和竞争优势催化剂的未来之路。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。