亚马逊云科技Amazon Redshift助力电商平台构建大数据基座

关键字: [亚马逊云科技中国峰会2024, Amazon Redshift, 数据仓库构建, 工作负载管理, Ai驱动扩缩, 多维数据布局, 价格能效比]

本文字数: 1900, 阅读完需: 10 分钟

导读

在亚马逊云科技中国峰会2024上,林益龙解决方案架构师介绍了”AI驱动的Redshift扩缩和优化”。他讨论了Redshift无服务器如何自动配置节点和扩展计算资源,并通过AI预测模型实现智能扩缩容,提高价格性能比10倍。随后,店匠科技数据负责人统一五哥分享了基于Redshift构建数仓的实践,包括使用Redshift阈值集群和Serverless实例、数据同步方案、资源隔离等,并介绍了未来的优化计划。

演讲精华

以下是小编为您整理的本次演讲的精华,共1600字,阅读时间大约是8分钟。

在亚马逊云科技中国峰会2024上,解决方案架构师林益龙和店匠科技数据负责人统一五哥分享了关于Amazon Redshift的实践经验。

林益龙首先介绍了Amazon Redshift无服务器版本的特点,指出它是一种无需选择数据节点类型、预先规划容量或管理任何基础设施的数据仓库服务,具有自动配置节点并自动扩展计算资源的能力,是一项完全自动维护的服务,可实现7*24小时的可用性,无需维护窗口。在使用时,用户可以直接查询存储在Amazon S3上的数据,例如爬虫格式或JSON格式的数据,这保留了用户的使用习惯。

林益龙指出,在日常工作中,用户会遇到来自报表工具的稳定查询请求(需求较少内存)、不定期的ETL任务(需求较大内存)以及数据工程师和数据科学家临时的分析需求(需求更大内存)。如果处理不当,可能无法完成大型任务,并影响稳定的BI任务运行。为解决这一问题,亚马逊研发了AI驱动的扩缩容和优化特性,开发了扩缩容预测模型。该模型可以预测在不同容量下查询的表现行为,从而得到最佳容量预测,系统会弹出更大且更匹配当前查询的容量。林益龙发现,80%的查询已被观察过,系统已缓存了它们的资源需求、执行计划、数据量等信息。在第一阶段,系统通过向量查询从缓存中查出这些信息,对于短查询直接执行,对于长查询则进行弹性扩展。如果是新查询或数据量较上个月增长一个数量级,则进入第二阶段,快速判断当前查询是否需要扩容。如果是短查询,则正常计划执行;如果是长查询,则进入第三阶段,使用全局训练的预测模型预测所需资源大小,最终进行扩容。

林益龙举例说明,在数据处理过程中,合理的数据布局是必须完成的一项工作,目的是在查询时尽可能少地扫描无用数据。例如,订单数据按时间排序,竞价数据按价格排序,需要针对不同场景设置合理的排序方式。为此,亚马逊推出了多维数据布局功能,可检测工作负载和查询经常使用的维度,并自动将数据存储到不同维度的存储块中。这样一来,查询语句可根据条件找到最合适的数据块,大大减少从磁盘加载到内存的时间。测试结果显示,使用多维数据布局相比使用最优单列排序键,可将运行时间缩短40%。

接下来,林益龙进行了一个小测试,假设工作负载包括稳定查询和临时进入的大查询。在当前无服务器特性下,系统会启动一个基础容量(30个RPU)来执行报表查询等工作负载。当大查询进来时,由于执行时间较长,会导致队列和并发度升高,此时无服务器版本会自动扩容一个或多个新容量,最终达到96个RPU以上。执行一段时间后,并发度降低,系统又重新回到3个RPU。而在AI优化的扩缩容下,系统会直接预测并分配最合理的容量(如30个RPU)来执行大查询和普通查询,在非常短的时间内完成处理,过程中还移除了最初的一个RPU容量。处理完大容量后,系统又快速卸载所有容量,回到最初的3个RPU。通过这个报告可以看出,整体查询延迟从48秒降低到4秒,长查询平均时延从928秒降低到25秒,整体价格性能比达到10倍以上的提升。仅多付出了一点点的RPU用量,就获得了10倍的价格性能比提升。林益龙总结道,通过使用全新的AI驱动扩缩容和优化特性,可将价格性能比提高10倍,同时无需人工调整,每个扩缩容方案都根据工作负载需求定制,从而获得稳定的性能并避免性能悬崖和超时循环。

接下来,店匠科技数据负责人统一五哥介绍了该公司基于Redshift构建数据仓库的实践。店匠科技是一家专注于电商解决方案和AI评论的公司,核心产品是全球独立站SaaS平台,提供主题、订单商品管理等服务,旨在简化商家在平台上经营的过程,并利用技术帮助商家实现销售额增长。该公司的商家群体包括小商家、工厂和大型商家,覆盖36万家店铺,消费者覆盖150个国家,其中40%来自欧美市场。

在数据仓库业务场景中,店匠科技需要高效的数据同步配置方式、良好的批量写入数据效率(每秒数百万行)、友好的资源隔离策略、友好的资源分配策略,以及支撑稳定的报表服务。之前使用云数仓时,存在数据跨网络传输可能导致安全合规问题、数据同步配置复杂、数据实例故障率高、数据复用受平台限制、运维需关注网络和实例问题等挑战。

使用Redshift后,数据同步配置复杂度适中,亚马逊云科技提供及时的技术支持和解决方案,能够顺畅同步数据;数据共享更加方便,可轻松实现资源隔离和复用;无需跨网络传输数据,可规避合规风险并降低使用成本;数据实例使用过程中的问题相对较少,报表服务较为稳定。

店匠科技目前采用的数据仓库架构包括数据输入(业务系统产生的数据和服务埋点数据)、Redshift阈值集群存储、Redshift Serverless实例存储,以及用于商家服务的Starbox集群(响应时延0.3秒左右)和内部报表系统。业务系统数据主要通过DMS配置直接写入Redshift阈值集群,埋点数据则通过Kafka和数据处理服务群写入。阈值集群可与Serverless实例共享数据,实现资源隔离。店匠科技将算法资源与内部报表系统资源隔离在不同的Serverless集群中,以确保业务SLA。

在使用Redshift阈值集群的最佳实践方面,入仓场景选择阈值集群性价比较高;DMS无法处理表结构变更,需由SOP处理;Redshift对超长字符串支持一般,支持65535字节,使用Super可支持100万字节但需转换;非密集型写入业务可使用DMS直接写入,密集型写入业务则通过Kafka和Spark写入,避免Vacuum操作影响;过多业务读取流会导致业务库CPU升高,目前三条读取流基本无资源使用上升。

在使用Redshift Serverless实例的最佳实践方面,存储使用S3标准存储作为介质,成本约为每TB 24美元;实例间可共享数据;可设置资源上限控制费用上限,并关注队列控制总成本;无访问需求时RPU资源可降为0;可通过多个Serverless集群实现计算资源隔离,确保业务SLA。使用Serverless后,数据可视化体验更加流畅,服务连接性提升,一年半至一年期间故障率良好,一般几个小时级别。

店匠科技未来数据仓库架构的演进规划包括:基于EMR的Pending应用探索,实现数据同步和复用;基于Redshift的结构化数据同步改造,大部分功能已支持,将用ETL工具解决遇到的问题;优化EMR资源使用方式,尝试将阈值集群转为Serverless服务,降低硬件资源维护成本;优化Redshift Serverless实例成本,利用AI驱动的扩缩容等,预计将在2024年第二或第三季度推出RI实例,带来小幅成本降低。

总的来说,通过使用Redshift无服务器版本并结合AI优化特性,可显著提高性能和价格性能比,同时减少人工调整的需求,每个扩缩容方案均根据工作负载需求定制,获得稳定的性能并避免性能悬崖和超时循环。店匠科技分享了其在电商场景下使用Redshift构建数据仓库的实践经验,包括架构设计、最佳实践、挑战和未来规划等方面,为Redshift的应用场景和优化方向提供了宝贵的见解。两位分享者的内容为亚马逊云科技客户展示了Redshift无服务器版本和AI优化特性的实际应用,以及如何结合客户场景优化数据仓库架构和资源利用,提高性能并降低总体拥有成本。

下面是一些演讲现场的精彩瞬间:

在亚马逊云科技中国峰会2024上,演讲者就数据仓库和Redshift服务与在场观众互动,询问是否有相关负责人,并解释了Redshift为新用户提供的信用额度。

7c30d2c9d8e489c859d09f7e4bb2947a.jpeg

亚马逊云科技中国峰会2024上,演讲者介绍了一种新的扩缩预测模型,用于优化资源分配和查询执行效率。

d86549d9c1ba262eb055dc0e5b38667f.jpeg

亚马逊云科技推出了多维数据布局功能,可根据工作负载和查询经常使用的维度自动存储数据,大大提高了查询效率,相比单列排序键可将运行时间缩短40%。

a232ec97f5c0bf270b3806d5b2ffbc9d.jpeg

通过AI优化的扩缩,亚马逊云科技在非常短的时间内处理大容量查询,将整体查询延迟从48秒降低到4秒,价格能效比提升10倍以上。

654d86b17c3dfb4dd50b73d683040e8d.jpeg

店匠科技数据库和数仓负责人介绍了基于Redshift构建数仓的实践经验

亚马逊云科技中国峰会2024上,演讲者分享了Redshift阈值集群的最佳实践,包括入仓场景的性价比优势以及搭建CDC数据同步流时的注意事项。

1b215323962e9a1108ad333bc7e31a34.jpeg

亚马逊云科技在2024年中国峰会上宣布了Relative Serverless实例成本优化调整和AI驱动的自动扩缩容功能,进一步提升了云服务的性价比和弹性。

c0c2fb0f137de5cca1b27943cbb36a73.jpeg

总结

亚马逊云科技中国峰会2024上,亚马逊云科技解决方案架构师林益龙分享了Amazon Redshift的AI驱动扩缩和优化特性。他首先回顾了Redshift无服务器版本的关键特性,如自动配置节点、自动扩展计算资源、自动维护等。接着阐述了数据处理过程中遇到的资源管理痛点,如工作负载波动、内存需求不同等。

为解决这些挑战,亚马逊推出了AI驱动的扩缩和优化功能。它采用分阶段预测模型,根据查询特征智能分配最佳资源,大幅提升价格性能比。另外,多维数据布局功能可自动优化数据存储,减少数据加载时间。测试显示,新特性可将价格性能比提高10倍,同时避免性能下降和超时。

随后,店匠科技数据负责人统一五哥介绍了基于Redshift构建数仓的实践。他首先概述了店匠科技的业务场景和数仓架构,阐明了选择Redshift的原因和最佳实践。接着分享了基于Redshift Serverless的实践经验,包括资源隔离、成本控制等优势。最后,他展望了未来数仓架构的演进方向,如探索EMR、优化ETL流程、调整Serverless实例成本等。

2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值