亚马逊云科技-15分钟分析亚马逊EMR新功能GenAI

亚马逊云科技-15分钟了解分析EMR新功能GenAI

关键字: [yt, Amazon EMR, Amazon Emr Introduction, Emr Optimized Runtime Options, Transactional Data Lake Support, Emr On Ec2 Enhancements, Emr On Eks Enhancements]

本文字数: 400, 阅读完需: 2 分钟

导读

在这场亚马逊云科技活动上,Priyanka Chadwry女士发表了题为”Amazon EMR - 15分钟理解新分析功能与GenAI”的演讲。她阐释了Amazon EMR如何支持在亚马逊云科技上运行各种开源应用程序,如Hive、Presto、Trino、Spark、Flink、Iceberg和Hudi。她解释说,EMR提供了优化的运行时选项,包括EMR on EC2、EMR on EKS、EMR on 亚马逊云科技 Outposts,以及全新的EMR Serverless。

该演讲重点介绍了Amazon EMR如何实现更快的开源Spark作业,性能提升高达3倍;通过使用现货实例和Graviton实例等定价选项,降低50%-80%的成本;支持使用Apache Hudi、Iceberg和Delta Lake构建事务数据湖;以及新增的私有子网启动、细粒度访问控制、Graviton 3支持和上下文错误详细信息(用于故障排查)等增强功能。

演讲精华

以下是小编为您整理的本次演讲的精华,共100字,阅读时间大约是0分钟。

亚马逊云科技(Amazon Web Services,亚马逊云科技)的分析服务Amazon EMR(Elastic MapReduce)是一个强大的托管集群平台,旨在简化开源大数据框架的运行。EMR支持广泛的应用程序,包括Apache Hive、Apache Presto、Apache Trino、Apache Kafka、Apache Spark、Apache Flink等,并在这些框架发布60天内即可提供最新版本。这确保了客户可以快速获得新功能和增强。

EMR提供多种工作负载选项,可实现高达3倍的Spark作业加速和50%至80%的成本节省。这得益于其支持EC2 Spot实例、EC2储蓄计划、预留实例和每秒计费等多种定价模式,使客户可以在获得卓越性能的同时,最大限度降低成本支出。EMR还可独立扩展计算和存储资源,消除了预估存储需求的麻烦。

EMR在EC2实例上的传统部署方式被称为EMR on EC2,客户可自由选择集群规模。针对需要更好的运行时性能优化,EMR on EKS允许在Amazon Fargate的Kubernetes集群上运行容器化的Hadoop集群。对于希望在内部部署的客户,EMR on Amazon Outposts则提供了在Outposts上运行EMR集群的能力。而全新的EMR Serverless则进一步简化了体验,客户只需选择框架版本即可运行,无需管理任何集群。

为节省成本,EMR提供了多种选择。首先是临时集群,适用于在特定时间窗口内运行高强度工作负载,如夜间的Spark作业。其次是利用EC2的储蓄计划和预留实例,针对长期(2-3年)的EMR集群使用场景。最常见的则是使用Spot实例和实例集,前者可在需求高峰时提供更高规格的实例加速作业,后者可在Spot实例被收回时接手工作负载。此外,Amazon Web Services Graviton处理器不仅可提升17%至21%的性能,与M5实例相比,还可节省7%至13%的成本,是提高性价比的绝佳选择。

为满足日益普及的事务性数据湖需求,EMR 6.1.1版本新增了对Apache Hudi 0.13.0、Apache Iceberg 1.2.0和Delta Lake 2.2.0的支持,使客户能够利用这些开源框架构建事务性数据湖。

2023年,EMR在EC2实例上推出了多项增强。其一,客户现在可以在私有子网中启动EMR集群,启动时间缩短高达30倍,对于临时集群场景带来极大便利。其二,通过与Amazon Lake Formation的集成,EMR实现了细粒度的访问控制,允许在数据库、表和列级别定义和执行Apache Spark和Apache Hive的权限。其三,EMR新增了对亚马逊云科技最新一代Graviton 3 C7g实例的支持,可为Apache Spark工作负载带来高达13%的性价比提升。最后,EMR还优化了错误报告,提供上下文详细信息,帮助开发人员更轻松地排查集群启动失败问题。

在EKS上运行的EMR集群也获得了多项增强。首先,客户无需等待基础设施就绪,即可直接构建和执行Spark应用程序及SQL脚本,实现统一的数据治理分析。其次,客户可以跨组织合并计算资源,优化成本,并在同一集群中并行运行不同版本的Spark应用程序。此外,EMR on EKS还支持单个或多个可用区域部署、Amazon Fargate无服务器模式、自定义执行角色等,为客户带来更大的灵活性。在2023年,EMR on EKS新增了灵活的作业提交模型、垂直自动扩缩容能力,并提供了性能提升和成本降低。客户还可自主管理作业调度、容器日志轮转和作业重试等。

作为EMR的无服务器版本,EMR Serverless在去年推出后持续获得增强。它提供了性能优化的版本,可实现2倍的性能提升,并自动扩展资源,免去了集群大小估算的麻烦。EMR Serverless从一开始就支持多可用区域部署,确保任一可用区域发生故障时,集群运行不受影响。它还可自动优化成本,并提供细粒度的扩缩容能力。EMR Serverless与熟悉的Apache Airflow等工具集成,方便客户进行作业编排。2023年,EMR Serverless新增了大型工作节点配置,支持8个vCPU和高达60GB内存,或16个vCPU和高达120GB内存,以满足更多计算和内存密集型工作负载的需求。客户还可以自带容器镜像,将Spark应用程序依赖项部署到Amazon ECR,然后在EMR Serverless中使用。为了帮助客户管理总体成本,EMR Serverless现在可显示单个Spark和Hive作业的资源使用情况。最后,EMR Serverless还通过了HIPAA、HITRUST和PCI DSS等合规性认证,满足更多行业的数据安全标准。

总的来说,亚马逊云科技通过EMR的新功能和增强,为客户提供了更高性能、更低成本、更好的事务性数据湖支持和无服务器体验,以满足不断演进的大数据分析需求,助力客户在数字化转型的道路上行稳致远。

总结

亚马逊 EMR (Elastic MapReduce) 是一项强大的云服务,旨在简化在亚马逊云科技上运行诸如 Spark、Hive 和 Presto 等大数据应用程序的过程。它提供了多种优化的运行时选项,包括 EMR on EC2、EMR on EKS (Elastic Kubernetes Service) 和 EMR Serverless,以满足不同工作负载的需求。凭借节省成本的功能,如临时集群、现货实例和 Graviton 实例,EMR 以较低的成本提供了高性能。

一项重要的增强功能是支持使用 Apache Hudi、Iceberg 和 Delta Lake 进行事务性数据湖,实现高效的数据管理。EMR on EC2 现已允许在私有子网中启动集群,缩短启动时间,并提供细粒度的访问控制,以实现更好的数据治理。EMR on EKS 提供了灵活的作业提交模型、自动扩展和改进的性能,而 EMR Serverless 则引入了大型工作节点、自定义库支持和资源监控,以优化成本。

随着数据分析领域的不断发展,亚马逊 EMR 一直走在前沿,为在云中处理和分析大数据工作负载提供可扩展、安全和经济高效的解决方案。凭借其持续的增强功能和对最新开源框架的支持,EMR 使组织能够高效有效地从数据中发掘宝贵的见解。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值