EMR on ACK 全新发布,助力企业高效构建大数据平台

阿里云EMR on ACK提供了一种在容器服务ACK上部署开源大数据服务的新方式,允许用户轻松运行Spark、Presto、Flink作业。该服务通过Remote Shuffle Service实现计算与存储分离,借助JindoFS提升OSS性能,并优化调度框架,带来比开源更高的性能。此外,EMR on ACK支持错峰调度,简化集群管理和运维。
摘要由CSDN通过智能技术生成

作者

范振(辰繁), 阿里云计算平台事业部高级技术专家

阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。

1

背景介绍   

技术趋势  

  • 存储与计算分离,向云原生演进

  • 在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率

  • 统一运维入口,统一运维工具链,统一监控体系

  • 以集群为中心->以作业为中心

  • 多版本支持,例如可以同时跑 Spark2.x、Spark3.x


云原生面临挑战

  • 计算与存储分离:如何构建以对象存储 OSS 为底座的 HCFS 文件系统

• 需要完全兼容现有的 HDFS

• 性能对标 HDFS,成本降低

  • 计算引擎 shuffle 数据存算分离:如何解决 ACK 混合异构机型

• 异构机型没有本地盘

• 社区[ Spark-25299]讨论,支持 Spark 动态资
         源,成为业界共识

  • ACK 调度能力:如何解决调度性能瓶颈

• 性能对标 Yarn

• 多级队列管理

  • 错峰调度

• 借助 K8s 操作系统能力,编排组织各种业务的波
         峰波谷

EMR on ACK 优势

  • Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案

• 可以使计算节点无需本地盘和云盘

• 支持打开 Spark 动态资源功能,Spark-25299
         终极方案

  • JindoFS 针对 OSS 存储提供湖加速解决方案

• Block 模式1TB TPCDS 场景下有15%以上的性能
         提升

  • 调度层面支持 Scheduler Framework V2

• 调度性能比社区提升3x以上

• 提供多级队列管理

  • 引擎能力增强

• 10TB TPCDS Benchmark 场景下,EMR Spark
         比社区有3x性能提升

• Hudi、DeltaLake 比社区功能性能增强

  • 完整的错峰调度方案

2

EMR 容器化架构   

EMR on ACK 架构

  • 轻量化管控,对接已有数据平台

  • 通过数据开发集群/调度平台提交到不同的执行平台

  • 错峰调度,根据业务高峰低峰策略调整

  • 云原生数据湖架构,ACK 弹性扩缩容能力强

  • ACK 管理异构机型集群,灵活性好

3

产品介绍   

产品首页

参考链接:
https://www.aliyun.com/product/emapreduce

EMR on ACK Beta 版: 

https://emr-next.console.aliyun.com/

新建集群

地域:目前开放杭州、上海、北京、深圳等地域(持续开放中)

集群类型:Spark 、Shuffle Service、Presto

  • Spark — 通用的分布式大数据处理引擎

    • 提供了 ETL、离线批处理、数据建模等能力

  • Shuffle Service — 针对 EMR 计算引擎提供优化的 Shuffle 服务
    • 解决 Kubernetes 下对本地盘的依赖问题

 • 解决大规模计算集群的网络和磁盘的 IO 瓶颈

 • 支持计算与存储分离的架构,可服务多个EMR
          集群

  • Presto — 基于内存的分布式SQL交互式查询引擎

  • 支持多种数据源

 • 适合 PB 级海量数据的复杂分析,以及跨数据源
          的查询

组件版本:Spark (3.1.1)

专属节点:

  • 现有 ACK 集群,share 部分节点给到 EMR

  • 新建 ACK 集群,可选择整个集群为专属节点

OSS Bucket:用于存储作业、日志、jar 包等信息

集群管理

  • 集群 ID/名称:点击进入作业管理

  • 集群状态:检测集群是否可用

  • 所属 ACK 集群:可关联到现有 ACK 集群

  • 配置:Spark 作业配置

  • 释放:释放空间

点击文章下方阅读原文,直接观看公开课视频,获取讲师实例讲解~


END

第一时间掌握产品发布动态,资深技术专家在线答疑
欢迎扫码加入钉钉交流群!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值