阿里云EMR 2.0:重新定义新一代开源大数据平台

摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:

1.  开源大数据的痛点及EMR产品历程

2.  EMR2.0 新特征

3.  总结

1

开源大数据的痛点及EMR产品历程  

1.  开源大数据的痛点  

  • 如何提升性能,降低资源成本

全面的性能优化需要大量的研发投入且门槛较高;大数据资源使用量大,广大用户都在不断探索降本方案。 

  • 如何降低运维成本

开源大数据组件众多,开发上手相对容易,但是一旦业务规模和业务复杂度上升以后,所带来的运维难度和开销也随之急剧上升。 

  • 如何保障数据和任务的可靠性

数据是公司的无形资产,数据的丢失往往是灾难性的,尽管有多副本,但是动辄几十台,甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事,而成千上万的任务实时或周期性的运行,也会消耗大量的运维投入。 

  • 如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据,也需要有方法论的支撑和产品支持。 

2.  EMR产品历程  

如下图所示,自2016年阿里云推出EMR以来,阿里云EMR团队一直致力于解决以上痛点。 

通过一系列的性能优化,阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩,推出了全托管的元数据和数据湖产品,大大降低了运维难度和运维成本。 

通过 DataWorks on EMR 以及 EMR Studio 等产品,大大简化了数据开发以及数据治理的接入门槛。

3994b6396c7a3b9d5711af778314729c.png

2

EMR2.0 新特征

1.  概述  

基于云原生的理念和阿里云上日益成熟的设施,阿里云推出 EMR 2.0,构建新一代开源大数据的基础设施。 

EMR 2.0的新特征包括: 

全新平台体验  

  • 集群创建速度2倍以上优化

  • 集群扩容速度3倍以上提升

  • 弹性规模支持千台以上

  • 故障节点迁移

  • 集群诊断工具

全新数据开发  

  • 全托管EMR Notebook (Jupyter)

  • Workflow (Dolphinscheduler)

  • 数据开发治理平台Dataworks on EMR

全新资源形态  

  • EMR on ECS,支持倚天g8,性价比提升超过40%

  • EMR on ACK(K8s)

  • EMR Serverless

全新分析场景  

  • 新版数据湖

  • 数据分析

  • 数据服务

  • 实时数据流

  • 数据科学

2.  EMR 2.0产品架构  

如下图所示,EMR 2.0产品架构自下而上包括:

6edb6a01ebe8777a820fe3488bc03ae1.png

硬件资源  

  • EMR 2.0支持ECS(Intel, AMD, 倚天)/神龙/ECI

存储资源  

  • 在存储资源上,数据湖架构已经已经逐步成为业界的共识,阿里云在对象存储OSS 技术上升级为 OSS-HDFS 兼容 HDFS API 

调度资源  

  • 支持 EMR on ECS、EMR on ACK、EMR Serverless  

管控平台  

  • 监控告警

  • 弹性调度

  • 集群诊断

  • 故障补偿

  • 权限&安全

  • 组件管理

分析场景  

  • 新版数据湖 Datalake

  • 数据分析 OLAP

  • 实时数据流 Dataflow

  • 数据服务 DataServing

  • 数据科学 DataScience

开发工具  

  • 开源解决方案 EMR Studio (Notebook, Workflow) 

  • 企业级开发平台 DataWorks on EMR  

元数据管理和湖管理  

  • 在原有的数据湖构建DLF上 新增了权限生命周期管理、湖管理等新特性。   

3.  全新平台体验  

  • 阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面升级。

Elasticity 弹性  

  • 集群创建,弹性性能大幅提升

  • 异构实例,竞价实例满足个性化弹性需求

Stability 稳定性  

  • 节点迁移,故障节点自动补偿

  • 组件状态巡检,事件通知 

Intelligence 智能  

  • 集群资源诊断

  • 风险预警

  • 实时检测

Efficiency 效率  

  • 交互式数据开发

  • 一键任务提交

  • 配置导出&集群克隆

4.  全新数据开发  

EMR 2.0提供两套解决方案供不同用户选择,分别是:基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案,和阿里云自研的企业级数据开发与治理 DataWorks on EMR。 

EMR Studio (Notebook, Workflow)  

  • 基于 Jupyter 的全托管SaaS化的 Notebook

    • 直接在EMR管控台页面创建一个 notebook 并快速与EMR集群进行关联,几分钟内就可以开始对数据进行分析,无需担心代码的保存以及计算资源维护;

    • 对 Jupyter Notebook 进行了优化:如支持 StarRocks 快速指定引擎类型。

  • 基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow

    • 开箱即用,一键关联集群。

EMR Studio 提供了全新的开源数据开发体验,在EMR服务费之外,不收取额外费用。

408f1776509ba0c692acb81c546e871b.png

DataWorks on EMR,企业级数据开发与治理  

DataWorks 是一套在阿里内部历经几万用户十几年打磨的产品,能够满足企业一站式数据开发和数据治理的诉求。DataWorks 支持数据集成、数据开发调度、数据建模、数据质量、数据地图、数据安全、数据分析、数据服务以及开放的API等能力:

  • 数据集成:基于DataX,支持几十种数据源作为 source 和 sink 进行数据同步;

  • 数据开发:线上的 IDE,支持 Spark、Hive、Presto、ClickHouse 的开发;

  • 数据质量:根据任务配置的规则,对任务的产出结果进行正确性验证;

  • 数据地图:采集字段级粒度的数据血缘;

  • 数据安全:提供表和字段级别的权限管理;

  • 数据分析:提供快速交互式的分析和可视化分析能力;

  • 数据服务:简化数据查询服务的开发,通过写 SQL 就可以提供数据查询的接口;

  • 开发平台:提供一系列的 API 供用户进行二次开发。 

e57bd7adc79141264cf436c537956552.png

5.  全新资源形态  

随着云原生技术越来越成熟,EMR 也提供了各种资源管理形态。 

EMR on ECS  

  • 支持组件最全,自定义能力最强;

  • 跟传统模式最接近,便于快速迁移。

EMR on ACK  

  • 完全兼容 K8S,10秒级资源调度;

  • 支持 Spark, Flink, Presto, RSS 组件;

  • 配合 ECI,自动弹性,秒级扩容;

  • 完整的任务提交、管理、监控能力。

EMR Serverless  

  • 首先推出的是 StarRocks;

  • 全托管,最小化的运维成本;

  • 高可用,SLA 99.99%;

  • 开箱即用,对接 EMR Notebook;

  • 成本低,按需扩容资源。 

87a6a056063e69cff88bfc7a45531e9f.png

新硬件,倚天性价比提升40%以上

在2022年云栖大会上,阿里云推出了中国首个云上大规模应用自研CPU倚天710,EMR2.0 也将推出倚天机型。倚天采用最先进的ARM架构和生产工艺,在通用智能性能提升的基础上,降低了整体的资源成本:

  • 在ECS价格方面,倚天G8系列较X86的机器系列价格降低20%以上,计算型系列价格降低超过30%,大幅降低企业成本;

  • 在性能方面,物理核的倚天机型性能更高,CPU占用率更低;在EMR对倚天机型适配后,进行了 TPC-DS 的 Benchmark 测试,在G8Y与G7的对比中,同样采用了六台8core 32G的机型,倚天的TPC-DS耗时减少25%。

7fc7545e3e22a6089c18d8af448ab989.png

6.  全新分析场景  

EMR结合自身的技术优势和实践经验,对大数据场景进行了分类,方便用户快速构建适合业务的大数据集群:

数据湖  

  • 数据湖集群包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件;支持用户构建数据仓库,进行数据 ETL 以及数据湖分析。

实时数据流  

  • 实时数据流包含 Flink、Kafka 等组件;支持用户进行实时计算,构建在线决策、实时监控、实时计算等系统。

数据分析  

  • 数据分析主要包含 StarRocks、Doris、ClickHouse 等组件;广泛应用于用户画像分析,交互式分析,构建BI报表系统和对接业务系统。

数据服务  

  • 数据服务主要包含 Hbase、Phoenix 组件;支持时序数据分析、feeds流推送和用户行为收集。

数据科学  

  • 数据科学主要包含 Tensorflow、PyTorch 组件;

  • 面向机器学习、数据挖掘、特征建模等场景。

对于部分客户出于成本控制的考虑,希望将多种业务混部在一个集群,EMR 还支持自定义集群,可以将多种场景下的组件混合部署在一起。 

f5892141f8165e66a3c438557c1f8a99.png

以用户使用最多的数据湖场景为例,EMR 在计算、存储和治理方面都做了大量的优化。

  • 在存储层面,EMR 推出 OSS-HDFS,可完全兼容 HDFS API,用户可以平滑的将 HDFS 迁移到 OSS 上;

  • 在计算层面,计算任务无需二次开发,可以直接运行在存算分离的数据湖架构上;

  • 在1PB的场景下测算,经过合理的冷热分层,可以节省40%的资源成本,同时计算资源也可以实现按需或者按负载弹性使用,大大降低了资源消耗;

  • 在计算引擎层面,EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化,ETL 和分析场景下性能有明显提升;

  • 在数据湖管理层面,DLF湖管理实现湖数据生命周期管理,包括:元数管理与服务、权限控制与审计、数据质量控制、湖表管理与优化、存储管理与优化、全新数据迁移入湖。

75c820134815a8377ad6b869fe509d58.png

3

总结

EMR2.0 从管控到引擎,从资源形态到应用场景都在积极创新,希望更好的解决用户在开源大数据遇到的痛点问题。 

EMR2.0 的控制台入口也升级到了emr-next,欢迎前往使用新版EMR。

新版EMR地址

https://emr-next.console.aliyun.com/  


504c1117f58460ae39734a2fac6d1de2.gif

戳“阅读原文“查看原文视频!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
WebBuilder是一款跨平台、数据库和浏览器的可视化Web应用开发平台。WebBuilder使用了多项最的技术,使Web应用的开发更快捷和简单。 作为一款高效的Web开发工具,WebBuilder的特色是: .基于浏览器的集成开发环境 .丰富的组件库 .开发应用简单快速 .高效率和高稳定性 .跨平台、数据库和浏览器 .服务器端的脚本支持 .智能的数据库访问机制 使用WebBuilder可开发ERP、OA、CRM、HR、MIS以及电信、银行、政府、企业等各行业的企业级应用系统,帮助信息化管理系统的快速构建。完善的基础架构,具有大型应用系统必须的完整功能,使应用系统的开发仅需致力于业务的开发。 您可以到 http://www.putdb.com 在线使用或下载到本地使用,软件开源并基于GPL协议授权。 功能强大的集成开发环境 在线的带语法分析和高亮的Java、JavaScript、ServerScript、SQL编辑器,所见即所得的表单设计器,强大的组件管理器和模块管理器,智能的对象探测器。 企业级的Portal 灵活且易于使用的Portal整合了各方应用,给用户的操作带来了极佳的体验。 跨异构数据库的管理工具 在线表格编辑,高亮的SQL和语法分析,支持大数据量的访问,支持所有类型数据(包括BLOB)的导入导出。 跨平台的远程服务器文件访问 使用资源管理器般的简单,就能轻松操纵远程服务器系统,给系统的远程开发带来方便。 随心所欲的权限控制 能够对任意粒度的操作进行严格的权限控制。 企业级的后台任务管理 管理和控制后台计划任务稳定地运行。 纯HTML和JavaScript 包括图表在内,无任何插件,可以方便地在任何终端上面访问。 丰富的组件库 支撑后台和前台应用的快速开发。 国际化开发支持 解决不同区域的文字、日期和数字等的差异。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值