阿里云EMR 2.0:重新定义新一代开源大数据平台

阿里云EMR2.0针对开源大数据的痛点,如性能、运维成本、数据可靠性及数据治理,提出了一系列解决方案。新产品特性包括更快的集群创建与扩容速度、全托管的数据开发工具、新的资源形态如EMRonECS、EMRonACK和EMRServerless,以及倚天芯片带来的性价比提升。此外,EMR2.0提供了数据湖、数据分析、实时数据流等不同分析场景的支持,通过智能化和效率优化提升用户体验。
摘要由CSDN通过智能技术生成
摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:
  1. 开源大数据的痛点及EMR产品历程
  2. EMR2.0 新特征
  3. 总结

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

  • 如何提升性能,降低资源成本

全面的性能优化需要大量的研发投入且门槛较高;大数据资源使用量大,广大用户都在不断探索降本方案。

  • 如何降低运维成本

开源大数据组件众多,开发上手相对容易,但是一旦业务规模和业务复杂度上升以后,所带来的运维难度和开销也随之急剧上升。

  • 如何保障数据和任务的可靠性

数据是公司的无形资产,数据的丢失往往是灾难性的,尽管有多副本,但是动辄几十台,甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事,而成千上万的任务实时或周期性的运行,也会消耗大量的运维投入。

  • 如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据,也需要有方法论的支撑和产品支持。

EMR产品历程

如下图所示,自2016年阿里云推出EMR以来,阿里云EMR团队一直致力于解决以上痛点。

通过一系列的性能优化,阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩,推出了全托管的元数据和数据湖产品,大大降低了运维难度和运维成本。

通过 DataWorks on EMR 以及 EMR Studio 等产品,大大简化了数据开发以及数据治理的接入门槛。

二、EMR2.0 新特征

概述

基于云原生的理念和阿里云上日益成熟的设施,阿里云推出 EMR 2.0,构建新一代开源大数据的基础设施。

EMR 2.0的新特征包括:

全新平台体验

  • 集群创建速度2倍以上优化;
  • 集群扩容速度3倍以上提升;
  • 弹性规模支持千台以上;
  • 故障节点迁移;
  • 集群诊断工具;

全新数据开发

  • 全托管EMR Notebook (Jupyter);
  • Workflow (Dolphinscheduler);
  • 数据开发治理平台Dataworks on EMR;

全新资源形态

  • EMR on EC
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值