摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:
- 开源大数据的痛点及EMR产品历程
- EMR2.0 新特征
- 总结
一、开源大数据的痛点及EMR产品历程
开源大数据的痛点
- 如何提升性能,降低资源成本
全面的性能优化需要大量的研发投入且门槛较高;大数据资源使用量大,广大用户都在不断探索降本方案。
- 如何降低运维成本
开源大数据组件众多,开发上手相对容易,但是一旦业务规模和业务复杂度上升以后,所带来的运维难度和开销也随之急剧上升。
- 如何保障数据和任务的可靠性
数据是公司的无形资产,数据的丢失往往是灾难性的,尽管有多副本,但是动辄几十台,甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事,而成千上万的任务实时或周期性的运行,也会消耗大量的运维投入。
- 如何管理数据开发和治理
实现团队协同开发、安全合规的使用数据以及治理数据,也需要有方法论的支撑和产品支持。
EMR产品历程
如下图所示,自2016年阿里云推出EMR以来,阿里云EMR团队一直致力于解决以上痛点。
通过一系列的性能优化,阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩,推出了全托管的元数据和数据湖产品,大大降低了运维难度和运维成本。
通过 DataWorks on EMR 以及 EMR Studio 等产品,大大简化了数据开发以及数据治理的接入门槛。
二、EMR2.0 新特征
概述
基于云原生的理念和阿里云上日益成熟的设施,阿里云推出 EMR 2.0,构建新一代开源大数据的基础设施。
EMR 2.0的新特征包括:
全新平台体验
- 集群创建速度2倍以上优化;
- 集群扩容速度3倍以上提升;
- 弹性规模支持千台以上;
- 故障节点迁移;
- 集群诊断工具;
全新数据开发
- 全托管EMR Notebook (Jupyter);
- Workflow (Dolphinscheduler);
- 数据开发治理平台Dataworks on EMR;
全新资源形态
- EMR on EC