阿里云EMR 2.0：重新定义新一代开源大数据平台

阿里云云栖号

于 2023-02-13 15:33:38 发布

阅读量1.1k

点赞数

分类专栏：云栖号技术分享文章标签：大数据服务器运维云计算阿里云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yunqiinsight/article/details/129010151

版权

阿里云EMR2.0针对开源大数据的痛点，如性能、运维成本、数据可靠性及数据治理，提出了一系列解决方案。新产品特性包括更快的集群创建与扩容速度、全托管的数据开发工具、新的资源形态如EMRonECS、EMRonACK和EMRServerless，以及倚天芯片带来的性价比提升。此外，EMR2.0提供了数据湖、数据分析、实时数据流等不同分析场景的支持，通过智能化和效率优化提升用户体验。

摘要由CSDN通过智能技术生成

摘要：本文整理自阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分：

开源大数据的痛点及EMR产品历程
EMR2.0 新特征
总结

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

如何提升性能，降低资源成本

全面的性能优化需要大量的研发投入且门槛较高；大数据资源使用量大，广大用户都在不断探索降本方案。

如何降低运维成本

开源大数据组件众多，开发上手相对容易，但是一旦业务规模和业务复杂度上升以后，所带来的运维难度和开销也随之急剧上升。

如何保障数据和任务的可靠性

数据是公司的无形资产，数据的丢失往往是灾难性的，尽管有多副本，但是动辄几十台，甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事，而成千上万的任务实时或周期性的运行，也会消耗大量的运维投入。

如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据，也需要有方法论的支撑和产品支持。

EMR产品历程

如下图所示，自2016年阿里云推出EMR以来，阿里云EMR团队一直致力于解决以上痛点。

通过一系列的性能优化，阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩，推出了全托管的元数据和数据湖产品，大大降低了运维难度和运维成本。

通过 DataWorks on EMR 以及 EMR Studio 等产品，大大简化了数据开发以及数据治理的接入门槛。

二、EMR2.0 新特征

概述

基于云原生的理念和阿里云上日益成熟的设施，阿里云推出 EMR 2.0，构建新一代开源大数据的基础设施。

EMR 2.0的新特征包括：

全新平台体验

集群创建速度2倍以上优化；
集群扩容速度3倍以上提升；
弹性规模支持千台以上；
故障节点迁移；
集群诊断工具；

全新数据开发

全托管EMR Notebook (Jupyter)；
Workflow (Dolphinscheduler)；
数据开发治理平台Dataworks on EMR；

全新资源形态

EMR on EC

最低0.47元/天解锁文章

阿里云云栖号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。