阿里云EMR 2.0:兼容开源,贡献开源,超越开源

阿里云EMR 2.0在兼容开源技术如Spark、Flink的基础上,经历了从贡献开源到超越开源的阶段。在兼容开源阶段,EMR集成了多个开源引擎并成为阿里巴巴大数据技术的重要组成部分。贡献开源阶段,阿里巴巴对Apache Flink进行了技术创新和贡献。如今,EMR团队正基于开源技术打造企业级计算引擎,如EMR Spark,提供性能优化、诊断调优和云原生解决方案,旨在为云上客户提供最佳的开源大数据体验。
摘要由CSDN通过智能技术生成
摘要:本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:
1.兼容开源阶段
2.贡献开源阶段
3.超越开源阶段

兼容开源阶段

开源这个词在最近这几年异常的火爆,各行各业的各个厂商纷纷宣布拥抱开源并且支持开源生态。尤其在大数据这个领域,开源技术已经成为了推动整个大数据技术演进和行业发展的最重要的一股力量,同时开源技术栈也成为大数据行业的一个技术标准。阿里云EMR 作为开源大数据平台,集成了众多主流开源引擎比如 Spark、Flink、 StarRocks 等,这些引擎共同基于 EMR 计算资源底座以及数据湖存储底座,在适配阿里云生态技术栈的同时,兼容开源是 EMR 团队的一项重要工作。

事实上,阿里巴巴集团在十三年前就开始投资开源大数据领域,经过十几年的发展和进步,现在我们的开源大数据平台已经成为阿里巴巴大数据技术体系中的中坚力量。

接下去我简单分享一下阿里开源大数据技术的演进路线。

2008和2009年,阿里巴巴最主力的业务线是淘宝和天猫,其上的电商业务爆发式增长,同时业务数据也出现了大爆发,我们需要大数据技术去处理海量的业务数据,当时一度出现技术跟不上业务发展的节奏。我们在2009年选择了 Apache Hadoop 技术去支撑大数据分析业务,上线的第一个集群就达到200台规模,并且在一年内快速增长到1000台,在2014年具备跨数据中心的集群管理能力,单个开源 Hadoop 集群达到过万台的规模。开源大数据技术对阿里巴巴核心业务的发展起到了非常关键的支撑作用。这个阶段阿里巴巴是开源的受益者。

贡献开源阶段

2014年之后,因为我们在内部业务上积累了大量开源使用经验,做了不少最佳实践沉淀,我们的开源团队也转到了云上,并于2016年在阿里云推出了 EMR 产品,发现云上有更加旺盛的开源大数据的需求。

与此同时,2015年在阿里巴巴搜索推荐广告业务线上,数据实时化的需求非常强烈,我们希望搜索引擎能够搜索到实时更新的宝贝并根据用户的实时行为进行推荐,当时我们选择了 Apache Flink 作为新一代的实时计算引擎,在2016年将其上线并得到了非常好的效果。在2018年的时候,Flink 和 EMR 一样开始上云。2019年我们不仅收购了 Flink 在欧洲的创始公司,还把阿

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值