Hadoop社区比 Ozone 更重要的事情

作者分析了Hadoop项目的核心定位,指出Ozone作为对象存储虽有价值,但无法解决Hadoop的核心挑战,如复杂性、成本和性能问题。文章强调Hadoop社区应聚焦于大数据平台的核心需求,如降低成本的Erasure Coding(EC)、存储计算分离和拥抱云计算。作者提出强化存储解决方案、支持存储计算分离和优化云原生计算调度是Hadoop社区的优先任务,并分享了阿里巴巴在JindoFS上的实践经验。
摘要由CSDN通过智能技术生成

作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台。


最近几年忙着优化大客户上云使用 Hadoop / Spark 这种事情,Hadoop 社区的工作参与得比较少了。偶尔参与一些投票表决的事情,貌似新晋的 committer 都跟一些新项目有关,比如 Ozone。这个事情在国内有大厂在参与,看起来力度还不小,然后时不时地就有同学跑过来问我的看法。正好 Spark 中国社区跟我约篇文章,何不就此把我的零碎看法整理出来,一箭双雕,如果再有人问类似的问题,我就可以把这篇文章转给 TA。

简单来讲。Ozone 是很不错,也很有用;但从我作为一个社区参与者的角度来看,它救不了 Hadoop,就这个项目的前后十年来说,Hadoop 社区有远比它更重要的挑战需要去解决。

再过个五年十年,我们不妨做个想象,在开源与云厂商相爱相杀的格局下,在开源大数据的这个生态系统和版图格局里面,哪些项目会活得更滋润,哪些项目则日渐式微?毫无疑问,新的技术新的项目仍将不断涌出,Spark,Flink 也不能说就高枕无忧,但我想说明的是,Hadoop 生态会继续向前发展,Hadoop 项目本身的前景则可能更加黯淡。有长久生命力的东西都有它核心的定位和使命,然后基于此不断革新和进化。Spark 和 Flink 都定位是计算平台,前者从批计算入手,后者从实时切入,都不断夯实基础补足短板支持新的计算场景完善它的生态。然而Hadoop呢?

Hadoop 项目的核心定位是什么?我想最没有争议的应该是大数据平台,核心支撑有二,一是存储,二是调度;承载的是计算,包括各种辅助支持,比如安全。我对调度略懂,存储上可以展开说说,姑妄言之。Hadoop 社区最近几年,在它的核心支撑点存储上面,应该最主要的工作就是开发 Ozone。Ozone 定位是对象存储,类似于 AWS 的 S3,阿里云的 OSS,只是 Hadoop 出品,虽然姗姗来迟。我记得大概是在五年前吧,那时正和社区热火朝天地搞 HDFS EC ,突然 HortonWorks 一帮人抛出 Ozone,说是要搞对象存储,当时给我的感觉就像是不务正业。

对吧,你不能说人家 AWS 搞 S3 受欢迎,你也要有,它跟 HDFS 有啥关系对解决 HDFS 核心挑战有啥助益?说的最多的是解决小文件,可这个问题并非核心,一般都从数据治理入手规避掉了。还有就是近乎无限的水平扩展性,可人家是云厂商面向海量用户海量提供,单个用户来部署 Hadoop 的哪有那么大的体量?阿里巴巴数据体量非常非常大,不可能靠 Hadoop 来支撑,所以自研飞天。Hadoop 比较合适的用户定位应该是中大规模部署,小到几十个节点几 PB 数据规模,大到上千节点上百 PB 数据这种。这类用户使用 HDFS 的核心痛点是什么呢?Ozone能不能实质性地解决这些核心挑战?下面我们来分析看看。

第一,复杂。非常的复杂。HDFS部署一套高

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值