当你还在讨论大数据的时候,你是否还在说Hadoop?

随着技术的发展,Hadoop在大数据领域的主导地位受到挑战。文章探讨了Hadoop因高延迟等问题逐渐失去市场份额,以及Spark如何凭借更快的速度和全面的生态系统成为Hadoop的替代者。Google等公司已转向Pregel、Dremel等新技术,预示着大数据处理的新格局。Hadoop的未来面临不确定性,而Spark引领的新技术可能成为新的行业标准。
摘要由CSDN通过智能技术生成

现在再写这篇文章感觉有些不合时宜,目前,貌似很少人再讨论大数据,也很少人再讨论hadoop。整理这篇文章,是为了探寻新的技术方向。

当你还在讨论大数据的时候,你是否还在说Hadoop?

 

先来看看几篇讨论文章(有删减):

Hadoop是否已死,Spark称霸

由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。

原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR。

Mahout将不再接受任何形式的以MapReduce形式实现的算法,另外 方面,Mahout宣布新的算法基于Spark

Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark

Google已经开始将负载从MapReduce转移到Pregel和Dremel上

FaceBook则将负载转移到Presto上

Hadoop为何不改进自己?

Hadoop的改进基本停留在代码层次,也就是修修补补的事情,这就导致了Hadoop现在具有深度的“技术债务”,负载累累;

Hadoop本身的计算模型决定了Hadoop上的所有工作都要转化成Map、Shuffle和Reduce等核心阶段,由于每次计算都要从磁盘读或者写数据,同时真个计算模型需要网络传输,这就导致了越来越不能忍受的延迟性,同时在前 个任务运行完之前,任何 个任务都不可以运行,这直接导致了其无力支持交互式应用;

那么,为什么不全部重新写 个更好的Hadoop呢?答案是Spark的出现使得没有必要这样做了。

Spark是继Hadoop之后,成为替代Hadoop的下 代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache Project。

 为什么需要Spark?

Spark是可以革命Hadoop的目前替代者,能够做Hadoop做的 切事情,同时速度比Hadoop快了100倍以上。不得不提的是Spark的“One stack to rule them all”的特性,Spark的特点之 就是用 个技术堆栈解决云计算大数据中流处理、图技术、机器学习、交互式查询、误差查询等所有的问题。如果你对大数据开发感兴趣,想系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值