现在再写这篇文章感觉有些不合时宜,目前,貌似很少人再讨论大数据,也很少人再讨论hadoop。整理这篇文章,是为了探寻新的技术方向。
先来看看几篇讨论文章(有删减):
Hadoop是否已死,Spark称霸
由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。
原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR。
Mahout将不再接受任何形式的以MapReduce形式实现的算法,另外 方面,Mahout宣布新的算法基于Spark
Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark
Google已经开始将负载从MapReduce转移到Pregel和Dremel上
FaceBook则将负载转移到Presto上
Hadoop为何不改进自己?
Hadoop的改进基本停留在代码层次,也就是修修补补的事情,这就导致了Hadoop现在具有深度的“技术债务”,负载累累;
Hadoop本身的计算模型决定了Hadoop上的所有工作都要转化成Map、Shuffle和Reduce等核心阶段,由于每次计算都要从磁盘读或者写数据,同时真个计算模型需要网络传输,这就导致了越来越不能忍受的延迟性,同时在前 个任务运行完之前,任何 个任务都不可以运行,这直接导致了其无力支持交互式应用;
那么,为什么不全部重新写 个更好的Hadoop呢?答案是Spark的出现使得没有必要这样做了。
Spark是继Hadoop之后,成为替代Hadoop的下 代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache Project。
为什么需要Spark?
Spark是可以革命Hadoop的目前替代者,能够做Hadoop做的 切事情,同时速度比Hadoop快了100倍以上。不得不提的是Spark的“One stack to rule them all”的特性,Spark的特点之 就是用 个技术堆栈解决云计算大数据中流处理、图技术、机器学习、交互式查询、误差查询等所有的问题。如果你对大数据开发感兴趣,想系