Hadoop在近些年经历了哪些变化呢?未来又会有哪些规划?

请问目前云计算、数据挖掘等等技术发展到了什么程度? Hadoop在其中又扮演怎样的角色?

要讲云计算、大数据和Hadoop,都很难不说Google,Google把数据当成是一种可以赚钱的 资源,它建了许多数据中心来运维基于数据的服务,采用了许多有革命性的技术。实际上,对于任何公司和企业,数据都是非常重要的资源。现在,Google、 微软、Amazon都有大数据平台,但是并不是所有的企业和公司都有能力来构建这样的系统。这就是为什么Hadoop会出现并迅猛发展的原因了。

Hadoop参照了Google的设计,但还是有许多不同之处。作为一个开源平台,而不是面向某个公司的业务来定制,Hadoop是非常成功的一个 系统。但是,相对于Google等公司的平台,Hadoop在具体设计和实现上并不是最优的。但它拥有一个强大的开源社区,为大家提供了了一个稳定可靠的 系统,还有许多成功的应用案例,这就使得它几乎是开源云计算平台的选择。有些人可能没听说过Google的Pregel、Bigtable或者微软的 DryadLINQ,但大多知道Hadoop、HBase和Hive。

分布式系统的历史其实很长,Hadoop是第一个能让普通大众完全掌握分布式系统的技术,它降低了分布式系统的门槛。过去,如果企业有处理大量数据 处理的需求,要选择搭建分布式环境,就必须投入很高的成本,买昂贵的机器,还要求这方面的专业人才。而现在买差不多的机器,搭建一个Hadoop集群就可 以了。当然不是说Hadoop对硬件的要求就非常低,而是因为现在一台简单的刀片能力也很强了。现在用一个几十万的平台,就可以做很多的事 情,Hadoop把运维分布式系统的门槛降低了。就像Unix和Linux的关系,Unix并不大众化,而Linux则是一个大众化的东西,大家都可以去 修改它,应用也非常广泛,从这一点上看,Hadoop是一个非常了不起的系统。

Hadoop在近些年经历了哪些变化呢?未来又会有哪些规划?

就像《Hadoop实战》这本书里提到的,Hadoop在0.20版本中引入了一个新的 MapReduce API,作者预计在0.21中旧的API会被废弃。但实际上因为新API还有许多不完善的地方,所以我们现在看到0.21中依然保留了旧的API。按计划 0.23版本会出现MapReduce 2.0,要说清楚这个,需要先说说MapReduce的含义。

Hadoop中的MapReduce其实包含了两个含义,一个是就是刚才讲的——给用户的编程模型API,另一个是指内部MapReduce的运行 框架,负责资源调度和数据通信管理。现有的Hadoop中,MapReduce的编程模型和运行框架是绑定死的,而在MapReduce 2.0中,会把JobTracker分为ResourceManager和ApplicationMaster,分离编程模型与运行框架。这相当于把应用 和资源分别管理,让系统架构更为灵活高效,就可以在一个平台上支持多个编程模型,适应更多的应用。对于Hadoop而言,这是的一个非常大的修改。

除了MapReduce外,未来的Hadoop版本还会在HDFS、HBase、Hive等方面做出许多改进,在Hadoop官方网站上可以了解到很多相关的信息。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
1.初学者的 Hadoop学习线路
2.Hadoop对于大数据有哪些优势呢
3.Hadoop、spark、SaaS、PaaS、IaaS、云计算概念区分?

多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页