Hadoop是Apache提供的一套开源的,可靠的,可扩展(可伸缩的),用于分布式计算的框架。
Apache Hadoop对版本的管理的控制是非常混乱的。
发展历程
创始人:Doug Cutting,Caferalla
在2002年,Doug和Mike想设计一套搜索引擎Nutch,爬取了全网的10亿个网页的数据。
在2003年,Google发表了一篇论文<The Google FileSystem>(GFS)阐述了了GFS的存储原理。Doug就根据这篇论文设计实现了NDFS(Nutch Distributed FileSystem)。
在2004年,Google发表了一篇论文<The Google MapReduce>阐述了谷歌的引擎的分布式计算的思想。Doug根据这篇论文设计实现了Nutch中的MapReduce。
从Nutch0.8版本开始,Doug就将NDFS以及MapReduce从Nutch中分离出来,形成了一个新的系统Hadoop。同时将NDFS更名为HDFS。
在2008年,Doug携带着Hadoop去了Yahoo。期间还参与了Pig,HBase等框架。
Yahoo将Hadoop,Pig,HBase等框架都贡献给了Apache。
Hadoop的厂商:Apache,CDH,Hotston,MapR。
Hadoop的版本
Modules
The project includes these modules:
- Hadoop Common: The common utilities that support the other Hadoop modules.基本模块
- Hadoop Distributed F