Hadoop是一个分布式系统基础架构,由apache基金会维护并更新。官网地址:http://hadoop.apache.org/
Hadoop项目主要包括以下4个模块:
Hadoop Common: 为其他Hadoop模块提供基础设施。
Hadoop HDFS: 一个高可靠、高吞吐量的分布式文件系统。
Hadoop MapReduce: 一个分布式的计算框架,包括任务调度和集群资源管理。
Hadoop YARN: 一个新的MapReduce框架。有兴趣的同学请参考: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
由于项目的需要,我只需要用到Hadoop中的前两个子模块,即Hadoop Common和Hadoop HDFS。首先下载hadoop2.2.0的源代码:http://apache.claz.org/hadoop/common/hadoop-2.2.0/
如下图所示,下载红色标记部分即可:
也可以用svn co拉出Hadoop的最小版本(hadoop2.*):
svn checkout http://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-dev
进入hadoop 2.20的源码文件,目录结构如下图所示: