hadoop的安装分为本地模式、伪分布模式、集群模式, 本地模式是运行在本地, 只负责存储, 没有计算功能.
伪分布模式是在一台机器上模拟分布式部署, 方便学习和调试.
1. 解压缩hadoop
使用winscp把压缩包: hadoop-1.0.4.tar.gz从windows复制到linux的/usr/local目录下
解压缩文件: tar -xzvf hadoop-1.0.4.tar.gz
将解压后的目录重命名为hadoop方便使用: mv hadoop-1.0.4 hadoop
此时hadoop目录的完整路径为: /usr/local/hadoop
设置环境变量HADOOP_HOME, 修改文件: /etc/profile, 并执行source /etc/profile让环境变量立刻生效
export JAVA_HOME=/usr/local/hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
hadoop的文件结构:
2. 修改配置文件
hadoop 配置文件默认是本地模式, 我们修改四个配置文件, 这些文件都位于$HADOOP_HOME/conf 目录下。
第一个是hadoop 环境变量脚本文件hadoop-env.sh。修改第9 行代码为export JAVA_HOME=/usr/local/jdk
第二个是hadoop 核心配置文件core-site.xml,结果如下
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>hadoop 的运行临时文件的主目录</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop0:9000</value>
<description>HDFS 的访问路径</description>
</property>
</configuration>
第三个是hdfs 配置文件hdfs-site.xml,结果如下
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>存储副本数</description>
</property>
</configuration>
第四个是MapReduce 配置文件mapred-site.xml,结果如下
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hadoop0:9001</value>
<description>JobTracker 的访问路径</description>
</property>
</configuration>
执行命令: $HADOOP_HOME/bin/hadoop namenode - format
4. 启动:
启动hadoop的命令脚本都在$HADOOP_HOME/bin/下,
一次性全部启动: start-all.sh, 观察控制台输出, 可以看到正在启动进程, 分别为: namenode, datanode, secondarynamenode, jobtracker,tasktracker
我们可以通过jdk的命令jps查看进程是否已经正确启动.