1. 需要的软件
(1) Vmware(我用的是Vmware7.1.4)
(2)linux(我用的是RedHat 9.0)
(3) hadoop-1.0.4.tar
(4) jdk-6u41-linux-i586-rpm.bin(1.6版本以上)
(5)Hbase-0.94.7.tar.gz
(6)zookeeper-3.4.5.tar.gz(stable版本)
(7) eclipse-java-helios-linux-gtk.tar
2. 安装Hadoop
2.1 安装JDK(以jdk-6u41-linux-i586-rpm.bin为例)
第一步 在当前目录先点击运行jdk-6u41-linux-i586-rpm.bin或在dos命令下运行,安装成功后会在usr目录下生成java文件夹。
第二步在dos命令下运行命令java –version 如果出现版本信息,说明JDK安装成功,否则需要进行环境变量的设置,具体方法网络上很多,可以自己查看。
2.2 安装hadoop
(1)在网站(http://hadoop.apache.org/releases.html)上下载Hadoop安装包,并在文件夹usr下解压,解压命令是:tar zxvf hadoop-1.0.4.tar 。
(2)在配置hadoop之前,需要进行ssh的配置。ssh配置步骤如下:
(root@localhost )>>ssh-keygen -t rsa -P "" //将密码设为空
(root@localhost )>>cat $HOME/.ssh/id_rsa.pub >> $HOME/authorized_keys //这一步是让你能够用SSH访问本地计算机
(root@localhost )>>ssh localhost //测试ssh
(3)接下来配置hadoop的相关配置文件。
<1>配置hadoop-env.sh文件,将此文件中的JAVA_HOME环境变量修改为自己的jdk的路径,比如我的jdk安装目录为/usr/java/jdk1.6.0_41,所以我的JAVA_HOME可配置为
JAVA_HOME=/usr/java/jdk1.6.0_41 。
<2>配置core-site.xml文件。首先输入命令:
(root@localhost )>>cd /usr/hadoop-1.0.4/conf
进入hadoop配置文件的目录后给core-site.xml文件添加如下内容:
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
<description>hdfs的URI,文件系统://namenode 标识:端口号</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadooptmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
</property>
<3>配置hdfs-site.xml文件。添加如下内容到hdfs-site.xml。
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hdfs/name</value>
<description>namenode上存储hdfs名子空间元数据</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/hdfs/data</value>
<description>datanode上数据块的存储位置</description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<4>配置mapred-site.xml文件。添加内容如下:
<5>配置masters文件。如果配置伪分布式模式,则添加localhost就可以。否则添加对应的IP地址或域名作为其主服务器master以及namenode节点,例如我的ip地址为: 192.168.1.121。
<6>配置slaves文件。如果配置伪分布式模式,则添加localhost就可以,否则添加其他ip地址作为hadoop的datanode节点,例如我的IP地址为:192.168.1.122 、192.168.1.123。
<7>测试hadoop,输入命令:
(root@localhost hadoop-1.0.4)>>bin/hadoop namenode –format //注意这个是hadoop启动器必须要进行格式化。否则无法在hdfs中创建目录和文件。
(root@localhost hadoop-1.0.4)>>bin/start-all.sh //启动hadoop
(root@localhost hadoop-1.0.4)>>jps
如果现实的进程包括namenode、datanode、jobtracker、secondarynamendoe,则表示hadoop启动成功。