原文地址:Hadoop安装教程_单机/伪分布式配置_Ubuntu 14.04/Hadoop 2.4.1
环境
- 系统: Ubuntu 14.04 64bit
- Hadoop版本: hadoop 2.4.1 (stable)
- JDK版本: OpenJDK 7
创建hadoop用户
如果你安装Ubuntu的时候不是用的hadoop
用户,那么需要增加一个名为hadoop
的用户,并将密码设置为hadoop
。
创建用户
sudo useradd hadoop
修改密码为hadoop
,按提示输入两次密码
sudo pwsswd hadoop
给hadoop用户创建目录,方可登陆
cd /home
mkdir hadoop
sudo chown hadoop /home/hadoop
修改hadoop权限,进入系统设置->用户账户,首先点击右上角的“解锁”,然后将用户类型从标准改为管理员,如下图所示。
接着注销当前用户,使用hadoop用户登陆。
安装SSH server、配置SSH无密码登陆
Ubuntu默认安装了SSH client,还需要安装SSH server。
sudo apt-get install openssh-server
集群、单节点模式都需要用到SSH无密码登陆,首先设置SSH无密码登陆本机。
输入命令
ssh localhost
会有如下提示(SSH首次登陆提示),输入yes。
然后按提示输入密码hadoop
,这样就登陆到本机了。但这样的登陆是需要密码的,需要配置成无密码登陆。
先输入 exit 退出ssh,然后执行如下命令:
cd ./.ssh # 如果没有该目录,先执行一次ssh localhost
ssh-keygen -t rsa # 一直按回车就可以,生成的密钥保存为.ssh/id_rsa
cp id_rsa.pub authorized_keys
此时再用ssh localhost
命令,就可以直接登陆了,如下图所示。
安装Java环境
以前的教程都是建议安装Oracle的JDK,不建议使用OpenJDK,不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的,新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。
sudo apt-get install openjdk-7-jre openjdk-7-jdk
默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64
(可以通过命令dpkg -L openjdk-7-jdk
看到)。安装完后就可以使用了,可以用java -version
检查一下。
安装Hadoop 2.4.1
2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz,安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html。
下载后,解压到/usr/local/中。
sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local # 解压到/usr/local中
sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop # 将文件名改为hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop # 修改文件权限
Hadoop解压后即可用,只需要修改环境变量信息JAVA_HOME(也可以配置JAVA_HOME环境变量,就不用修改了,我配过一次,没配置好,以后有时间再看看)。
cd /usr/local/hadoop
vim etc/hadoop/hadoop-env.sh
将export JAVA_HOME=${JAVA_HOME}
改为
export JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"
这样就可以了。输入如下命令Hadoop检查是否可用,成功则会显示命令行的用法。
bin/hadoop
Hadoop单机配置
Hadoop默认配置是以非分布式模式运行,即单Java进程,方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件,统计符合正则表达式dfs[a-z.]+
的单词的出现次数。
cd /usr/local/hadoop
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
cat ./output/*
执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词dfsadmin出现了1次
再次运行会提示出错,需要将./output
删除。
rm -R ./output
Hadoop伪分布式配置
Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml
和etc/hadoop/hdfs-site.xml
。Hadoop的配置文件是xml格式,声明property的name和value。
修改配置文件etc/hadoop/core-site.xml
,将
<configuration>
</configuration>
修改为下面配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
修改配置文件etc/hadoop/hdfs-site.xml
为
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
配置完成后,首先需初始化文件系统HDFS。
bin/hdfs namenode -format
成功的话,最后的提示如下
接着开启NaneNode
和DataNode
守护进程。
sbin/start-dfs.sh
若出现下面SSH的提示,输入yes即可。
有可能会出现如下很多的warn提示,下面的步骤中也会出现,特别是native-hadoop library
这个提示,可以忽略,并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下,不困难,省得看这么多无用提示)。
成功启动后,可以通过命令jps
看到启动了如下进程NameNode
、DataNode
和SecondaryNameNode
。
此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。
Hadoop伪分布式实例-WordCount
首先创建所需的几个目录
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop
将etc/hadoop
中的文件作为输入文件复制到分布式文件系统中,即将/usr/local/hadoop/etc/hadoop
复制到分布式文件系统中的/user/hadoop/input
中
bin/hdfs dfs -put etc/hadoop input
运行MapReduce作业,执行成功的话跟单机模式相同,输出作业信息。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
查看运行结果
bin/hdfs dfs -cat output/*
也可以将运行结果取回到本地。
rm -R ./output
bin/hdfs dfs -get output output
cat ./output/*
结果如下,注意到跟单机模式中用的不是相同的数据,所以运行结果不同(换成原来的数据,结果是一致的)。
可以看到,使用bin/hdfs dfs -命令
可操作分布式文件系统, 如
bin/hdfs dfs -ls /user/hadoop # 查看`/user/hadoop`中的文件
bin/hdfs dfs -rm -R /user/hadoop/input/* # 删除 input 中的文件
bin/hdfs dfs -rm -R /user/hadoop/output # 删除 output 文件夹
若要执行不同的输入数据,需先删除input中的内容和output文件夹。
结束Hadoop进程,则运行
sbin/stop-dfs.sh
安装Hadoop集群
请查看教程Hadoop集群安装配置教程
附加教程
解决 sbin/start-dfs.sh中的warn提示
提示ssh: Could not resolve hostname *: Name or service not known
首先输入命令hostname
看下自己的机器名,如我这边是powerxing-M1
。修改/etc/hosts
,将127.0.1.1 powerxing-M1
改成192.168.1.121 powerxing-M1
,即本机地址。
提示WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
这是因为hadoop native library是32位系统编译的,在64位系统上会有这个提示,需要下载hadoop的源码重新编译,可参考http://stackoverflow.com/questions/19943766/hadoop-unable-to-load-native-hadoop-library-for-your-platform-error-on-centos
我已经在Ubuntu 14.04 64bit上编译过了,可下载我编译的进行覆盖。
下载地址: http://pan.baidu.com/s/1c0AJ3Gk
下载后执行如下命令,替换掉原来的navtive library。
rm -R /usr/local/hadoop/lib
tar -zxvf ~/下载/lib.tar.gz -C /usr/local/hadoop