Hadoop安装教程_单机/伪分布式配置_Ubuntu 14.04/Hadoop 2.4.1

最新推荐文章于 2024-08-10 16:30:06 发布

xmu_dblab

最新推荐文章于 2024-08-10 16:30:06 发布

阅读量542

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce 大数据 hadoop集群

本文链接：https://blog.csdn.net/xmu_dblab/article/details/38887833

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

原文地址：Hadoop安装教程_单机/伪分布式配置_Ubuntu 14.04/Hadoop 2.4.1

环境

系统： Ubuntu 14.04 64bit
Hadoop版本： hadoop 2.4.1 (stable)
JDK版本： OpenJDK 7

创建hadoop用户

如果你安装Ubuntu的时候不是用的hadoop用户，那么需要增加一个名为hadoop的用户，并将密码设置为hadoop。

创建用户

sudo useradd hadoop

修改密码为hadoop，按提示输入两次密码

sudo pwsswd hadoop

给hadoop用户创建目录，方可登陆

cd /home
mkdir hadoop
sudo chown hadoop /home/hadoop

修改hadoop权限，进入系统设置->用户账户，首先点击右上角的“解锁”，然后将用户类型从标准改为管理员，如下图所示。

更改用户权限

接着注销当前用户，使用hadoop用户登陆。

安装SSH server、配置SSH无密码登陆

Ubuntu默认安装了SSH client，还需要安装SSH server。

sudo apt-get install openssh-server

集群、单节点模式都需要用到SSH无密码登陆，首先设置SSH无密码登陆本机。

输入命令

ssh localhost

会有如下提示(SSH首次登陆提示)，输入yes。

SSH首次登陆提示

然后按提示输入密码hadoop，这样就登陆到本机了。但这样的登陆是需要密码的，需要配置成无密码登陆。

先输入 exit 退出ssh，然后执行如下命令：

cd ./.ssh                      # 如果没有该目录，先执行一次ssh localhost
ssh-keygen -t rsa              # 一直按回车就可以，生成的密钥保存为.ssh/id_rsa
cp id_rsa.pub authorized_keys

此时再用ssh localhost命令，就可以直接登陆了，如下图所示。

SSH无密码登陆

安装Java环境

以前的教程都是建议安装Oracle的JDK，不建议使用OpenJDK，不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的，新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。

sudo apt-get install openjdk-7-jre openjdk-7-jdk

默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64(可以通过命令dpkg -L openjdk-7-jdk看到)。安装完后就可以使用了，可以用java -version检查一下。

安装Hadoop 2.4.1

2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz，安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html。

下载后,解压到/usr/local/中。

sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local   # 解压到/usr/local中
sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop      # 将文件名改为hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop           # 修改文件权限

Hadoop解压后即可用，只需要修改环境变量信息JAVA_HOME(也可以配置JAVA_HOME环境变量，就不用修改了，我配过一次，没配置好，以后有时间再看看)。

cd /usr/local/hadoop
vim etc/hadoop/hadoop-env.sh

将export JAVA_HOME=${JAVA_HOME}改为

export JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"

这样就可以了。输入如下命令Hadoop检查是否可用，成功则会显示命令行的用法。

bin/hadoop

Hadoop单机配置

Hadoop默认配置是以非分布式模式运行，即单Java进程，方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件，统计符合正则表达式dfs[a-z.]+的单词的出现次数。

cd /usr/local/hadoop
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
cat ./output/*

执行成功后如下所示，输出了作业的相关信息，输出的结果是符合正则的单词dfsadmin出现了1次

Hadoop单机WordCount输出结果

再次运行会提示出错，需要将./output删除。

rm -R ./output

Hadoop伪分布式配置

Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml和etc/hadoop/hdfs-site.xml。Hadoop的配置文件是xml格式，声明property的name和value。

修改配置文件etc/hadoop/core-site.xml，将

<configuration>
</configuration>

修改为下面配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改配置文件etc/hadoop/hdfs-site.xml为

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

配置完成后，首先需初始化文件系统HDFS。

bin/hdfs namenode -format

成功的话，最后的提示如下

初始化HDFS文件系统

接着开启NaneNode和DataNode守护进程。

sbin/start-dfs.sh

若出现下面SSH的提示，输入yes即可。

启动Hadoop时的SSH提示

有可能会出现如下很多的warn提示，下面的步骤中也会出现，特别是native-hadoop library这个提示，可以忽略，并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下，不困难，省得看这么多无用提示)。

启动Hadoop时的warn提示

成功启动后，可以通过命令jps看到启动了如下进程NameNode、DataNode和SecondaryNameNode。

通过jps查看启动的Hadoop进程

此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。

Hadoop的Web界面

Hadoop伪分布式实例-WordCount

首先创建所需的几个目录

bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop

将etc/hadoop中的文件作为输入文件复制到分布式文件系统中，即将/usr/local/hadoop/etc/hadoop复制到分布式文件系统中的/user/hadoop/input中

bin/hdfs dfs -put etc/hadoop input

运行MapReduce作业，执行成功的话跟单机模式相同，输出作业信息。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

查看运行结果

bin/hdfs dfs -cat output/*

也可以将运行结果取回到本地。

rm -R ./output
bin/hdfs dfs -get output output
cat ./output/*

结果如下，注意到跟单机模式中用的不是相同的数据，所以运行结果不同（换成原来的数据，结果是一致的）。

Hadoop伪分布式运行WordCout结果

可以看到，使用bin/hdfs dfs -命令可操作分布式文件系统，如

bin/hdfs dfs -ls /user/hadoop               # 查看`/user/hadoop`中的文件
bin/hdfs dfs -rm -R /user/hadoop/input/*    # 删除 input 中的文件
bin/hdfs dfs -rm -R /user/hadoop/output     # 删除 output 文件夹

若要执行不同的输入数据，需先删除input中的内容和output文件夹。

结束Hadoop进程，则运行

sbin/stop-dfs.sh

安装Hadoop集群

请查看教程Hadoop集群安装配置教程

附加教程

解决 sbin/start-dfs.sh中的warn提示

提示ssh: Could not resolve hostname *: Name or service not known

首先输入命令hostname看下自己的机器名，如我这边是powerxing-M1。修改/etc/hosts，将127.0.1.1 powerxing-M1改成192.168.1.121 powerxing-M1，即本机地址。

提示WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

这是因为hadoop native library是32位系统编译的，在64位系统上会有这个提示，需要下载hadoop的源码重新编译，可参考http://stackoverflow.com/questions/19943766/hadoop-unable-to-load-native-hadoop-library-for-your-platform-error-on-centos

我已经在Ubuntu 14.04 64bit上编译过了，可下载我编译的进行覆盖。

下载地址: http://pan.baidu.com/s/1c0AJ3Gk

下载后执行如下命令，替换掉原来的navtive library。

rm -R /usr/local/hadoop/lib
tar -zxvf ~/下载/lib.tar.gz -C /usr/local/hadoop

xmu_dblab

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop安装教程_单机/伪分布式配置_Ubuntu 14.04/Hadoop 2.4.1

原文地址：Hadoop安装教程_单机/伪分布式配置_Ubuntu 14.04/Hadoop 2.4.1
复制链接

扫一扫

专栏目录