VMWare下快速搭建Hadoop完全分布式环境

最新推荐文章于 2024-07-09 16:51:04 发布

小灰灰1234

最新推荐文章于 2024-07-09 16:51:04 发布

阅读量1.3k

点赞数 2

分类专栏：大数据

大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

前言：

利用VMWare快速搭建Hadoop的完全分布式环境，在一台虚拟机上安装配置好相应的软件和环境变量后，利用vmware的克隆，复制出另外两个虚拟机，这样，一个完全分布式环境就搭建起来了。

这里要说明一点，为了方便后面的配置，利用vmware装ubuntu时，用户名要设置成 hadoop，不然后面的配置改起来麻烦。

简单起见，vmware如何安装ubuntu就不细说了，下面给出详细的搭建步骤：

说明：

标蓝的，是敲入命令行的代码，直接复制到命令行界面运行即可。

（一）事前准备：

(1) 进入linux，打开命令行界面，输入 " cd ",进入hadoop用户主目录

(2)在hadoop用户主目录下，创建setup目录，用于存放安装的程序：mkdir setup

(3)更改IP设置：

利用 ifconfig 来查看当前的ip，并将ip设置成静态的ip（按照动态ip的内容，改写成静态ip，包括网关域名等。。）

（三台Linux虚拟机是利用ip来通信的，ip的配置写死在了hosts文件里，如果不配置成静态的，关机重启后，就找不到原来的ip了，也就不能互相通信了，关于静态ip的设置，就不细说了，ubuntu的设置里面，网络->IPv4里面可以配置）

(4)更改hosts配置：

sudo gedit/etc/hosts

（注意，下面的ip要根据你静态设置的ip来写），将下面的内容复制到hosts文件里：

192.168.1.128 master

192.168.1.129 slave1
192.168.1.130 slave2

（二）安装JDK：

首先去Oracle官网下载Linux下的JDK压缩包，地址如下：

http://www.oracle.com/technetwork/java/javase/downloads/index.html

我下载的是jdk-7u4-linux-i586.tar.gz文件，下载后，复制到 /home/hadoop/setup目录下

Step1:
# 将jdk文件解压到当前目录：
tarzxvf jdk-7u4-linux-i586.tar.gz

将解压后的文件夹重命名为jdk7(名字太长不方便):

mv jdk* jdk7

Step2:
# 配置环境变量
  sudo gedit ~/.profile
在末尾加上:
  exportJAVA_HOME=/home/hadoop/setup/jdk1.7
Step3:
然后保存关闭，使用source更新下
  source ~/.profile
Step4:
使用env命令察看JAVA_HOME的值
  env | grep JAVA_HOME
如果输出：JAVA_HOME=/home/hadoop/setup/jdkjdk1.7 ，说明配置成功。

Step5:
# 将系统默认的jdk修改过来
  sudo update-alternatives --install /usr/bin/javajava /home/hadoop/setup/jdk1.7/bin/java300

sudo update-alternatives --install /usr/bin/javacjavac /home/hadoop/setup/jdk1.7/bin/javac300
sudo update-alternatives --configjava
sudoupdate-alternatives --config javac

Step6:
然后再输入:

java -version

看到如下信息，就说明改成sun的jdk了:
java version"1.7.0_04"
Java(TM) SE Runtime Environment(build 1.7.0_04-b20)
Java HotSpot(TM) Server VM (build23.0-b21, mixed mode)

（三）安装ssh：

（1）sudo apt-getinstall ssh

这个安装完后，可以直接使用ssh命令了。执行 netstat -nat ,查看22端口是否开启了

测试：ssh localhost ,输入当前用户的密码，回车就ok了。说明安装成功，同时ssh登录需要密码。

(2)为hadoop上的用户hadoop生成其密钥对:

ssh-keygen -t rsa ,然后一路按回车键就可以了

（四）安装配置Hadoop：

为了快速起见，直接将本文附件中的hadoop.tar.gz文件复制过来，解压就可以了，具体步骤如下：

将 hadoop.tar.gz 文件复制到/home/hadoop/setup目录下，然后解压：

tar zxvf hadoop.tar.gz

hadoop的安装配置结束。

（五）克隆虚拟机：

在VMWare界面的VM->manage->clone里面，克隆当前Linux虚拟机，如下图：

VMWare下快速搭建Hadoop完全分布式环境 - wxweven - wxweven的博客

注意，在Clone Type的时候，要选择 creat afull clone,如下图：

VMWare下快速搭建Hadoop完全分布式环境 - wxweven - wxweven的博客

其他的，一路"下一步"即可。

克隆完虚拟机后，在master虚拟机，用"ssh slave1"和"sshslave2"测试下master是否能和slave进行ssh通信，（第一次需要密码，后面就不需要了），如果成功，这说明ssh配置成功。

（六）启动Hadoop：

将三台虚拟机全部开启，并在master机器上，输入如下命令：
（1）进入hadoop目录：cd ~/setup/hadoop
（2）格式化Hadoop文件系统： bin/hadoop namenode-format

如果看到类似如下两行的 successfully ，说明格式化文件系统成功！
has beensuccessfully formatted.
has been successfully formatted.

（3）启动所有节点：bin/start-all.sh

（4）验证hadoop是否正常启动：jps
正常启动后，会在master节点上显示：NameNode,JobTracker,SecondaryNameNode
而slave1和slave2上会显示：DataNode,TaskTracker

启动hadoop后，可以再浏览器里面查看NameNode和JobTracker，它们的地址默认为：
NameNode http://master:50070
JobTracker http://master:50030

（七）测试Hadoop版"Helloworld!"：

搭建完成后，可以测试下wordcount小程序:

(1)准备需要进行wordcount的文件:

sudo gedit/tmp/test.txt

(打开后随便输入一些内容，如"mu ha ha ni daye da ye da"，然后保存退出）

(2)将准备的测试文件上传到dfs文件系统中的firstTest目录下:

bin/hadoop dfs-copyFromLocal /tmp/test.txt firstTest

（注：如dfs中不包含firstTest目录的话就会自动创建一个，关于查看dfs文件系统中已有目录的指令为"bin/hadoopdfs -ls")

(3)执行wordcount: