01Hadoop3环境搭建-02伪分布模式

一、实验目的

掌握Hadoop3伪分布模式环境的搭建、文件配置和环境测试。

二、实验内容

1、在Linux中安装和配置JDK8
2、Hadoop3安装和配置(伪分布模式)
3、Hadoop3安装测试

三、实验环境

硬件:Ubuntu16.04
软件:JDK-1.8、Hadoop-3.3
数据存放路径:/data/dataset
tar包路径:/data/software
tar包压缩路径:/data/bigdata
软件安装路径:/opt
实验设计创建文件:/data/resource

四、实验原理

Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,集群运行模式。
伪分布模式是将守护程序运行在本地主机,模拟一个小规模集群。这里不但需要本地模式的操作过程,需要对配置文件进行配置。

五、实验步骤

5.1 安装JDK8

Hadoop3的运行需要JDK 8的支持,所以需要先安装JDK 8。

1、对JDK 8的安装包解压缩。

在终端窗口中,执行以下命令,进入软件包所在文件夹中,然后将JDK8解压安装到“/data/bigdata/”目录下:

$ cd /data/software
$ tar -zxvf jdk-8u73-linux-x64.tar.gz  -C /data/bigdata/
``
>查看解压后的JDK安装文件:
```u
$ ls /data/bigdata/

2、配置环境变量。

在终端窗口中,执行以下命令,打开系统文件:

$ vi /etc/profile

移动到文件的末尾,添加如下的内容到文件中(替换原来的即可):

export JAVA_HOME=/data/bigdata/jdk1.8.0_73
export PATH=$PATH:$JAVA_HOME/bin

保存文件内容。然后在终端窗口中,执行如下命令,使编辑后的系统文件生效:

$ source /etc/profile

3、测试JDK的安装。

在终端窗口中,执行如下命令,查看JDK的版本号,检验安装是否正确,如下所示:

$ java -version

如果出现如下的版本信息,说明JDK8的安装和配置正确。

java version "1.8.0_73"
Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
Java HotSpot(TM) 64-Bit Server VM (build 25.73-b02, mixed mode)

至此,JDK8的安装完成。

5.2 配置SSH无密登录

安装SSH服务,实现集群中SSH无密码连接(从主节点到从节点的无密码登录):虚拟机的密码是Simplexue123

1、SSH免密配置

Hadoop在启动过程中是通过SSH远程操作的,所以在不做特殊配置下,每次启动到相关节点时,都要输入密码,如果想避免每次都输入密码,需要设置免密登录。

使用命令,生成密钥(过程中会出现输入提示,直接回车即可):

rm -rf ~/.ssh (本设备已经提前配置,需要先删除)
ssh-keygen

结果如下所示:

root@localhost:/data/bigdata/# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:RjkQ5wqbj43LDrODrSsi4xEeoaaNqMSXE+byA0lZo6w root@e744c0e5069c
The key's randomart image is:
+---[RSA 2048]----+
|      o..        |
|   o   + .       |
|..+ o   =        |
|.=.  + o .       |
|++.oo . S        |
|E== o= .         |
|+O==o o          |
|O B*..           |
|O=.+=            |
+----[SHA256]-----+

在目录“~/.ssh/”下会生成两个文件:

    id_rsa: 私钥

    id_rsa.pub:公钥

将公钥导入到认证文件中,下次再登录则可以免密登录:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

验证免密登录是否成功:

root@localhost:/data/bigdata/# ssh localhost
Welcome to Ubuntu 16.04.5 LTS (GNU/Linux 3.10.0-327.36.3.el7.x86_64 x86_64)
 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
Last login: Tue Nov 12 04:11:54 2019 from 192.168.14.183
root@localhost:~# exit

注销
Connection to localhost closed.

整个登录过程不需要输入密码,则表示配置成功。

5.3 安装Hadoop

1、在终端窗口中,执行如下命令,进入软件包所在文件夹中:

$ cd /data/software

将Hadoop3解压安装到“/data/bigdata/”目录下:

$ tar -zxvf hadoop-3.3.0.tar.gz -C /data/bigdata/

2、在终端窗口中,执行如下命令,查看解压后的Hadoop3安装文件:

$ ls /data/bigdata/

3、打开”/etc/profile”配置文件,配置hadoop环境变量(注意,标点符号全都要是英文半角):。

export HADOOP_HOME=/data/bigdata/hadoop-3.3.0
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_HOME/lib/native"

然后保存。

4、执行”/etc/profile”,让配置生效:

$ source /etc/profile

5、测试hadoop安装。在终端窗口中,执行如下命令:

$ hadoop version

如果安装正确,可以看到如下的版本信息:

Hadoop 3.3.0
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r aa96f1871bfd858f9bac59cf2a81ec470da649af
Compiled by brahma on 2020-07-06T18:44Z
Compiled with protoc 3.7.1
From source with checksum 5dc29b802d6ccd77b262ef9d04d19c4
This command was run using /home/hduser/bigdata/hadoop-3.3.0/share/hadoop/common/hadoop-common-3.3.0.jar

5.4 Hadoop伪分布式配置

配置Hadoop,共需要配置5个文件(另外可选地配置workers文件),均位于Hadoop安装目录下的”etc/hadoop/“子目录下。首先进入到该目录下:

$ cd /data/bigdata/hadoop-3.3.0/etc/hadoop

1、配置hadoop-env.sh文件:

$ vi hadoop-env.sh

然后找到并修改JAVA_HOME属性的值:

export JAVA_HOME=/data/bigdata/jdk1.8.0_73

2、配置core-site.xml文件:

$ vi core-site.xml

找到其中的””标签,在其中指定各个配置参数,如下所示:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000/</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/bigdata/hadoop-3.3.0/tmp</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.groups</name>
        <value>*</value>
    </property>
</configuration>

3、配置hdfs-site.xml文件:

$ vi hdfs-site.xml

找到其中的””标签,在其中指定各个配置参数,如下所示:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.datanode.max.transfer.threads</name>
        <value>4096</value>
    </property>
</configuration>

4、配置mapred-site.xml文件

$ vi mapred-site.xml

找到其中的””标签,在其中指定各个配置参数,如下所示:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name> <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

5、配置yarn-site.xml文件

$ vi yarn-site.xml

找到其中的””标签,在其中指定各个配置参数,如下所示:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

5.5 格式化文件系统

格式化HDFS(仅需执行格式化一次)。在终端窗口,执行下面的命令:

$ cd /data/bigdata/hadoop-3.3.0/bin/
$ ./hdfs namenode -format

注:如果因为某些原因需要从头重新配置集群,那么在重新格式化HDFS之前,先把Haoop下的tmp目录删除。 这个目录是在hdfs-site.xml文件中自己指定的,其下有两个子目录name和data,重新格式化之前必须删除它们。

格式化namenode,实际上就是在namenode上创建一块命名空间。在创建过程中,会加载所配置的文件,检验是否配置正确。

5.6 在Hadoop3集群上执行MapReduce程序

1、修改启动文件

$ cd /data/bigdata/hadoop-3.3.0/sbin
$ vi start-dfs.sh
$ vi stop-dfs.sh

分别添加内容:

HDFS_DATANODE_USER=root
HDFS_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

2、首先启动HDFS集群:

$ ./start-dfs.sh

3、使用jps命令查看当前节点上运行的服务:

$ jps

4、成功启动后,可以通过Web界面查看NameNode 和 Datanode 信息和HDFS文件系统。

NameNode Web接口:http://localhost:9870

5、修改启动文件

$ cd /data/bigdata/hadoop-3.3.0/sbin
$ vi start-yarn.sh
$ vi stop-yarn.sh

分别添加内容:

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

6、启动yarn:

$ ./start-yarn.sh
$ jps

7、启动historyserver历史服务器和timelineserver时间线服务器:

$ cd ../bin/
$ ./mapred --daemon start historyserver
$ ./yarn --daemon start timelineserver

8、运行pi程序:

先进入到程序示例.jar包所在的目录,然后运行MR程序:

$ cd /data/bigdata/hadoop-3.3.0/share/hadoop/mapreduce
$ hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 1 2

在输出内容中,可以找到计算出的PI值。

9、可以通过 Web 界面查看:

打开浏览器,在地址栏输入:http://localhost:8088
查看任务进度:http://localhost:8088/cluster ,在 Web 界面点击 “Tracking UI” 这一列的 History 连接,可以看到任务的运行信息。同样,URL中的cda是我的机器名,请替换为你自己的机器名。

10、关闭集群:

$ cd /data/bigdata/hadoop-3.3.0/sbin
$ ./stop-yarn.sh
$ ./stop-dfs.sh
$ cd ../bin
$ ./mapred --daemon stop historyserver
$ ./yarn --daemon stop timelineserver
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值