01Hadoop3环境搭建-02伪分布模式

最新推荐文章于 2023-04-10 17:00:16 发布

寅月十八

最新推荐文章于 2023-04-10 17:00:16 发布

阅读量831

点赞数 2

分类专栏：机器学习文章标签： hadoop hdfs big data

MYJ-江启

本文链接：https://blog.csdn.net/weixin_46165569/article/details/120945472

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

一、实验目的
二、实验内容
三、实验环境
四、实验原理
五、实验步骤

一、实验目的

掌握Hadoop3伪分布模式环境的搭建、文件配置和环境测试。

二、实验内容

1、在Linux中安装和配置JDK8
2、Hadoop3安装和配置（伪分布模式）
3、Hadoop3安装测试

三、实验环境

硬件：Ubuntu16.04
软件：JDK-1.8、Hadoop-3.3
数据存放路径：/data/dataset
tar包路径：/data/software
tar包压缩路径：/data/bigdata
软件安装路径:/opt
实验设计创建文件：/data/resource

四、实验原理

Hadoop的运行模式分为3种：本地运行模式，伪分布运行模式，集群运行模式。
伪分布模式是将守护程序运行在本地主机，模拟一个小规模集群。这里不但需要本地模式的操作过程，需要对配置文件进行配置。

五、实验步骤

5.1 安装JDK8

Hadoop3的运行需要JDK 8的支持，所以需要先安装JDK 8。

1、对JDK 8的安装包解压缩。

在终端窗口中，执行以下命令，进入软件包所在文件夹中，然后将JDK8解压安装到“/data/bigdata/”目录下：

$ cd /data/software
$ tar -zxvf jdk-8u73-linux-x64.tar.gz  -C /data/bigdata/
``
>查看解压后的JDK安装文件：
```u
$ ls /data/bigdata/

2、配置环境变量。

在终端窗口中，执行以下命令，打开系统文件：

$ vi /etc/profile

移动到文件的末尾，添加如下的内容到文件中（替换原来的即可）：

export JAVA_HOME=/data/bigdata/jdk1.8.0_73
export PATH=$PATH:$JAVA_HOME/bin

保存文件内容。然后在终端窗口中，执行如下命令，使编辑后的系统文件生效：

$ source /etc/profile

3、测试JDK的安装。

在终端窗口中，执行如下命令，查看JDK的版本号，检验安装是否正确，如下所示：

$ java -version

如果出现如下的版本信息，说明JDK8的安装和配置正确。

java version "1.8.0_73"
Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
Java HotSpot(TM) 64-Bit Server VM (build 25.73-b02, mixed mode)

至此，JDK8的安装完成。

5.2 配置SSH无密登录

安装SSH服务，实现集群中SSH无密码连接(从主节点到从节点的无密码登录)：虚拟机的密码是Simplexue123

1、SSH免密配置

Hadoop在启动过程中是通过SSH远程操作的，所以在不做特殊配置下，每次启动到相关节点时，都要输入密码，如果想避免每次都输入密码，需要设置免密登录。

使用命令，生成密钥（过程中会出现输入提示，直接回车即可）：

rm -rf ~/.ssh (本设备已经提前配置，需要先删除)
ssh-keygen

结果如下所示：

root@localhost:/data/bigdata/# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:RjkQ5wqbj43LDrODrSsi4xEeoaaNqMSXE+byA0lZo6w root@e744c0e5069c
The key's randomart image is:
+---[RSA 2048]----+
|      o..        |
|   o   + .       |
|..+ o   =        |
|.=.  + o .       |
|++.oo . S        |
|E== o= .         |
|+O==o o          |
|O B*..           |
|O=.+=            |
+----[SHA256]-----+

在目录“~/.ssh/”下会生成两个文件：

    id_rsa: 私钥

    id_rsa.pub:公钥

将公钥导入到认证文件中，下次再登录则可以免密登录：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

验证免密登录是否成功：

root@localhost:/data/bigdata/# ssh localhost
Welcome to Ubuntu 16.04.5 LTS (GNU/Linux 3.10.0-327.36.3.el7.x86_64 x86_64)
 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
Last login: Tue Nov 12 04:11:54 2019 from 192.168.14.183
root@localhost:~# exit

注销
Connection to localhost closed.

整个登录过程不需要输入密码，则表示配置成功。

5.3 安装Hadoop

1、在终端窗口中，执行如下命令，进入软件包所在文件夹中：

$ cd /data/software

将Hadoop3解压安装到“/data/bigdata/”目录下：

$ tar -zxvf hadoop-3.3.0.tar.gz -C /data/bigdata/

2、在终端窗口中，执行如下命令，查看解压后的Hadoop3安装文件：

$ ls /data/bigdata/

3、打开”/etc/profile”配置文件，配置hadoop环境变量（注意，标点符号全都要是英文半角）:。

export HADOOP_HOME=/data/bigdata/hadoop-3.3.0
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_HOME/lib/native"

然后保存。

4、执行”/etc/profile”，让配置生效：

$ source /etc/profile

5、测试hadoop安装。在终端窗口中，执行如下命令：

$ hadoop version

如果安装正确，可以看到如下的版本信息：

Hadoop 3.3.0
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r aa96f1871bfd858f9bac59cf2a81ec470da649af
Compiled by brahma on 2020-07-06T18:44Z
Compiled with protoc 3.7.1
From source with checksum 5dc29b802d6ccd77b262ef9d04d19c4
This command was run using /home/hduser/bigdata/hadoop-3.3.0/share/hadoop/common/hadoop-common-3.3.0.jar

5.4 Hadoop伪分布式配置

配置Hadoop，共需要配置5个文件（另外可选地配置workers文件），均位于Hadoop安装目录下的”etc/hadoop/“子目录下。首先进入到该目录下：

$ cd /data/bigdata/hadoop-3.3.0/etc/hadoop

1、配置hadoop-env.sh文件：

$ vi hadoop-env.sh

然后找到并修改JAVA_HOME属性的值：

export JAVA_HOME=/data/bigdata/jdk1.8.0_73

2、配置core-site.xml文件：

$ vi core-site.xml

找到其中的””标签，在其中指定各个配置参数，如下所示：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000/</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/bigdata/hadoop-3.3.0/tmp</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.groups</name>
        <value>*</value>
    </property>
</configuration>

3、配置hdfs-site.xml文件：

$ vi hdfs-site.xml

找到其中的””标签，在其中指定各个配置参数，如下所示：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.datanode.max.transfer.threads</name>
        <value>4096</value>
    </property>
</configuration>

4、配置mapred-site.xml文件

$ vi mapred-site.xml

找到其中的””标签，在其中指定各个配置参数，如下所示：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name> <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

5、配置yarn-site.xml文件

$ vi yarn-site.xml

找到其中的””标签，在其中指定各个配置参数，如下所示：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

5.5 格式化文件系统

格式化HDFS(仅需执行格式化一次)。在终端窗口，执行下面的命令:

$ cd /data/bigdata/hadoop-3.3.0/bin/
$ ./hdfs namenode -format

注：如果因为某些原因需要从头重新配置集群，那么在重新格式化HDFS之前，先把Haoop下的tmp目录删除。这个目录是在hdfs-site.xml文件中自己指定的，其下有两个子目录name和data，重新格式化之前必须删除它们。

格式化namenode，实际上就是在namenode上创建一块命名空间。在创建过程中，会加载所配置的文件，检验是否配置正确。

5.6 在Hadoop3集群上执行MapReduce程序

1、修改启动文件

$ cd /data/bigdata/hadoop-3.3.0/sbin
$ vi start-dfs.sh
$ vi stop-dfs.sh

分别添加内容：

HDFS_DATANODE_USER=root
HDFS_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

2、首先启动HDFS集群：

$ ./start-dfs.sh

3、使用jps命令查看当前节点上运行的服务：

$ jps

4、成功启动后，可以通过Web界面查看NameNode 和 Datanode 信息和HDFS文件系统。

NameNode Web接口：http://localhost:9870

5、修改启动文件

$ cd /data/bigdata/hadoop-3.3.0/sbin
$ vi start-yarn.sh
$ vi stop-yarn.sh

分别添加内容：

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

6、启动yarn:

$ ./start-yarn.sh
$ jps

7、启动historyserver历史服务器和timelineserver时间线服务器：

$ cd ../bin/
$ ./mapred --daemon start historyserver
$ ./yarn --daemon start timelineserver

8、运行pi程序：

先进入到程序示例.jar包所在的目录，然后运行MR程序：

$ cd /data/bigdata/hadoop-3.3.0/share/hadoop/mapreduce
$ hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 1 2

在输出内容中，可以找到计算出的PI值。

9、可以通过 Web 界面查看：

打开浏览器，在地址栏输入：http://localhost:8088
查看任务进度：http://localhost:8088/cluster ，在 Web 界面点击 “Tracking UI” 这一列的 History 连接，可以看到任务的运行信息。同样，URL中的cda是我的机器名，请替换为你自己的机器名。

10、关闭集群：

$ cd /data/bigdata/hadoop-3.3.0/sbin
$ ./stop-yarn.sh
$ ./stop-dfs.sh
$ cd ../bin
$ ./mapred --daemon stop historyserver
$ ./yarn --daemon stop timelineserver

寅月十八

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
01Hadoop3环境搭建-02伪分布模式

文章目录一、实验目的二、实验内容三、实验环境四、实验原理五、实验步骤5.1 安装JDK85.2 配置SSH无密登录5.3 安装Hadoop5.4 Hadoop伪分布式配置5.5 格式化文件系统5.6 在Hadoop3集群上执行MapReduce程序一、实验目的掌握Hadoop3伪分布模式环境的搭建、文件配置和环境测试。二、实验内容1、在Linux中安装和配置JDK82、Hadoop3安装和配置（伪分布模式）3、Hadoop3安装测试三、实验环境硬件：Ubuntu16.04软件：J
复制链接

扫一扫