hadoop安装伪分布模式

雀氏帅

已于 2022-10-17 15:09:26 修改

阅读量1.2k

点赞数 1

分类专栏： Hadoop安装完全分布模式文章标签： hadoop 大数据 hdfs linux 分布式

于 2022-10-16 23:01:07 首次发布

本文链接：https://blog.csdn.net/weixin_53125824/article/details/127342526

版权

Hadoop安装完全分布模式专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.安装前准备

1.hadoop伪分布安装相关文件下载

CentOS-7-x86_64-DVD-1810.iso 下载：
百度网盘链接：https://pan.baidu.com/s/1o_Wv6gxOK360oPOTwlXHfw
提取码：rewr
Hadoop-2.10.2.tar.gz下载
阿里云下载：https://mirrors.aliyun.com/apache/hadoop/core/hadoop-2.10.2/
百度网盘链接：https://pan.baidu.com/s/15uY1FCeRpENCdgdyWlsI3A
提取码：dfs4
JDK1.8 下载
JDK1.8官网下载地址：https://www.oracle.com/java/technologies/downloads/
JDK1.8百度云盘链接：https://pan.baidu.com/s/1wYOZ6_MyXhES7_5_upXnKw
提取码：wguh**

1.2把主机ip设置为静态ip

可以查看我的另一篇文章：https://blog.csdn.net/weixin_53125824/article/details/127334483
教程在这

1.3关闭防火墙与SELINUX

关闭防火墙

systemctl stop firewalld        //停止firewalld防火墙
systemctl disable firewalld   //disable防火墙
systemctl status firewalld    //查看firewalld是否已经关闭

关闭SELINUX
在这里插入图片描述

1.4安装JDK8 并配置好环境变量

可以查看我的另一篇文章：https://blog.csdn.net/weixin_53125824/article/details/127326623
教程在这

1.5安装Hadoop并配置好环境变量

可以查看我的另一篇文章：https://blog.csdn.net/weixin_53125824/article/details/127344657
教程在这

2.安装伪分布

2.1修改主机名

查看主机名

hostname

修改主机名

hostnamectl set-hostname node1

实践
在这里插入图片描述

2.2映射ip地址及主机名

在文件 /etc/hosts中添加你的IP地址和主机名

vim /etc/hosts

![在这里插入图片描述](https://img-blog.csdnimg.cn/52f6fbc8dcf34ef5aed9390d167605dd.png
重启网络服务

service network restart

测试网络环境 ip地址是自己的IP地址

ping 192.168.110.129

在这里插入图片描述

2.3免密登录设置

1.安装openssh-server，openssh-clients软件

yum install –y openssh-server
yum install –y openssh-clients

2.生成密钥对

ssh-keygen -t rsa

其中，rsa表示加密算法，键入上面的一条命令后连续敲击三次回车键系统会自动在~/.ssh目录下生成公钥(id_rsa.pub)和私钥(id_rsa),可通过命令ls ~/.ssh查看
在这里插入图片描述
4.追加公钥
我们以本机登录本机自己为例(连接本机)，将公钥追加到~/.ssh/authorized_keys文件中。
中途输入yes之后输入本机密码就行了

ssh-copy-id -i /root/.ssh/id_rsa.pub node1

5.免密登陆验证

ssh node1    //登录
exit         //登出

在这里插入图片描述
免密登录成功

2.4设置hadoop配置文件

进入/root/hadoop/etc/hadoop目录需要修改hadoop-env.sh，core-site.xml，hdfs-site.xml，mapred-site.xml，yarn.site.xml五个文件

cd /root/hadoop/etc/hadoop

1.设置hadoop-env.sh

cd ~/hadoop/etc/hadoop
vi hadoop-env.sh

找到export JAVA_HOME一行，并按实际修改JAVA_HOME的值。

# The java implementation to use.
export JAVA_HOME=~/jdk    //这里填自己的JDK路径

2.设置core-site.xml

vi core-site.xml

在configuration中添加以下代码

        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://node1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>~/hadoop/data</value>
        </property>

在这里插入图片描述
5.设置hdfs-site.xml

vi hdfs-site.xml

在configuration中添加以下代码

        <property>
                <name>dfs.replication</name>
                <value>1</value>  //伪分布只有一个节点设置1就行了
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>~/hadoop/data/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>~/hadoop/data/dfs/data</value>
        </property>
        <property>
           <name>dfs.namenode.http-address</name>
           <value>node1:50070</value>
        </property>

在这里插入图片描述
6.设置mapred-site.xml
复制mapred-site.xml.template ,生成mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

编辑mapred-site.xml

vi mapred-site.xml

在configuration中添加以下代码

        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

在这里插入图片描述

8.设置yarn.site.xml
编辑yarn.site.xml文件

vi yarn-site.xml

在configuration中添加以下代码

        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>node1</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                 <value>mapreduce_shuffle</value>
        </property>

在这里插入图片描述

2.5格式化HDFS

格式化的过程是创建初始目录和文件结构的过程，执行下面的命令格式化HDFS

hdfs namenode -format

最后一个INFO没有报ERROR就说明成功了，如果报了错误把错误复制到百度即可解决
在这里插入图片描述

2.6启动Hadoop

**采用下面命令启动HDFS **

start-dfs.sh

中途输入两个yes
在这里插入图片描述
输入jps发现少了NameNode进程

停止进程

stop-dfs.sh

在~/hadoop 目录下输入

rm-rf data

因为core-site.xml和hdfs-site.xml 配置的名称节点数据节点都在~/hadoop/data 里面所以先删除
然后重新格式化HDFS

hdfs namenode -format

然后启动HDFS

start-dfs.sh

查看进程（一共有四个）

jps

在这里插入图片描述

2.7验证hadoop进程

使用下面的命令启动YARN

start-yarn.sh

启动之后会多出两个进程
在这里插入图片描述
注：start-all.sh(启动所有进程) stop-all.sh(关闭所以进程)

2.8通过Web访问Hadoop界面

1.HDFS Web界面
在Window游览器中，输入网址http://192.168.110.199:50070,可以查看NameNode和DataNode的信息如下图(地址是自己主机的地址IP+50070是端号)

![在这里插入图片描述](https://img-blog.csdnimg.cn/01ebe2a6458d442b8c5b749378b58259.png
在Window游览器中，输入网址http://192.168.110.199:50090,可以查看SecoundaryNameNode的信息如下图(地址是自己主机的地址IP+50090是端号)

网页显示Hadoop，2022并未显示全部信息此时需要修改一个文件先进入到 ~/hadoop/share/hadoop/hdfs/webapps/static文件

cd ~/hadoop/share/hadoop/hdfs/webapps/static

编辑dfs-dust.js文件

vim dfs-dust.js

找到下面这个
在这里插入图片描述
将这一行改为

return new Date(Number(v)).toLocaleString();

改完后
在这里插入图片描述
保存退出刷新网页就出来了(如果没出来就对浏览器的缓存进行清理，再次刷新就可以看到效果了，或者换个游览器输入地址也可以出来)

2.在Window游览器中,输入网址http://192.168.110:8088,可以查看集群所有应用程序的信息如下图(地址是自己主机的地址IP+8088是端号)
在这里插入图片描述
到此伪分布搭建完成，之后就可以搭建完全分布了，完全分布就是在伪分布上修改一点，伪分布搭好了，完全分布就简单多了，中间有啥问题大家可以在评论区指出
注：如果大家觉得麻烦可以直接用我已经搭建好的伪分布机器
链接：https://blog.csdn.net/weixin_53125824/article/details/127361846