在Centos7下安装Hadoop的完全分布

张謹礧

已于 2024-03-03 16:27:26 修改

阅读量1.1k

点赞数 6

分类专栏： hadoop安装教程安装文章标签： ubuntu linux 运维

于 2023-03-11 15:12:38 首次发布

本文链接：https://blog.csdn.net/weixin_66547608/article/details/129461969

版权

安装同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

hadoop安装教程

20 篇文章 0 订阅

订阅专栏

首先要进行准备工作

需要准备虚拟机

进入官网下载

Windows 虚拟机 | Workstation Pro | VMware | CN

准备镜像源文件

Centos7-Minimal

http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/

准备jdk和Hadoop包

jdk的包

进入官网

https://www.oracle.com/java/technologies/downloads/#java8-linux

Hadoop镜像文件

清华大学管网：

https://mirrors.tuna.tsinghua.edu.cn/apac he/hadoop/common/

Xshell

进入官网下载

XSHELL - NetSarang Website

Xftp

进入官网下载

XFTP - NetSarang Website (xshell.com)

这里要连接Xshell去传输文件

连接Xshell

说明：需要提前先安装好 Xshell 和 Xftp

输入之后，可能中间会中断一次，不要担心，按enter继续就可以了

将

jdk的包（Linux版）

Hadoop的镜像文件（Hadoop的包）

传输过去

这里我以 Ubuntu的连接为例，

需要下载的资源在我的博客的资源包里面也有，可以直接下载

准备工作之后创建虚拟机

然后就是等待，进程完成，需要等一会，不要着急

完成之后重新启动

安装Hadoop需要设置三个节点，这里我们把这三个节点命名为master，slave1，slave2

启动之后输入刚才的用户名

如果刚才的的用户名是hadoop就不用在建一个了，不然的话还要在建立一个用户名

克隆虚拟机（需要 vmware workstation pro 版本）

选择克隆已安装好的虚拟机

克隆自“虚拟机中的当前状态”

克隆方法：创建完整克隆

克隆 2 次，最终有 3 个虚拟机（ 1 个 master 节点， 2 个 slave 节点）。

网络配置

(1) 虚拟机网络设置

虚拟机设置中将网络连接选择为： NAT 模式（ 3 个虚拟机都设置 ）

在虚拟网络编辑器中设置 VMnet8 （ NAT 模式的网络适配器），关闭 DHCP 服

务，设置完成后点击“应用

设置 hostname （ 3 个虚拟机都设置）

hostname 设置计划

主节点： master

从节点 1 ： slave1

从节点 2 ： slave2

切换到 root 用户

su - //切换root用户

修改 hostname

vi /etc/hostname

删掉原有内容，写入： master

重启后显示新的 hostname

创建一个新用户

新建 hadoop 用户（需要切换到 root 用户，指令为： su - ）

adduser hadoop

设置 hadoop 用户密码（密码长度需要大于 8 位并且包含 2 种以上不同类型字符）

passwd hadoop

将 hadoop 用户加入 hadoop 用户组

usermod -a -G hadoop hadoop

查看是否成功

cat /etc/group

切换到hadoop用户

su hadoop

允许 hadoop 用户使用超级权限（ superprivileges ，也称 root 权限）

注意：默认情况下， CentOS 系统不允许普通用户使用超级权限，如果以 sudo

作为开头输入指令，会出现如下提示，告知当前用户不在允许使用超级权限的文件内。

需要将当前用户添加到 sudoers 文件中。

切换到 root 用户

su -

编辑 /etc/sudoers 文件

vi /etc/sudoers

移动到文件底部，在 rootALL=(ALL) ALL 下添加：

[username]ALL=(ALL) ALL

添加后强制保存:wq! 退出。使用 exit 指令退出 root 用户（会返回到 hadoop用户）

exit

4. 关闭防火墙（3个虚拟机都设置）

查看防火墙运行状态，返回 running 表示防火墙正在运行中。

sudo firewall-cmd --state

临时关闭防火墙（系统重启后防火墙又会自动启动）

sudo systemctl stop firewalld

需要禁止防火墙自动启动（永久关闭）

sudo systemctl disable firewalld

(5)设置IP地址（3个虚拟机都设置）

注意：网段必须与VMnet8子网IP的网段保持一致，网段中xxx.xxx.xxx.1和xxx.xxx.xxx.2（网关（GATEWAY））这两个地址不能使用。例：本机的VMnet8网段为192.168.126.0，则192.168.126.1和192.168.126.2不能使用。可选的IP地址范围为：192.168.126.3-192.168.126.255。

IP地址分配计划

master 192.168.126.3

slave1 192.168.126.4

slave2 192.168.126.5

修改网络配置文件

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

（修改参数:)

BOOTPROTO=static

ONBOOT=yes

追加参数：
IPADDR=192.168.126.3
NETMASK=255.255.255.0
GATEWAY=192.168.126.2

重启网络服务

sudo systemctl restart network.service

查看IP地址

ip addr show

6)设置每台主机的hostname到IP的映射关系3个虚拟机都设置）

sudo vi /etc/hosts

（在配置文件中追加3行

192.168.126.3 master
192.168.126.4 slave1
192.168.126.5 slave2

测试hostname是否可用


ping master

终止按钮
ctrl c

配置 SSH 免密登录

(1) 生成秘钥对

ssh-keygen -t rsa

2 ）发送公钥

将 master 节点上 hadoop 用户的公钥发给各个节点的 hadoop 用户（包括自己）

在这样说明一点，要将三台hadoop配置完毕之后在发送其它两台的，下面的代码

要在master节点下一行一行输入

正在途中还要输入yes，密码，

ssh-copy-id  -i  /home/hadoop/.ssh/id_rsa.pub hadoop@master
ssh-copy-id  -i  /home/hadoop/.ssh/id_rsa.pub hadoop@slave1
ssh-copy-id  -i  /home/hadoop/.ssh/id_rsa.pub hadoop@slave2

3）测试免密登录

ssh master

安装 JDK

(1) 安装 JDK （ master 节点）

解压 JDK 文件

移动至 /usr/local 路径下

输入代码
jdk-8u301-linux-x64.tar.gz 是文件名，要改成自己的文件名
tar -zxvf jdk-8u301-linux-x64.tar.gz
sudo mv jdk1.8.0_301/ /usr/local/jdk1.8.0

(2) 配置环境变量（ master 节点）

在 /etc/profile.d 路径下新建 java.sh 脚本文件

sudo vi /etc/profile.d/java.sh

在文件中添加 JAVA_HOME 变量并将其添加到 PATH 变量中，后 export 这两个

变量。

JAVA_HOME=/usr/local/jdk1.8.0
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH

更新环境变量

source /etc/profile

测试是否配置成功

java -version

安装 Hadoop 分布模式

(1) 安装 Hadoop （ master 节点）

解压 Hadoop 文件

移动至 /usr/local 路径下

输入代码
hadoop-2.10.1.tar.gz 是文件名，要改成自己的文件名
tar -zxvf hadoop-2.10.1.tar.gz
sudo mv hadoop-2.10.1 /usr/local/

(2) 配置环境变量（ master 节点）

在 /etc/profile.d 路径下新建 hadoop.sh 脚本文件

sudo vi /etc/profile.d/hadoop.sh

在文件中添加 HADOOP_HOME 变量并将其添加到 PATH 变量中，后 export 这

两个变量。

HADOOP_HOME=/usr/local/hadoop-2.10.1
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_HOME PATH

更新环境变量

source /etc/profile

测试是否配置成功

hadoop version

(3) 新建保存临时文件的路径

新建保存临时文件的路径

sudo mkdir -p /usr/data/hadoop/tmp

Hadoop默认将运行时的临时文件存储在根目录下的/tmp 文件中，而此文件夹在重启后会被自动清空，这会导致一些问题的出现。因此，新建一个专门用来存放hadoop临时文件的目录。

防止 Hadoop 运行时出现权限的问题，需要将 /usr/data 目录及其子目录的拥有

者全部从 root 改为 hadoop 用户。


sudo chown hadoop:hadoop -R /usr/data

(4) Hadoop 分布式配置（ master 节点）

进入 hadoop 安装文件下的 /etc/hadoop/ 文件夹中。

配置 hadoop-env.sh 脚本文件

将 ${JAVA_HOME} 改为 jdk 的实际安装路径


cd  /usr/local/hadoop-2.10.1/etc/hadoop

vi hadoop-env.sh

将${JAVA_HOME}改为jdk的实际安装路径

配置core-site.xml配置文件

vi core-site.xml

<configuration>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/data/hadoop/tmp</value>
	</property>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://hostname:9000</value>
	</property>
</configuration>

配置hdfs-site.xml的配置文件

vi hdfs-site.xml

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>2</value>
    	</property>
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>
</configuration>

将mapred-site.xml.template更名为mapred-site.xml并编辑


cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

配置yarn-site.xml

vi yarn-site.xml

<configuration>
	<!-- Site specific YARN configuration properties -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hostname</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>

配置slaves文件（指定从节点）