搭建hadoop环境（保姆级教程）

思思冲鸭

已于 2023-09-17 21:39:12 修改

阅读量314

点赞数 2

文章标签： hadoop java 大数据

于 2023-09-17 21:21:26 首次发布

本文链接：https://blog.csdn.net/weixin_44961033/article/details/132910354

版权

因为选课选择了一门大数据的课程，所以从零开始搭建环境，超级详细！

在这里插入图片描述

链接：https://pan.baidu.com/s/1iKWQkWt4papA6uucs5FrEA?pwd=7utl 提取码：7utl

1.安装前的准备工作(原计划) 在这里插入图片描述
更改完计划：

一、linux虚拟机的安装 —cent os 7

1.创建新的虚拟机
在这里插入图片描述
2.自定义

3.选择虚拟机硬件兼容性 -> 默认，下一步

4.选择安装程序光盘映像文件，然后点击浏览，找到你所下载的CentOS7操作系统所在的目录，点击下一步。

5.输入要用的主机名，记住自己设置的密码即可，点击下一步。
在这里插入图片描述
6.选择虚拟机文件路径（路径名称不要有中文，要保证路径下存储空间足够，因为文件会比较大，虚拟机名称自取）

7.处理器、内存配置 -> 按需分配，下一步

8.根据自身物理机配置合适选择内存，一般不需太大。如果电脑的内存有16GB的话可以将虚拟机的内存设置成2G，如果内存不足16GB建议将虚拟机的内存设置成1GB。
在这里插入图片描述
9.这里还需要注意的一点就是网络适配器设置成NAT模式。然后点击下一步。

10.默认，下一步

11.默认，下一步

12.接下来选择创建新的虚拟磁盘。

13.这里给个建议，如果电脑的硬盘空间足够大的话，建议把最大磁盘大小设置成40GB或者50GB。
在这里插入图片描述
14.接下来的是自动生成的，直接点击下一步即可。

15.点击完成

16 登录

17.选择语言

18.安装完成

IP地址的修改
首先打开命令行终端，因为只有root用户有权限对IP进行修改，所以要先切换到root用户下，切换命令为：su root，然后输入以下命令实现对IP的修改。
vi /etc/sysconfig/network-scripts/ifcfg-eno16777736
这里需要注意的是并不是每台电脑后面结尾都是eno16777736，所以在这里输入到e的时候按下tab键进行自动补全，回车进入编辑页面，如下图所示。
进入编辑界面后，需要将BOOTPROTO改成static，然后在下面添加需要修改的配置，如下图所示。
把 BOOTPROTO=dhcp 改成 ------->>> BOOTPROTO=static 。 //启用静态IP地址
添加主机配置

在这里插入图片描述
21.修改好保存退出后，输入命令：service network restart，以此使修改的IP地址生效，最后要验证IP是否生效，输入命令：ping www.baidu.com，出现如下图结果表示修改成功。

注：一开始我ping不通www.baidu.com

然后查了一下网关，网关已经加上了，但是这里ping不通网关

解决方案：
打开虚拟编辑器

查看wmnet8 的子网地址， IPADDR就是要添加的虚拟IP地址，要和VMnet8中的地址前三位保持一致，最后一位不一样就OK了。
所以我又重新划分了IP地址，然后重启网络，就成功了

** 22.关闭防火墙**

查看防火墙状态
firewall-cmd --state

停止firewall
systemctl stop firewalld.service

禁止firewall开机启动
systemctl disable firewalld.service

在这里插入图片描述

注：更改主机名
原先计划的配置环境的主机名设置为bigdata01，但是安装的时候，查看了一下主机名，发现不是，可以在这里修改一下主机名
一、查看主机名
在CentOS 7中，我们可以通过hostname命令查看当前的主机名。
在这里插入图片描述

二、临时修改主机名
我们可以通过命令“hostname 主机名”来临时修改主机名，当主机重启之后，主机名会自动改成原来的主机名。

[lucky@localhost Desktop]# hostname bigdata01
[lucky@localhost Desktop]# hostname
 bigdata01

三、永久更改主机名
如果希望永久更改主机名（即重启主机也不会改变），可以有两种方法。

1、方法一：使用hostnamectl命令

我们可以通过命令“hostnamectl set-hostname 主机名”来永久修改主机名。

2、方法二：修改主机名文件
在这里插入图片描述

除了方法一，还可以通过修改主机名文件（/etc/hostname）来永久修改主机名。

[root@bigdata01]# vi /etc/hostname
bigdata01

** 23.配置IP地址和主机名的映射关系**
使用命令：vi /etc/hosts进行配置。这里先将三个配置都写入，方便后续操作
在这里插入图片描述

二、安装和配置JDK

Hadoop是以Java语言写成的，因此需要安装Java环境。本书选择安装Oracle的JDK。
在这里，我们采用的版本为jdk-8u181-linux-x64。安装步骤如下：

RE(Java Runtime Environment ) Java运行环境，用来运行JAVA程序的。

JDK(Java Development Kit) Java开发工具包，包含JRE。因此只需要下载安装JDK即可中。

JDK是Sun Microsystems针对Java开发员的产品，JSP运行环境需要JDK的支持。

JDK 是整个Java的核心，包括了Java运行环境，Java工具和Java基础的类库。

1.在windows下安装winscp文件
在这里插入图片描述
2.选择一个站点更改信息，点击编辑，填入虚拟机中的centos计算机的信息
主机名是centos7设置的IP地址，用户名和密码也是centos里面的，用户名默认为root,点击登录

第一次登录会出现警告，出现警告就是连接成功的标志，这里我们选择是
在这里插入图片描述
3.在winscp中的虚拟机centos的目录中创建/opt/software，进入/opt/software目录中，把物理机上的jdk文件拖拉过去

4.对拷贝到Linux中的jdk压缩包进行解压，解压到module文件夹下，具体命令如下：

 tar -zxvf jdk-8u181-linux-x64.tar.gz -C /opt/module/

在这里插入图片描述

5.配置JDK环境变量

vim /etc/profile

在文件的最后面加上如下语句

 export JAVA_HOME=/opt/module/jdk1.8.0_181
       export PATH=$JAVA_HOME/bin:$PATH

在这里插入图片描述
保存并退出，执行以下命令使得环境变量生效。

  source /etc/profile

6.查看java版本，看是否安装成功

java -version

在这里插入图片描述

三、下载安装hadoop

1.解压（通过上文介绍的winscp传入linux的/opt/software目录）
在这里插入图片描述

tar -zxvf hadoop-2.7.3.tar.gz -C /opt/module/

2.配置Hadoop环境变量，vi ~/.bash_profile，在文件后面加上如下语句：

HADOOP_HOME=/opt/module/hadoop-2.7.3
export HADOOP_HOME
PATH= $HADOOP_HOME/bin:$ HADOOP_HOME/sbin:$PATH
export PATH

3.执行以下命令使环境变量生效。

source ~/.bash_profile

在这里插入图片描述

4.查看是否生效：输入start，然后按两下tab键，看是否有以下内容，如下图所示。如果出现以下内容表示环境变量已生效。
在这里插入图片描述

5.配置hadoop环境
（1）切换到Hadoop的安装路径找到etc/hadoop下的hadoop-env.sh文件夹，添加如下语句：

   JAVA_HOME=/opt/module/jdk1.8.0_181

在这里插入图片描述

（2）配置hdfs-site.xml（hdfs的核心配置文件），在中配置以下内容

<!--注释配置数据块的冗余度，默认是3-->
	   <property>
	      <name>dfs.replication</name>
	      <value>2</value>
	   </property>

在这里插入图片描述
（3）在同一目录下配置core-site.xml文件夹（hadoop的核心配置文件）在中配置以下内容，配置文件如下：

vim core_site.xml

<!--配置HDFS主节点，NameNode的地址,9000是RPC通信端口-->
	   <property>
	      <name>fs.defaultFS</name>
	      <value>hdfs://bigdata01:9000</value>
	   </property> 
<!--配置HDFS数据块和元数据保存的目录,一定要修改-->
                <property>
	      <name>hadoop.tmp.dir</name>
	      <value>/opt/module/hadoop-2.7.3/tmp</value>
                </property>

在这里插入图片描述
（4）在同一目录下配置mapred-site.xml文件夹，这里需要注意，在Hadoop2.7.3版本中这个文件夹是默认没有的，需要自己手动创建，创建的命令为：

 cp mapred-site.xml.template mapred-site.xml

     创建好之后，执行命令vi mapred-site.xml进行配置，配置文件如下：
     <!--配置MR程序运行的框架-->
                       <property>	
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

在这里插入图片描述
(5)在同一目录下配置yarn-site.xml文件夹，配置文件如下：

vim yarn-site.xml

  <!--配置Yarn的节点-->
                      <property>	
		<name>yarn.resourcemanager.hostname</name>
		<value>bigdata01</value>
	</property>	
    <!--NodeManager执行MR任务的方式是shuffle-->
	<property>	
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>

在这里插入图片描述
(6)配置slaves

vim slaves

进入之后输入你所有从节点的主机名，保存退出即可
在这里插入图片描述
6.SSH免密登录
输入命令：ssh-keygen -t rsa，进行免密登陆配置，一直按回车即可，如下图所示。

7.接下来输入命令：ssh-copy-id localhost，然后按下回车，会提示你输入密码，按提示进行即可，如下图所示。最后输入ssh localhost进行验证是否成功即可。
在这里插入图片描述
8.克隆两个从机
在克隆之前注意一定要先关闭虚拟机，之后选中虚拟机的名字，右键—>管理—>克隆，选择当前状态，创建完整克隆，等待克隆完毕就行，这里注意，根据自己的需求，要搭建几个从节点就克隆几台虚拟机。
克隆完成之后，需要对克隆好的虚拟机修改主机名和IP，拿一台克隆的虚拟机为例，其他的虚拟机操作步骤同样，具体操作如下：
在这里插入图片描述

（1）IP的修改
执行以下命令：

 su root

vi /etc/sysconfig/network-scripts/ifcfg-eno16777736进行IP的修改，这里需要注意，并不是每台电脑都是eno16777736，所以在输入到e的时候需要按tab键进行自动补全，进去之后只需要对IPADDR进行修改，改成你自己想要的IP地址即可。之后保存退出，执行命令service network restart使IP地址生效，然后输入ping www.baidu.com看是否能够ping通，若ping通则配置成功，按ctrl+c停止。
在这里插入图片描述

(2）主机名的修改
输入以下命令：
hostnamectl set-hostname 主机名，输入hostname看主机名是否更改 reboot重启生效

9.启动Hadoop