Hadoop安装初体验

最新推荐文章于 2023-07-30 10:02:01 发布

Lᴏʏᴀʟ ᴛᴏ.538

最新推荐文章于 2023-07-30 10:02:01 发布

阅读量178

点赞数 6

本文链接：https://blog.csdn.net/weixin_63899040/article/details/129844159

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这是一篇关于在 VMware 上安装 CentOS 7.7 并在其上安装和配置 Hadoop 集群的博客文章。

首先，你需要在 VMware 官网下载并安装 VMware 虚拟机软件。安装完成后，打开 VMware 软件并点击“创建新的虚拟机”按钮。

接下来，选择“典型（推荐）”安装类型并点击“下一步”按钮。然后，选择“安装程序光盘映像文件（iso）”，浏览并选择 CentOS 7.7 的 ISO 镜像文件，然后点击“下一步”按钮。

接着，输入虚拟机名称和位置，并点击“下一步”按钮。然后，指定磁盘容量并选择“将虚拟磁盘存储为单个文件”，然后点击“下一步”按钮。

最后，检查虚拟机设置信息并点击“完成”按钮。此时，VMware 软件会自动启动虚拟机并开始安装 CentOS 7.7 系统。根据提示完成安装过程即可。

安装完成后，我们需要在 CentOS 7.7 系统中安装和配置 JDK 1.8。你可以按照以下步骤进行操作：

#解压安装包
tar zxvf jdk-8u65-linux-x64.tar.gz

#配置环境变量
vim /etc/profile

export JAVA_HOME=/export/server/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

source /etc/profile

#验证是否安装成功
java -version

java version "1.8.0_241"
Java(TM) SE Runtime Environment (build 1.8.0_241-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)

接下来，我们需要规划 Hadoop 集群并进行分布式安装。集群规划如下：

主机角色
node1 NN DN RM NM
node2 SNN DN NM
node3 DN NM

主机	角色
node1	NN DN RM NM
node2	SNN DN NM
node3	DN NM

其中，NN 表示 Namenode，DN 表示 Datanode，RM 表示 ResourceManager，NM 表示 NodeManager，SNN 表示 SecondaryNamenode。

接着，我们需要在每台机器上配置基础环境。具体步骤如下：

# 主机名 
cat /etc/hostname

# hosts映射
vim /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.88.151 node1.itcast.cn node1
192.168.88.152 node2.itcast.cn node2
192.168.88.153 node3.itcast.cn node3

# JDK 1.8安装  上传 jdk-8u241-linux-x64.tar.gz到/export/server/目录下
cd /export/server/
tar zxvf jdk-8u241-linux-x64.tar.gz

	#配置环境变量
	vim /etc/profile
	
	export JAVA_HOME=/export/server/jdk1.8.0_241
	export PATH=$PATH:$JAVA_HOME/bin
	export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
	
	#重新加载环境变量文件
	source /etc/profile

# 集群时间同步
ntpdate ntp5.aliyun.com

# 防火墙关闭
firewall-cmd --state	#查看防火墙状态
systemctl stop firewalld.service  #停止firewalld服务
systemctl disable firewalld.service  #开机禁用firewalld服务

# ssh免密登录（只需要配置node1至node1、node2、node3即可）

	#node1生成公钥私钥 (一路回车)
	ssh-keygen  
	
	#node1配置免密登录到node1 node2 node3
	ssh-copy-id node1
	ssh-copy-id node2
	ssh-copy-id node3

然后，我们需要在 node1 上上传 Hadoop 安装包并进行解压和配置。具体步骤如下：

hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
  
tar zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
  
# 修改配置文件(配置文件路径 hadoop-3.3.0/etc/hadoop)

# hadoop-env.sh

#文件最后添加
export JAVA_HOME=/exportserver/jdk1.8.0_241
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

core-site.xml

<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
</property>

<!-- 设置Hadoop本地保存数据路径 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/data/hadoop-3.3.0</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

<!-- 文件系统垃圾桶保存时间 -->
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

hdfs-site.xml

<!-- 设置SNN进程运行机器位置信息 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node2:9868</value>
</property>

mapred-site.xml

<!-- 设置MR程序默认运行模式： yarn集群模式 local本地模式 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<!-- MR程序历史服务地址 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>node1:10020</value>
</property>

<!-- MR程序历史服务器web端地址 -->
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>node1:19888</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

yarn-site.xml

<!-- 设置YARN集群主角色运行机器位置 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>node1</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property> <!-- 开启日志聚集 -->
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs</value>
</property>

<!-- 历史日志保存的时间 7天 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>604800</value>
</property>

workers

node1.itcast.cn
node2.itcast.cn
node3.itcast.cn

接下来，我们需要分发同步 Hadoop 安装包并将 Hadoop 添加到环境变量中。具体步骤如下：

cd /export/server

scp -r hadoop-3.3.0 root@node2:$PWD
scp -r hadoop-3.3.0 root@node3:$PWD

# 将hadoop添加到环境变量（3台机器）

vim /etc/profile

export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

#别忘了scp给其他两台机器哦

最后，我们可以启动 Hadoop 集群。首次启动时，需要格式化 namenode：

hdfs namenode -format

然后，我们可以使用脚本一键启动 Hadoop 集群：

[root@node1 ~]# start-dfs.sh 
Starting namenodes on [node1]
Last login: Thu Nov  5 10:44:10 CST 2020 on pts/0
Starting datanodes
Last login: Thu Nov  5 10:45:02 CST 2020 on pts/0
Starting secondary namenodes [node2]
Last login: Thu Nov  5 10:45:04 CST 2020 on pts/0

[root@node1 ~]# start-yarn.sh 
Starting resourcemanager
Last login: Thu Nov  5 10:45:08 CST 2020 on pts/0
Starting nodemanagers
Last login: Thu Nov  5 10:45:44 CST 2020 on pts/0

启动完成后，我们可以通过 Web UI 页面查看 Hadoop 集群的运行状态：