银河麒麟服务器操作系统部署Hadoop集群

一、Hadoop介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
二、Hadoop集群简介
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager、NodeManager
那mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。
三、环境准备

主机组件node1(192.168.1.4)node2(192.168.1.5)node3(192.168.1.6)
NameNode
Secondary Namenode
DataNode
ResourceManager
NodeManager

四、Hadoop安装配置
官网下载地址:https://hadoop.apache.org/releases.html
1、将下载好的hadoop-3.3.4.tar.gz包解压到/usr/local下

bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。 
etc:Hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。 
include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。 
lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。 
libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。 
sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。 
share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例。

2、Hadoop配置文件修改(注意:以下所有操作都在node1主机进行)
Hadoop安装主要就是配置文件的修改,一般在主节点进行修改,完毕后scp下发给其他各个从节点机器
2.1、hadoop-env.sh
该文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的,即使我们当前的系统中设置了JAVA_HOME,它也是不认识的,因为Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim hadoop-env.sh
# 在该配置文件中添加以下内容
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.2、core-site.xml
hadoop的核心配置文件,有默认的配置项core-default.xml。core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim core-site.xml
# 在该配置文件中添加以下内容
<!-- 用于设置Hadoop的文件系统,由URI指定 -->
 <property>
    <name>fs.defaultFS</name>
    <value>hdfs://192.168.1.4:8020</value>
 </property>

<!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${user.name} -->
 <property>
   <name>hadoop.tmp.dir</name>
   <value>/usr/local/hadoop-3.3.4/hadoopDatas/tempDatas</value>
</property>

<!--  缓冲区大小,实际工作中根据服务器性能动态调整 -->
 <property>
   <name>io.file.buffer.size</name>
   <value>4096</value>
 </property>

<!--  开启hdfs的垃圾桶机制,删除掉的数据可以从垃圾桶中回收,单位分钟 -->
 <property>
   <name>fs.trash.interval</name>
   <value>10080</value>
 </property>

2.3、hdfs-site.xml
HDFS的核心配置文件,主要配置HDFS相关参数,有默认的配置项hdfs-default.xml。hdfs-default.xml与hdfs-site.xml的功能是一样的,如果在hdfs-site.xml里没有配置的属性,则会自动会获取hdfs-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim hdfs-site.xml
# 在该配置文件中添加以下内容
<!-- 指定SecondaryNameNode的主机和端口 -->
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>192.168.1.5:50090</value>
</property>

<!-- 指定namenode的页面访问地址和端口 -->
<property>
 <name>dfs.namenode.http-address</name>
 <value>192.168.1.4:50070</value>
</property>

<!-- 指定namenode元数据的存放位置 -->
<property>
 <name>dfs.namenode.name.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas</value>
</property>

<!--  定义datanode数据存储的节点位置 -->
<property>
 <name>dfs.datanode.data.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas</value>
</property>

<!-- 定义namenode的edits文件存放路径 -->
<property>
 <name>dfs.namenode.edits.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/nn/edits</value>
</property>

<!-- 配置检查点目录 -->
<property>
 <name>dfs.namenode.checkpoint.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/snn/name</value>
</property>
<property>
 <name>dfs.namenode.checkpoint.edits.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits</value>
</property>

<!-- 文件切片的副本个数-->
<property>
 <name>dfs.replication</name>
 <value>3</value>
</property>

<!-- 设置HDFS的文件权限-->
<property>
 <name>dfs.permissions</name>
 <value>false</value>
</property>

<!-- 设置一个文件切片的大小:128M-->
<property>
 <name>dfs.blocksize</name>
 <value>134217728</value>
</property>

<!-- 指定DataNode的节点配置文件 -->
<property>
 <name> dfs.hosts </name>
 <value>/usr/local/hadoop-3.3.4/etc/hadoop/slaves </value>
</property>

2.4、mapred-site.xml
MapReduce的核心配置文件,Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# cp mapred-site.xml.template mapred-site.xml
[root@192 ~]# vim mapred-site.xml
# 在该配置文件中添加以下内容
<!-- 指定分布式计算使用的框架是yarn -->
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

<!-- 开启MapReduce小任务模式 -->
<property>
 <name>mapreduce.job.ubertask.enable</name>
 <value>true</value>
</property>

<!-- 设置历史任务的主机和端口 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>192.168.1.4:10020</value>
</property>

<!-- 设置网页访问历史任务的主机和端口 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>192.168.1.4:19888</value>
</property>

2.5、mapred-env.sh
在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉,然后按照以下方式修改:

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim mapred-env.sh
# 在该配置文件中添加以下内容
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.6、yarn-site.xml
YARN的核心配置文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim yarn-site.xml
# 在该配置文件中添加以下内容
<!-- 配置yarn主节点的位置 -->
<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>192.168.1.4</value>
</property>
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>

<!-- 开启日志聚合功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>

<!-- 设置聚合日志在hdfs上的保存时间 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

<!-- 设置yarn集群的内存分配方案 -->
<property>    
 <name>yarn.nodemanager.resource.memory-mb</name>    
 <value>2048</value>
</property>
<property>  
 <name>yarn.scheduler.minimum-allocation-mb</name>
 <value>2048</value>
</property>
<property>
 <name>yarn.nodemanager.vmem-pmem-ratio</name>
 <value>2.1</value>
</property>

2.7、slaves
slaves文件里面记录的是集群主机名。一般有以下两种作用:
一是:配合一键启动脚本如start-dfs.sh、stop-yarn.sh用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。
二是:可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。
dfs.hosts指定一个文件,其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在slaves中的主机才可以加入的集群中。如果值为空,则允许所有主机。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim slaves
# 删除slaves中的localhost,然后添加以下内容
192.168.1.4
192.168.1.5
192.168.1.6

2.8、数据目录创建,创建hadoop所需目录

[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/tempDatas
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/nn/edits
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/snn/name
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits

2.9、文件分发
将配置好的hadoop目录分发到node2和node3主机

[root@192 ~]# scp -r /usr/local/hadoop-3.3.4/   node2:/usr/local/
[root@192 ~]# scp -r /usr/local/hadoop-3.3.4/   node3:/usr/local/

3、在node1、node2、node3上分别配置Hadoop环境变量

[root@192 ~]#  vim   /etc/profile
# 添加以下内容
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
# 配置完成后使配置文件生效
[root@192 ~]#  source  /etc/profile

五、启动集群
要启动Hadoop集群,需要启动HDFS和YARN两个集群。
注意:首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。
1、在node1上执行格式化命令
[root@192 ~]# hadoop namenode -format
2、单个节点逐步启动
在node1上启动HDFS NameNode
[root@192 ~]# hadoop-daemon.sh start namenode
在node1、node2、node3三台主机上,分别使用以下命令启动HDFS DataNode
[root@192 ~]# hadoop-daemon.sh start datanode
在node1主机上使用以下命令启动YARN ResourceManager
[root@192 ~]# yarn-daemon.sh start resourcemanager
在node1、node2、node3三台主机上使用以下命令启动YARN nodemanager
[root@192 ~]# yarn-daemon.sh start nodemanager
以上脚本位于/usr/local/hadoop-3.3.4/sbin目录下。如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值