银河麒麟服务器操作系统部署Hadoop集群

最新推荐文章于 2023-07-25 17:08:13 发布

月亮打烊了+

最新推荐文章于 2023-07-25 17:08:13 发布

阅读量842

点赞数

文章标签： hadoop kylin 大数据

本文链接：https://blog.csdn.net/weixin_54752007/article/details/128398078

版权

一、Hadoop介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
二、Hadoop集群简介
HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。
HDFS集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeManager
那mapreduce是什么呢？它其实是一个分布式运算编程框架，是应用程序开发包，由用户按照编程规范进行程序开发，后打包运行在HDFS集群上，并且受到YARN集群的资源调度管理。
三、环境准备

主机组件	node1（192.168.1.4）	node2（192.168.1.5）	node3（192.168.1.6）
NameNode	是	否	否
Secondary Namenode	否	是	否
DataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

四、Hadoop安装配置
官网下载地址：https://hadoop.apache.org/releases.html
1、将下载好的hadoop-3.3.4.tar.gz包解压到/usr/local下

bin：Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。 
etc：Hadoop配置文件所在的目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。 
include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。 
lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。 
libexec：各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。 
sbin：Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。 
share：Hadoop各个模块编译后的jar包所在的目录，官方自带示例。

2、Hadoop配置文件修改（注意：以下所有操作都在node1主机进行）
Hadoop安装主要就是配置文件的修改，一般在主节点进行修改，完毕后scp下发给其他各个从节点机器
2.1、hadoop-env.sh
该文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的，即使我们当前的系统中设置了JAVA_HOME，它也是不认识的，因为Hadoop即使是在本机上执行，它也是把当前的执行环境当成远程服务器。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim hadoop-env.sh
# 在该配置文件中添加以下内容
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.2、core-site.xml
hadoop的核心配置文件，有默认的配置项core-default.xml。core-default.xml与core-site.xml的功能是一样的，如果在core-site.xml里没有配置的属性，则会自动会获取core-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim core-site.xml
# 在该配置文件中添加以下内容
<!-- 用于设置Hadoop的文件系统，由URI指定 -->
 <property>
    <name>fs.defaultFS</name>
    <value>hdfs://192.168.1.4:8020</value>
 </property>

<!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${user.name} -->
 <property>
   <name>hadoop.tmp.dir</name>
   <value>/usr/local/hadoop-3.3.4/hadoopDatas/tempDatas</value>
</property>

<!--  缓冲区大小，实际工作中根据服务器性能动态调整 -->
 <property>
   <name>io.file.buffer.size</name>
   <value>4096</value>
 </property>

<!--  开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
 <property>
   <name>fs.trash.interval</name>
   <value>10080</value>
 </property>

2.3、hdfs-site.xml
HDFS的核心配置文件，主要配置HDFS相关参数，有默认的配置项hdfs-default.xml。hdfs-default.xml与hdfs-site.xml的功能是一样的，如果在hdfs-site.xml里没有配置的属性，则会自动会获取hdfs-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim hdfs-site.xml
# 在该配置文件中添加以下内容
<!-- 指定SecondaryNameNode的主机和端口 -->
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>192.168.1.5:50090</value>
</property>

<!-- 指定namenode的页面访问地址和端口 -->
<property>
 <name>dfs.namenode.http-address</name>
 <value>192.168.1.4:50070</value>
</property>

<!-- 指定namenode元数据的存放位置 -->
<property>
 <name>dfs.namenode.name.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas</value>
</property>

<!--  定义datanode数据存储的节点位置 -->
<property>
 <name>dfs.datanode.data.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas</value>
</property>

<!-- 定义namenode的edits文件存放路径 -->
<property>
 <name>dfs.namenode.edits.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/nn/edits</value>
</property>

<!-- 配置检查点目录 -->
<property>
 <name>dfs.namenode.checkpoint.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/snn/name</value>
</property>
<property>
 <name>dfs.namenode.checkpoint.edits.dir</name>
 <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits</value>
</property>

<!-- 文件切片的副本个数-->
<property>
 <name>dfs.replication</name>
 <value>3</value>
</property>

<!-- 设置HDFS的文件权限-->
<property>
 <name>dfs.permissions</name>
 <value>false</value>
</property>

<!-- 设置一个文件切片的大小：128M-->
<property>
 <name>dfs.blocksize</name>
 <value>134217728</value>
</property>

<!-- 指定DataNode的节点配置文件 -->
<property>
 <name> dfs.hosts </name>
 <value>/usr/local/hadoop-3.3.4/etc/hadoop/slaves </value>
</property>

2.4、mapred-site.xml
MapReduce的核心配置文件，Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# cp mapred-site.xml.template mapred-site.xml
[root@192 ~]# vim mapred-site.xml
# 在该配置文件中添加以下内容
<!-- 指定分布式计算使用的框架是yarn -->
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

<!-- 开启MapReduce小任务模式 -->
<property>
 <name>mapreduce.job.ubertask.enable</name>
 <value>true</value>
</property>

<!-- 设置历史任务的主机和端口 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>192.168.1.4:10020</value>
</property>

<!-- 设置网页访问历史任务的主机和端口 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>192.168.1.4:19888</value>
</property>

2.5、mapred-env.sh
在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉，然后按照以下方式修改:

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim mapred-env.sh
# 在该配置文件中添加以下内容
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.6、yarn-site.xml
YARN的核心配置文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim yarn-site.xml
# 在该配置文件中添加以下内容
<!-- 配置yarn主节点的位置 -->
<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>192.168.1.4</value>
</property>
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>

<!-- 开启日志聚合功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>

<!-- 设置聚合日志在hdfs上的保存时间 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

<!-- 设置yarn集群的内存分配方案 -->
<property>    
 <name>yarn.nodemanager.resource.memory-mb</name>    
 <value>2048</value>
</property>
<property>  
 <name>yarn.scheduler.minimum-allocation-mb</name>
 <value>2048</value>
</property>
<property>
 <name>yarn.nodemanager.vmem-pmem-ratio</name>
 <value>2.1</value>
</property>

2.7、slaves
slaves文件里面记录的是集群主机名。一般有以下两种作用：
一是：配合一键启动脚本如start-dfs.sh、stop-yarn.sh用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。
二是：可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。
dfs.hosts指定一个文件，其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在slaves中的主机才可以加入的集群中。如果值为空，则允许所有主机。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop
[root@192 ~]# vim slaves
# 删除slaves中的localhost，然后添加以下内容
192.168.1.4
192.168.1.5
192.168.1.6

2.8、数据目录创建，创建hadoop所需目录

[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/tempDatas
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/nn/edits
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/snn/name
[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits

2.9、文件分发
将配置好的hadoop目录分发到node2和node3主机

[root@192 ~]# scp -r /usr/local/hadoop-3.3.4/   node2:/usr/local/
[root@192 ~]# scp -r /usr/local/hadoop-3.3.4/   node3:/usr/local/

3、在node1、node2、node3上分别配置Hadoop环境变量

[root@192 ~]#  vim   /etc/profile
# 添加以下内容
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
# 配置完成后使配置文件生效
[root@192 ~]#  source  /etc/profile

五、启动集群
要启动Hadoop集群，需要启动HDFS和YARN两个集群。
注意：首次启动HDFS时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的HDFS在物理上还是不存在的。
1、在node1上执行格式化命令
[root@192 ~]# hadoop namenode -format
2、单个节点逐步启动
在node1上启动HDFS NameNode
[root@192 ~]# hadoop-daemon.sh start namenode
在node1、node2、node3三台主机上，分别使用以下命令启动HDFS DataNode
[root@192 ~]# hadoop-daemon.sh start datanode
在node1主机上使用以下命令启动YARN ResourceManager
[root@192 ~]# yarn-daemon.sh start resourcemanager
在node1、node2、node3三台主机上使用以下命令启动YARN nodemanager
[root@192 ~]# yarn-daemon.sh start nodemanager
以上脚本位于/usr/local/hadoop-3.3.4/sbin目录下。如果想要停止某个节点上某个角色，只需要把命令中的start改为stop即可。