CC00010.hadoop——|Hadoop&Hadoop核心框架.V10|——|Hadoop.v10|集群组件部署|-CSDN博客

一、[Hadoop完全分布式集群搭建值集群规划实施]：集群配置

### --- Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置
### --- HDFS集群配置

~~~     将JDK路径明确配置给HDFS(修改hadoop-env.sh)
~~~     指定NameNode节点以及数据存储目录(修改core-site.xml)
~~~     指定SecondaryNameNode节点(修改hdfs-site.xml)
~~~     指定DataNode从节点(修改etc/hadoop/slaves文件，每个节点配置信息占一行)

### --- MapReduce集群配置

~~~     将JDK路径明确配置给MapReduce(修改mapred-env.sh)
~~~     指定MapReduce计算框架运行Yarn资源调度框架(修改mapred-site.xml)

### --- Yarn集群配置

~~~     将JDK路径明确配置给Yarn(修改yarn-env.sh)
~~~     指定ResourceManager老大节点所在计算机节点(修改yarn-site.xml)
~~~     指定NodeManager节点(会通过slaves文件内容确定)

二、集群配置具体步骤：HDFS集群配置

### --- HDFS集群配置

[root@linux121 ~]# cd /opt/yanqi/servers/hadoop-2.9.2/etc/hadoop

### --- 配置：hadoop-env.sh：将JDK路径明确配置给HDFS

[root@linux121 hadoop]# vim hadoop-env.sh 
export JAVA_HOME=/opt/yanqi/servers/jdk1.8.0_231

### --- 指定NameNode节点以及数据存储目录(修改core-site.xml)

[root@linux121 hadoop]# vim core-site.xml
<configuration>                                                 # 添加如下内容
<!-- 指定HDFS中NameNode的地址 -->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://linux121:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/yanqi/servers/hadoop-2.9.2/data/tmp</value>
</property>
</configuration>                                                # 添加如上内容

### --- core-site.xml的默认配置：

https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/coredefault.xml

### --- 指定secondarynamenode节点(修改hdfs-site.xml)

[root@linux121 hadoop]# vim hdfs-site.xml
<configuration>                                                 # 添加如下内容
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>linux123:50090</value>
</property>
<!--副本数量 -->
<property>
         <name>dfs.replication</name>
         <value>3</value>
</property>
</configuration>                                                # 添加如上内容

### --- 官方默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/hdfsdefault.xml

### --- 指定datanode从节点(修改slaves文件，每个节点配置信息占一行)
~~~     注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

[root@linux121 hadoop]# vim slaves
linux121
linux122
linux123

三、集群配置具体步骤：MapReduce集群配置

### --- 指定MapReduce使用的jdk路径(修改mapred-env.sh)

[root@linux121 hadoop]# vim mapred-env.sh
export JAVA_HOME=/opt/yanqi/servers/jdk1.8.0_231

### --- 指定MapReduce计算框架运行Yarn资源调度框架(修改mapred-site.xml)

[root@linux121 hadoop]# mv mapred-site.xml.template mapred-site.xml
[root@linux121 hadoop]# vim mapred-site.xml
<configuration>                                                 # 添加如下内容
<!-- 指定MR运行在Yarn上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>                                                # 添加如上内容

3、mapred-site.xml默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-mapreduce-client/hadoop-mapreduceclient-core/mapred-default.xml

四、集群配置具体步骤：Yarn集群配置

### --- 指定JDK路径

[root@linux121 hadoop]# vim yarn-env.sh 
export JAVA_HOME=/opt/yanqi/servers/jdk1.8.0_231

### --- 指定ResourceMnager的master节点信息(修改yarn-site.xml)

[root@linux121 hadoop]# vim yarn-site.xml
<configuration>                                                 # 添加如下内容
<!-- Site specific YARN configuration properties -->
<!-- 指定YARN的ResourceManager的地址 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>linux123</value>
</property>
<!-- Reducer获取数据的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
</configuration>                                                 # 添加如上内容

### --- yarn-site.xml的默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-yarn/hadoop-yarn-common/yarndefault.xml

### --- 指定NodeManager节点(slaves文件已修改)
### --- 注意：

~~~     Hadoop安装目录所属用户和所属用户组信息，默认是501 dialout，
~~~     而我们操作Hadoop集群的用户使用的是虚拟机的root用户，

### --- 所以为了避免出现信息混乱，修改Hadoop安装目录所属用户和用户组！！

[root@linux121 hadoop-2.9.2]# chown -R root:root /opt/yanqi/servers/hadoop-2.9.2