Hadoop集群配置=HDFS集群配置+MapReduce集群配置+Yarn集群配置
Hadoop集群配置=HDFS集群配置+MapReduce集群配置+Yarn集群配置
注意:在完成集群配置前要首先完成三台机器ssh免密登录
1.HDFS集群配置
(1)将JDK路径明确配置给HDFS(修改hadoop-env.sh)
(2)指定NameNode节点以及数据存储目录(修改core-site.xml)
(3)指定SecondaryNamenode节点(修改hdfs-site.xml)
(4)指定DataNode从节点(修改/etc/hadoop/slaves文件,每个节点配置信息占一行)
2.MapReduce集群配置
(1)将JDK路径明确配置给Mapreduce(修改mapreduce-env.sh)
(2)指定MapReduce计算框架运行Yarn资源调度框架(修改mapreduce-site.xml)
3.Yarn集群配置
(1)将JDK路径明确配置给Yarn(修改yarn-env.sh)
(2)指定ResourceManager老大节点所在计算机节点(修改yarn-site.xml)
(3)指定NodeManager节点(会通过slaves文件内容确定)
具体步骤
1.HDFS集群配置
(1)修改hadoop-env.sh
将JDK路径明确配置给HDFS
cd /opt/crh/servers/hadoop-2.9.2/etc/hadoop
vim hadoop-env.sh
找到原有的JAVA_HOME路径删除,该为自己的jdk路径
export JAVA_HOME=/opt/crh/servers/jdk1.8.0_231
(2)修改core-site.xml
指定NameNode节点以及数据存储目录
vim core-site.xml
<!-- 指定HDFSNameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://linux121:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/crh/servers/hadoop-2.9.2/data/tmp</value>
</property>
core-site.xml的默认配置
https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/core-default.xml
(3)修改hdfs-site.xml
指定SecondaryNamenode节点
vim hdfs-site.xml
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>linux123:50090</value>
</property>
<!-- 副本数量 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
默认配置
https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
(4)修改slaves文件
首先完成域名映射
vi /etc/hosts
按照自己的实际情况 加入ip和昵称
192.168.40.129 linux121
192.168.40.130 linux122
192.168.40.131 linux123
指定Datanode从节点
vim slaves
linux121
linux122
linux123
2.Mapreduce集群配置
(1)修改mapred-env.sh
指定MapReduce使用的jdk路径
vim mapred-env.sh
export JAVA_HOME=/opt/crh/servers/jdk1.8.0_231
(2)修改mapred-site.xml
指定MapReduce计算框架运行yarn资源调度框架
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定MR运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
其默认配置在
https://hadoop.apache.org/docs/r2.9.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
3.Yarn集群配置
(1)修改yarn-env.sh
指定JDK路径
vim yarn-env.sh
export JAVA_HOME=/opt/crh/servers/jdk1.8.0_231
(2)修改yarn-site.xml
vim yarn-site.xml
<!-- 指定yarn的ResourceManager -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>linux123</value>
</property>
<!-- Reduce获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
yarn-site.xml的默认配置
https://hadoop.apache.org/docs/r2.9.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
(3)修改slaves文件(已修改过)
指定NodeManager节点
注意:
Hadoop安装目录所属用户和所属用户组信息,默认是501 dialout,而我们操作Hadoop集群的用户使用的是虚拟机的root用户,所以为了避免出现信息混乱,修改Hadoop安装目录所属用户和用户组。
chown -R root:root /opt/crh/servers/hadoop-2.9.2