hadoop完全分布式模式（1）

最新推荐文章于 2022-12-04 12:01:06 发布

天水水各一方

最新推荐文章于 2022-12-04 12:01:06 发布

阅读量78

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_62563383/article/details/121887690

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

集群配置

注意：NameNode和SecondaryNameNode不要安装在同一台服务器
（2NN备份元数据的，如果放在一台机器上，机器宕机元数据就拿不到）
注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。
核心配置文件配置：
hadoop-env.sh（在/opt/module/hadoop-3.1.3/etc/hadoop目录下）Linux系统中获取JDK的安装路径：

[soft863@ hadoop100 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_212在hadoop-env.sh

在hadoop-env.sh
文件中修改JAVA_HOME 路径：

export JAVA_HOME=/opt/module/jdk1.8.0_212

配置core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>  
  <property>     
     <name>fs.defaultFS</name>       
      <value>hdfs://hadoop100:9820</value>
     </property>
     <!-- hadoop.data.dir是自定义的变量，下面的配置文件会用到 -->    
     <property>     
        <name>hadoop.data.dir</name>      
        <value>/opt/module/hadoop-3.1.3/data</value> 
    </property>   
 </configuration>

(2）HDFS配置文件
配置hdfs-site.xml

vim hdfs-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>  
<!-- namenode数据存放位置 -->
<property>    
<name>dfs.namenode.name.dir</name>    <value>file://${hadoop.data.dir}/name</value>  
</property>  
<!-- datanode数据存放位置 -->  
<property>    
<name>dfs.datanode.data.dir</name>    <value>file://${hadoop.data.dir}/data</value>  
</property>  
<!-- secondary namenode数据存放位置 -->    
<property>    
<name>dfs.namenode.checkpoint.dir</name>    <value>file://${hadoop.data.dir}/namesecondary</value>  </property>  
<!-- datanode重启超时时间是30s，解决兼容性问题，跳过 -->  <property>    
<name>dfs.client.datanode-restart.timeout</name>    <value>30</value>  
</property>  
<!-- 设置web端访问namenode的地址 -->
<property>    
  <name>dfs.namenode.http-address</name>                   <value>hadoop100:9870</value>
</property>  
<!-- 设置web端访问secondary namenode的地址 -->  
<property>   
    <name>dfs.namenode.secondary.http-address</name>
     <value>hadoop102:9868</value>  
 </property>
 </configuration>

（3）YARN配置文件
配置yarn-site.xml

vim yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>   
 <property> 
 <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
         <property>
                 <name>yarn.resourcemanager.hostname</name>
                 <value>hadoop101</value> 
        </property> 
           <property> 
                  <name>yarn.nodemanager  .env-whitelist</name> 
                         <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value> 
        </property>
     </configuration>

（4）MapReduce配置文件
配置mapred-site.xml

vim mapred-site.xml

文件内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration> 
  <property>  
    <name>mapreduce.framework.name</name>  
      <value>yarn</value> 
   </property>
</configuration>

集群分发把module
目录拷贝到hadoop100：

[root@hadoop102 opt]# cd /opt
[root@hadoop102 opt]# scp -r module/ hadoop100:/opt/

把module目录拷贝到hadoop101：

[root@hadoop102 opt]# rsync -av module hadoop101:/opt/

把 /etc/profile拷贝到hadoop100 hadoop101

[root@hadoop102 opt]# rsync -av /etc/profile hadoop101:/etc
[root@hadoop102 opt]# rsync -av /etc/profile hadoop100:/etc

在hadoop100和hadoop101上分别要进行source /etc/profile

[root@hadoop100 opt]# source /etc/profile
[root@hadoop101 opt]# source /etc/profile

分布式集群格式化
分布式集群第一次启动之前要格式化
格式化之前，要把三个服务器上的hadoop安装目录下的 data目录和logs目录都删掉

[root@hadoop101 opt]# cd /opt/module/hadoop-3.1.3
[root@hadoop101 opt]# rm -rf data
[root@hadoop101 opt]# rm -rf logs

在指定namenode运行的服务器上执行格式化：（namenode指定在hadoop100上运行的）

[root@hadoop100 hadoop-3.1.3]# hdfs namenode -format

天水水各一方

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop完全分布式模式（1）

集群配置注意：NameNode和SecondaryNameNode不要安装在同一台服务器（2NN备份元数据的，如果放在一台机器上，机器宕机元数据就拿不到）注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。核心配置文件配置：hadoop-env.sh（在/opt/module/hadoop-3.1.3/etc/hadoop目录下）Linux系统中获取JDK的安装路径：[soft863@ hadoop100 ~]#
复制链接

扫一扫