搭建伪分布式hadoop_hadoop伪分布式搭建需要什么软件-CSDN博客

本文链接：https://blog.csdn.net/weixin_51792671/article/details/127612463

先放送需要的软件包

配置SSH免秘钥登录

一、生成SSH秘钥

ssh-keygen -t rsa

这里表示SSH加密公钥生成的类型是rsa
SSH免秘钥
注意：这里的“Enter passphrase” 是让你设置ssh证书的认证密码，可以不设置，回车即为空密码（仅测试环境）
！！！SSH的公钥位置默认在"/root/.ssh/id_rsa.pub"请注意你生成时候的位置

二、配置SSH秘钥

ssh-copy-id -i /root/.ssh/id_rsa.pub root@localhost   #这里是将刚刚生成的SSH秘钥让自己信任

注意：root@localhost "root"代表账户名，"localhost"代表主机名，请根据自己实际的填写
SSH公钥认证
到这里就完成了SSH对本机的免秘钥操作

三、关闭防火墙

systemctl stop firewalld.service

关闭防火墙是为了后面能够顺利访问网页，仅仅适用于测试环境！！！！

JAVA环境设置

一、上传压缩包文件

搭建hadoop的第一步就是先把jdk包和hadoop包上传到你所要安装的机器，这里我选用winscp上传，上传的目的路径随意（建议单独建立一个文件夹存放上传下载的文件，有利于寻找）
在这里插入图片描述

二、解压jdk压缩包到目的文件夹

mkdir /usr/lib/jvm   #这里是创建本机jdk包的目录
tar -zxvf /root/home/jdk-8u161-linux-x64.tar.gz -C /usr/lib/jvm   #解压jdk包到目的目录

-zxvf代表从原压缩文件备份一份文件，然后用gzip解压备份文件并且显示解压过程

-C代表在目的目录进行解压动作

三、修改系统的JAVA环境变量

vim ~/.bashrc

在最后添加以下语句

#JAVA Enviroment
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_161     #这里的路径需要根据自己的实际环境路径填写
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存文件并退出文件编辑

source ~/.bashrc    #设置并改变当前账户环境下环境变量

四、验证JAVA环境变量以及JAVA版本

echo $JAVA_HOME

$JAVA_HOME/bin/java -version

Hadoop环境设置

一、解压hadoop压缩包到指定文件夹

tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local

-zxvf代表从原压缩文件备份一份文件，然后用gzip解压备份文件并且显示解压过程

-C代表在目的目录进行解压动作

二、验证hadoop版本

cd /usr/local/hadoop-3.1.3/ && ./bin/hadoop version   #切换当前操作目录以及验证版本

伪分布式部署Hadoop

伪分布式Hadoop，它是以分离java进程的方式运行Hadoop集群的

一、设置Hadoop环境变量

vim ~/.bashrc

在最后添加以下语句

#Hadoop Enviroment
export HADOOP_HOME=/usr/local/hadoop-3.1.3   #这里需要根据你自己当前的账户环境设置
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATICE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存文件并退出文件编辑

source ~/.bashrc    #设置并改变当前账户环境下环境变量

设置系统变量

vim /etc/profile     #修改系统的环境变量

在最后添加以下语句

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

保存文件并退出文件编辑

二、编辑Hadoop配置文件

Hadoop的配置文件在/usr/local/hadoop-3.1.3/（这里的路径是要根据你上面的账户环境设置），我这里是"hadoop-3.1.3"，在不同账户环境可能不同，请注意！！！

cd /usr/local/hadoop-3.1.3/etc/hadoop/     #切换工作目录

1.修改数据节点datanode核心配置文件

vim core-site.xml

<configuration>
  <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop-3.1.3/tmp</value>
        <description>Abase for other temporary directories.</description>
  </property>
  <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
  </property>
</configuration>

2.修改名称节点namenode的hdfs配置文件

vim hdfs-site.xml

<configuration>
  <property>
        <name>dfs.replication</name>
        <value>1</value>
  </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop-3.1.3/tmp/dfs/name</value>
  </property>
  <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop-3.1.3/tmp/dfs/data</value>
  </property>
  <property>
        <name>dfs.namenode.http.address</name>
        <value>master:50070</value>
  </property>
</configuration>

到这里为止namenode和datanode已经配置完成

3.修改集群管理与资源调度Yarn的配置文件

Yarn的全称是：Yet Another Resource Negotiator。它是新版的MapReduce框架，用于资源管理和任务调度，同时也提供了一个高可用的集群环境

①.修改mapred的配置文件

MapReduce是集群管理的守护进程之一

vim mapred-site.xml

<configuration>
  <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
  </property>
</configuration>

②.修改Yarn的配置文件

Yarn是运行于MapReduce之上的，它提供了一个高可用和高拓展性的环境

vim yarn-site.xml

<configuration>
  <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
  </property>
</configuration>

到这里所有的配置文件就已经写完啦！~

开启服务!

一、格式化Namenode节点

cd /usr/local/hadoop-3.1.3/    #这里的路径需要和上文配置的路径一致

./bin/hdfs namenode -format    #格式化namenode节点的文件夹

格式化namenode

二、开启namenode和datanode的守护进程

./sbin/start-dfs.sh

在这里插入图片描述

三、验证namenode和datanode节点

jps

在这里插入图片描述
正常情况下会启动以上四个进程，若缺少某个进程，请查看在操作过程中是否遗漏了上述哪一项配置！

在上述成功后，登录浏览器查看namenode和datanode节点的信息
地址：IP:9870
在这里插入图片描述

四、开启Yarn和Jobhistory的守护进程

./sbin/start-yarn.sh     #开启Yarn的守护进程

在这里插入图片描述

./sbin/mr-jobhistory-daemon.sh start historyserver    #开启jobhistory的守护进程

在这里插入图片描述

五、验证Yarn进程是否启动

jps

在这里插入图片描述

最后登录浏览器查看任务运行情况

网址：IP:8088
在这里插入图片描述
到这里就结束啦！！！

参考

@世幻水：https://blog.csdn.net/weixin_49736959/article/details/108897129
@普通网友：https://blog.csdn.net/m0_67402588/article/details/124246947
@域祁：https://blog.csdn.net/weixin_39025871/article/details/104106058
《Linux虚拟化数据中心实战》何坤源