您也可以参考我语雀
https://www.yuque.com/docs/share/f58bd2d8-f736-4936-a628-8add0b40c38d?# 《2.Hadoop安装与配置》
参考博客:
Hadoop伪分布搭建_小Chou熊的博客-CSDN博客
Linux中Hadoop的环境搭建 - L波涛 - 博客园 (cnblogs.com)
Hadoop安装搭建伪分布式教程(全面)吐血整理
在此之前
你需要配置变量环境,可以参照jdk配置
jdk中国源
华为云镜像站
在profile中的
export JAVA_HOME=/opt/jdk #jdk安装目录
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export JAVA_PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin
export PATH=$PATH:${JAVA_PATH}
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
你需要配置以下三个文件
因为Hadoop是运行在jdk之上的,所以需添加jdk变量位置
在hadoop-env.sh
添加
export JAVA_HOME=/root/software/jdk1.8.0_181
1. core-site.xml
- 你需要在Hadoop根目录下,创建
tmp
文件夹,mkdir tmp
- ip地址,需要使用
ifconfig
命令查看内网ip- ip地址后的
9000端口
可能存在占用问题,导致HADOOP无法启动,所以需要你修改
<!-- 指定namenode的hdfs协议的文件系统通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.182.128:9000</value>
</property>
<!-- 默认路径/tmp namenode的数据默认放在${hadoop.tmp.dir}/dfs/name 路径下 -->
<!-- 如果操作系统重启了,系统会清空/tmp目录下的东西 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/software/hadoop-2.7.5/tmp</value>
</property>
2. mapred-site.xml
因为
mapred-site.xml.template
是存在的
mapred-site.xml
不存在
所以你需要复制一份
cp mapred-site.xml.template mapred-site.xml
<!-- 指定yarn为mapreduce的框架 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
3. yarn-site.xml
<!-- yarn的默认混洗方式,选择为mapreduce的默认混洗算法 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
格式化HDFS集群,启动yarn服务
hadoop namenode -format
start-dfs.sh
start-yarn.sh
你可以使用 jps
,来验证>启动结果:
启动结果
start-dfs.sh启动结果
9226 DataNode
8525 SecondaryNameNode
8334 NameNode
start-yarn.sh启动结果
9659 NodeManager
9535 ResourceManager
其他问题
1. 无法访问web页面
- 防火墙没有关闭
参考博客:
Linux关闭防火墙命令_baidu_36124158的博客-CSDN博客_linux关闭防火墙
Linux关闭防火墙命令 - 简书 (jianshu.com)
查看开启情况:
systemctl status firewalld
关闭防火墙:
systemctl stop firewalld
关闭开机自启防火墙:
systemctl disable firewalld.service
- 端口未开放
- 端口被占用
2. 配置ssh密钥
在多次启动关闭HADOOP中,需要多次输入密码,这个过程就会过于麻烦,所这个时候就需要
ssh密钥
直接启动登录
ssh-keygen -t rsa
cp id_rsa.pub authorized_keys