HaDoop安装配置笔记

天让你傻的真

已于 2022-05-07 17:40:46 修改

阅读量2.5k

点赞数 4

文章标签： hadoop hdfs big data

于 2022-03-03 15:52:55 首次发布

本文链接：https://blog.csdn.net/weixin_49289147/article/details/123256259

版权

您也可以参考我语雀
https://www.yuque.com/docs/share/f58bd2d8-f736-4936-a628-8add0b40c38d?# 《2.Hadoop安装与配置》

参考博客：
Hadoop伪分布搭建_小Chou熊的博客-CSDN博客
 Linux中Hadoop的环境搭建 - L波涛 - 博客园 (cnblogs.com)
Hadoop安装搭建伪分布式教程（全面）吐血整理

在此之前

你需要配置变量环境，可以参照jdk配置
jdk中国源
华为云镜像站
在profile中的

export JAVA_HOME=/opt/jdk  #jdk安装目录

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH

export JAVA_PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin

export PATH=$PATH:${JAVA_PATH}

export HADOOP_HOME=/opt/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

你需要配置以下三个文件

因为Hadoop是运行在jdk之上的，所以需添加jdk变量位置
在hadoop-env.sh 添加
export JAVA_HOME=/root/software/jdk1.8.0_181

1. core-site.xml

你需要在Hadoop根目录下，创建tmp 文件夹，mkdir tmp
ip地址，需要使用ifconfig命令查看内网ip
ip地址后的9000端口可能存在占用问题，导致HADOOP无法启动，所以需要你修改

<!-- 指定namenode的hdfs协议的文件系统通信地址 -->
<property>
 <name>fs.defaultFS</name>
<value>hdfs://192.168.182.128:9000</value>
</property>
<!-- 默认路径/tmp namenode的数据默认放在${hadoop.tmp.dir}/dfs/name 路径下 -->
<!-- 如果操作系统重启了，系统会清空/tmp目录下的东西 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/software/hadoop-2.7.5/tmp</value>
</property>

2. mapred-site.xml

因为mapred-site.xml.template 是存在的
mapred-site.xml不存在
所以你需要复制一份
cp mapred-site.xml.template mapred-site.xml

<!-- 指定yarn为mapreduce的框架 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

3. yarn-site.xml

<!-- yarn的默认混洗方式，选择为mapreduce的默认混洗算法 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<property>												 
    <name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

格式化HDFS集群，启动yarn服务

hadoop namenode -format

start-dfs.sh

start-yarn.sh

你可以使用 jps，来验证>启动结果：

启动结果

start-dfs.sh启动结果

9226 DataNode
8525 SecondaryNameNode
8334 NameNode

start-yarn.sh启动结果

9659 NodeManager
9535 ResourceManager

其他问题

1. 无法访问web页面

防火墙没有关闭

参考博客：
Linux关闭防火墙命令_baidu_36124158的博客-CSDN博客_linux关闭防火墙
 Linux关闭防火墙命令 - 简书 (jianshu.com)

查看开启情况：

systemctl status firewalld

关闭防火墙：

systemctl stop firewalld

关闭开机自启防火墙：

systemctl disable firewalld.service

端口未开放
端口被占用

2. 配置ssh密钥

在多次启动关闭HADOOP中，需要多次输入密码，这个过程就会过于麻烦，所这个时候就需要ssh密钥直接启动登录

ssh-keygen -t rsa

cp id_rsa.pub authorized_keys

天让你傻的真

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫