目录
1.安装前准备
1.hadoop伪分布安装相关文件下载
CentOS-7-x86_64-DVD-1810.iso 下载:
百度网盘链接:https://pan.baidu.com/s/1o_Wv6gxOK360oPOTwlXHfw
提取码:rewr
Hadoop-2.10.2.tar.gz下载
阿里云下载:https://mirrors.aliyun.com/apache/hadoop/core/hadoop-2.10.2/
百度网盘链接:https://pan.baidu.com/s/15uY1FCeRpENCdgdyWlsI3A
提取码:dfs4
JDK1.8 下载
JDK1.8官网下载地址:https://www.oracle.com/java/technologies/downloads/
JDK1.8百度云盘链接:https://pan.baidu.com/s/1wYOZ6_MyXhES7_5_upXnKw
提取码:wguh**
1.2把主机ip设置为静态ip
可以查看我的另一篇文章:https://blog.csdn.net/weixin_53125824/article/details/127334483
教程在这
1.3关闭防火墙与SELINUX
关闭防火墙
systemctl stop firewalld //停止firewalld防火墙
systemctl disable firewalld //disable防火墙
systemctl status firewalld //查看firewalld是否已经关闭
关闭SELINUX
1.4安装JDK8 并配置好环境变量
可以查看我的另一篇文章:https://blog.csdn.net/weixin_53125824/article/details/127326623
教程在这
1.5安装Hadoop并配置好环境变量
可以查看我的另一篇文章:https://blog.csdn.net/weixin_53125824/article/details/127344657
教程在这
2.安装伪分布
2.1修改主机名
查看主机名
hostname
修改主机名
hostnamectl set-hostname node1
实践
2.2映射ip地址及主机名
在文件 /etc/hosts中添加你的IP地址 和主机名
vim /etc/hosts
重启网络服务
service network restart
测试网络环境 ip地址是自己的IP地址
ping 192.168.110.129
2.3免密登录设置
1.安装openssh-server,openssh-clients软件
yum install –y openssh-server
yum install –y openssh-clients
2.生成密钥对
ssh-keygen -t rsa
其中,rsa表示加密算法,键入上面的一条命令后连续敲击三次回车键系统会自动在~/.ssh目录下生成公钥(id_rsa.pub)和私钥(id_rsa),可通过命令ls ~/.ssh
查看
4.追加公钥
我们以本机登录本机自己为例(连接本机),将公钥追加到~/.ssh/authorized_keys文件中。
中途输入yes之后输入本机密码就行了
ssh-copy-id -i /root/.ssh/id_rsa.pub node1
5.免密登陆验证
ssh node1 //登录
exit //登出
免密登录成功
2.4设置hadoop配置文件
进入/root/hadoop/etc/hadoop目录 需要修改hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn.site.xml五个文件
cd /root/hadoop/etc/hadoop
1.设置hadoop-env.sh
cd ~/hadoop/etc/hadoop
vi hadoop-env.sh
找到export JAVA_HOME一行,并按实际修改JAVA_HOME的值。
# The java implementation to use.
export JAVA_HOME=~/jdk //这里填自己的JDK路径
2.设置core-site.xml
vi core-site.xml
在configuration中添加以下代码
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>~/hadoop/data</value>
</property>
5.设置hdfs-site.xml
vi hdfs-site.xml
在configuration中添加以下代码
<property>
<name>dfs.replication</name>
<value>1</value> //伪分布只有一个节点设置1就行了
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>~/hadoop/data/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>~/hadoop/data/dfs/data</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>node1:50070</value>
</property>
6.设置mapred-site.xml
复制mapred-site.xml.template ,生成mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
编辑mapred-site.xml
vi mapred-site.xml
在configuration中添加以下代码
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
8.设置yarn.site.xml
编辑yarn.site.xml文件
vi yarn-site.xml
在configuration中添加以下代码
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
2.5格式化HDFS
格式化的过程是创建初始目录和文件结构的过程,执行下面的命令格式化HDFS
hdfs namenode -format
最后一个INFO没有报ERROR就说明成功了,如果报了错误把错误复制到百度即可解决
2.6启动Hadoop
**采用下面命令启动HDFS **
start-dfs.sh
中途输入两个yes
输入jps
发现少了NameNode进程
停止进程
stop-dfs.sh
在~/hadoop 目录下输入
rm-rf data
因为core-site.xml和hdfs-site.xml 配置的名称节点数据节点都在~/hadoop/data 里面所以先删除
然后重新格式化HDFS
hdfs namenode -format
然后启动HDFS
start-dfs.sh
查看进程(一共有四个)
jps
2.7验证hadoop进程
使用下面的命令启动YARN
start-yarn.sh
启动之后会多出两个进程
注:start-all.sh(启动所有进程) stop-all.sh(关闭所以进程)
2.8通过Web访问Hadoop界面
1.HDFS Web界面
在Window游览器中,输入网址http://192.168.110.199:50070
,可以查看NameNode和DataNode的信息如下图(地址是自己主机的地址IP+50070是端号)
在Window游览器中,输入网址http://192.168.110.199:50090
,可以查看SecoundaryNameNode的信息如下图(地址是自己主机的地址IP+50090是端号)
网页显示Hadoop,2022并未显示全部信息此时需要修改一个文件先进入到 ~/hadoop/share/hadoop/hdfs/webapps/static文件
cd ~/hadoop/share/hadoop/hdfs/webapps/static
编辑dfs-dust.js文件
vim dfs-dust.js
找到下面这个
将这一行改为
return new Date(Number(v)).toLocaleString();
改完后
保存退出刷新网页就出来了(如果没出来就对浏览器的缓存进行清理,再次刷新就可以看到效果了,或者换个游览器输入地址也可以出来)
2.在Window游览器中,输入网址http://192.168.110:8088
,可以查看集群所有应用程序的信息如下图(地址是自己主机的地址IP+8088是端号)
到此伪分布搭建完成,之后就可以搭建完全分布了,完全分布就是在伪分布上修改一点,伪分布搭好了,完全分布就简单多了,中间有啥问题大家可以在评论区指出
注:如果大家觉得麻烦可以直接用我已经搭建好的伪分布机器
链接:https://blog.csdn.net/weixin_53125824/article/details/127361846