大数据技术与应用（一）Hadoop完全分布式安装配置

最新推荐文章于 2024-04-07 22:30:45 发布

阿樂666

最新推荐文章于 2024-04-07 22:30:45 发布

阅读量177

点赞数

文章标签： Hadoop 大数据

本文链接：https://blog.csdn.net/yabianpeng3177/article/details/90440904

版权

1.关闭防火墙

firewall-cmd --state                                    显示防火墙状态running/not running
systemctl stop firewalld                             临时关闭防火墙，每次开机重新开启防火墙
systemctl disable firewalld                         禁止防火墙服务。

2.传输JDK和HADOOP压缩包

在这里使用xshell+xftp进行SSH与文件传输

将 jdk-8u121-linux-x64.tar.gz 与 hadoop-2.7.3.tar.gz传输到linux主机当前目录
在这里插入图片描述

3.解压JDK和HADOOP压缩包

tar  -zxvf  jdk-8u121-linux-x64.tar.gz  -C  /opt/module  
tar  -zxvf  hadoop-2.7.3.tar.gz  -C  /opt/module

4.配置JDK

vi /etc/profile文件添加：
export JAVA_HOME=/opt/module/jdk1.8.0_121
export PATH=$JAVA_HOME/bin:$PATH                                             然后:wq保存并退出
source /etc/profile                                                          配置生效
javac 检查是否配置成功

5.配置HADOOP

vi /etc/profile

追加在文件末尾

export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

保存并退出

source /etc/profile                          配置生效

运行检查是否生效

6.配置hadoop -env.sh

vi /opt/module/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

文件修改修改第25行

export JAVA_HOME=/opt/module/jdk1.8.0_121

wq!保存并退出
由于本地模式没有HDFS和Yarn，配置JDK后MapReduce能够运行java程序。

7.运行wordcount

cd /opt/module/hadoop-2.7.3/share/hadoop/mapreduce 转入wordcount所在路径。
运行touch in.txt，创建In.txt文件，作为输入文件。
如果in.txt是空文件，则需要自己输入文字方便日后使用词频统计）
输出目录/output必须不存在，程序运行后自动创建。
运行wordcount：

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/

运行成功之后，进入/output目录，打开文件part-r-00000查看计数结果。

在这里插入图片描述
下面进行Hadoop完全分布式模式配置

1.新建两台虚拟机均以上述的虚拟机为克隆

如何利用vmware进行虚拟机克隆

2.修改配置文件

①slaves配置文件

三台虚拟机均运行 vi /opt/module/hadoop-2.7.3/etc/hadoop slaves

修改slaves为：
bigdata129
bigdata131

②修改\etc\hosts配置文件

vi \etc hosts

添加集群三台虚拟机的ip及对应主机名：
192.168.163.128  bigdata128
192.168.163.129  bigdata129
192.168.163.131  bigdata131

③修改\etc\hostname配置文件

 vi  \etc  hostname

添加各自的主机名bigdata128或者bigdata129或者bigdata131。

重启全部虚拟机

3.格式化

在主节点输入hdfs namenode -format
注：如果不是第一次格式化，三台虚拟机都删除\opt\module\hadoop-2.7.3\下面的tmp、logs目录：rm –rf \opt\module\hadoop-2.7.3\tmp rm –rf \opt\module\hadoop-2.7.3\logs
注：如果格式化之前启动过集群，先在主节点bigdata128上面停止集群（stop-all.sh），再格式化。

4.启动集群

start-all.sh

输入jps 如下图显示则成功
在这里插入图片描述
三台主机jps如下则成功

web控制台访问：http://主机ip:50070 、http://主机ip:8088
页面正常显示，则成功。

5.运行wordcount

hdfs dfs -put in.txt /adir 上传本地当前路径下的in.txt文件到hdfs的/adir目录下。
运行hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/
在http://你的主机ip地址:50070 查看/user/root/output/part-r-00000文件里的词频统计结果。
在这里插入图片描述

阿樂666

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据技术与应用（一）Hadoop完全分布式安装配置

1.关闭防火墙firewall-cmd --state 显示防火墙状态running/not runningsystemctl stop firewalld 临时关闭防火墙，每次开机重新开启防火墙systemctl disable firewalld ...
复制链接

扫一扫