Hadoop 分布式集群搭建

Hadoop 分布式集群搭建

搭建环境 vmware15,
系统Centos7,
hadoop2.7.1,java1.8

节点分布图
在这里插入图片描述

  1. 解压hadoop文件:
    在 opt/ 文件下新建一个 softwares/ 文件夹(用于存放压缩包)
#tar -zxvf 文件名

在这里插入图片描述在这里插入图片描述

  1. 配置系统环境文件
    修改文件 vim /etc/profile
    在末尾添加环境变量
    在这里插入图片描述

使文件生效:source /etc/profile

测试一下:
在这里插入图片描述

可以看到版本号就说明系统环境配置完成了。

  1. 配置hadoop环境变量
    进入 etc/hadoop/ 文件夹下,hadoop基本上所有的文件都是在这里配置
    在这里插入图片描述

  2. 配置HDFS

  1. 修改文件vim hadoop.env.sh
    添加 JAVA_HOME 环境路径
    在这里插入图片描述

2)修改文件vim core-site.xml 写入信息
在这里插入图片描述

fs.defaultFS:HDFS的默认访问路径,也是NameNode的访问地址。

hadoop.tmp.dir:Hadoop数据文件的存放目录。该参数如果不配置,默认指向/tmp目录,而/tmp目录在系统重启后会自动被清空,从而导致Hadoop的文件系统数据丢失。

(3)修改 vim hdfs-site.xml 添加信息
在这里插入图片描述

dfs.replication:文件在HDFS系统中的副本数。

配置 vim slaves 文件 添加节点名

在这里插入图片描述

  1. 配置yarn环境
    (1)修改文件前 ,先修改文件名 在修改内容
    在这里插入图片描述
    在这里插入图片描述

(2)修改 vim yarn-site.xml 文件添加

在这里插入图片描述

yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置成mapreduce_shuffle才可运行MapReduce程序。YARN提供了该配置项用于在NodeManager上扩展自定义服务,MapReduce的Shuffle功能正是一种扩展服务。

  1. 复制
    配置好上面的所有文件后,分别将文件夹发送到各个节点上
    使用 scp -r 将文件分发
    在这里插入图片描述

  2. 格式化namenode
    在hadoop100 执行命令:
    #hadoop namenode -format

在这里插入图片描述

出现如上信息就说明格式化成功了
注意:格式化切记不能多次使用,如果第一次没有成功,先试着检查配置文件有哪一步错了。
在这里插入图片描述

8.启动hadoop
在这里插入图片描述

查看各个节点:jps
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 测试HDFS 进入http:// ip:50070
    在这里插入图片描述

出现这个界面,且有自己的主机名就说明成功了

  1. 测试:单词统计
    1.在 opt/ 目录下创建新文件夹text/,写一个mp.txt文件,在里面添加内容
    在这里插入图片描述

在这里插入图片描述

2.在hdfs集群上,创建文件夹

#hdfs dfs -mkdir /input

在这里插入图片描述

3.将文件上传到hdfs集群上

#hadoop fs -put /opt/test/mp.txt /input

`在这里插入图片描述

可以通过50070 访问,也可以用密令查看文件
在这里插入图片描述

  1. 以 input 作为输入目录,output 目录作为输出目录
    hadoop 中自带所依赖包都存放在 share/hadoop/mapreduce/ 目录下
    在这里插入图片描述

5.执mapreduce 进行单词统计
在这里插入图片描述

查看文件夹,生成两个文件
_SUCCESS文件为执行状态文件
part-r-00000文件则为存储实际的执行结果
在这里插入图片描述

这样实验就完成了。

如果有出现文件不能下发节点的,就说明没有配置好集群节点。可以看另一篇关于集群节点配置
码字不易,请好好珍惜投个小赞,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要搭建Hadoop分布式集群,你需要按照以下步骤进行操作: 1. 安装Java:Hadoop是用Java编写的,所以首先需要安装Java环境。确保你的系统上已经安装了Java,并设置好JAVA_HOME环境变量。 2. 下载Hadoop:从Apache官网下载最新版本的Hadoop。选择一个稳定版本并下载压缩包。 3. 解压Hadoop压缩包:将下载的压缩包解压到你选择的目录中。 4. 配置Hadoop:进入解压后的Hadoop目录,编辑`etc/hadoop/core-site.xml`文件,设置以下属性: ``` <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> ``` 编辑`etc/hadoop/hdfs-site.xml`文件,设置以下属性: ``` <property> <name>dfs.replication</name> <value>3</value> </property> ``` 编辑`etc/hadoop/mapred-site.xml.template`文件,设置以下属性: ``` <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> ``` 将该文件另存为`etc/hadoop/mapred-site.xml`。 5. 配置主机文件:在`etc/hadoop/workers`文件中,列出你希望成为集群节点的主机名或IP地址。每行一个主机。 6. 配置SSH免密码登录:确保你可以通过SSH免密码登录到所有集群节点。可以使用`ssh-keygen`命令生成SSH密钥对,并将公钥拷贝到所有节点的`~/.ssh/authorized_keys`文件中。 7. 格式化HDFS:运行以下命令来格式化HDFS: ``` bin/hdfs namenode -format ``` 8. 启动Hadoop集群:运行以下命令启动Hadoop集群: ``` sbin/start-dfs.sh sbin/start-yarn.sh ``` 运行以上命令后,你的Hadoop分布式集群就会启动起来。 这是一个基本的Hadoop分布式集群搭建过程,你可以根据自己的需求进行进一步的配置和调优。还有其他一些配置文件和命令可以帮助你管理和监控Hadoop集群,你可以查阅Hadoop官方文档来获取更多详细信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值