Hadoop 分布式集群搭建
搭建环境 vmware15,
系统Centos7,
hadoop2.7.1,java1.8
节点分布图
- 解压hadoop文件:
在 opt/ 文件下新建一个 softwares/ 文件夹(用于存放压缩包)
#tar -zxvf 文件名
- 配置系统环境文件
修改文件 vim /etc/profile
在末尾添加环境变量
使文件生效:source /etc/profile
测试一下:
可以看到版本号就说明系统环境配置完成了。
-
配置hadoop环境变量
进入 etc/hadoop/ 文件夹下,hadoop基本上所有的文件都是在这里配置
-
配置HDFS
- 修改文件vim hadoop.env.sh
添加 JAVA_HOME 环境路径
2)修改文件vim core-site.xml 写入信息
fs.defaultFS:HDFS的默认访问路径,也是NameNode的访问地址。
hadoop.tmp.dir:Hadoop数据文件的存放目录。该参数如果不配置,默认指向/tmp目录,而/tmp目录在系统重启后会自动被清空,从而导致Hadoop的文件系统数据丢失。
(3)修改 vim hdfs-site.xml 添加信息
dfs.replication:文件在HDFS系统中的副本数。
配置 vim slaves 文件 添加节点名
- 配置yarn环境
(1)修改文件前 ,先修改文件名 在修改内容
(2)修改 vim yarn-site.xml 文件添加
yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置成mapreduce_shuffle才可运行MapReduce程序。YARN提供了该配置项用于在NodeManager上扩展自定义服务,MapReduce的Shuffle功能正是一种扩展服务。
-
复制
配置好上面的所有文件后,分别将文件夹发送到各个节点上
使用 scp -r 将文件分发
-
格式化namenode
在hadoop100 执行命令:
#hadoop namenode -format
出现如上信息就说明格式化成功了
注意:格式化切记不能多次使用,如果第一次没有成功,先试着检查配置文件有哪一步错了。
8.启动hadoop
查看各个节点:jps
- 测试HDFS 进入http:// ip:50070
出现这个界面,且有自己的主机名就说明成功了
- 测试:单词统计
1.在 opt/ 目录下创建新文件夹text/,写一个mp.txt文件,在里面添加内容
2.在hdfs集群上,创建文件夹
#hdfs dfs -mkdir /input
3.将文件上传到hdfs集群上
#hadoop fs -put /opt/test/mp.txt /input
`
可以通过50070 访问,也可以用密令查看文件
- 以 input 作为输入目录,output 目录作为输出目录
hadoop 中自带所依赖包都存放在 share/hadoop/mapreduce/ 目录下
5.执mapreduce 进行单词统计
查看文件夹,生成两个文件
_SUCCESS文件为执行状态文件
part-r-00000文件则为存储实际的执行结果
这样实验就完成了。
如果有出现文件不能下发节点的,就说明没有配置好集群节点。可以看另一篇关于集群节点配置
码字不易,请好好珍惜投个小赞,