（大数据二）hadoop平台伪分布（Pseudo-Distributed Operation）式与完全分布式（Cluster）（on yarn）

最新推荐文章于 2022-12-03 06:29:28 发布

哒哒达

最新推荐文章于 2022-12-03 06:29:28 发布

阅读量241

点赞数

分类专栏：大数据平台及组件搭建

本文链接：https://blog.csdn.net/z774884795/article/details/98650781

版权

大数据平台及组件搭建专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文详细介绍了如何在Hadoop平台上搭建Pseudo-Distributed Operation和Cluster模式，涉及配置文件修改、副本数设定、执行框架切换至Yarn、文件系统格式化、守护线程启动与停止等关键步骤。

摘要由CSDN通过智能技术生成

搭建Hadoop平台Pseudo-Distributed Operation

（1）修改默认文件系统

步骤：

①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml

命令：vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置：将fs.defaultFS属性值修改为hdfs://localhost:9000

（2）修改副本数

步骤：

①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置：将dfs.replication属性值修改为1

（3）修改执行框架为yarn

命令：vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml

内容处置：将mapreduce.framework.name属性值改为yarn，没有添加即可

（4）修改配置mr程序混洗服务

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.nodemanager.aux-services属性值为mapreduce_shuffle，没有添加即可

（5）文件系统格式化

命令：hdfs namenode -format

（6）启动NameNode守护线程和DataNode守护线程

命令：start-dfs.sh

（7）启动yarn守护线程

命令：start-yarn.sh

（8）浏览NameNode的Web界面

网址：http://localhost:50070

（9）测试

命令：

①hdfs dfs -mkdir /test/input

命令解释：在hdfs文件系统上创建测试输入目录

②echo I’m Hadoop,hello world >> inputTest

命令解释：在本地创建测试文件inputTest

③hdfs dfs -put inputTest /test/input

命令解释：将本地文件上传至hdfs

④hdfs dfs -mkdir /test/output

⑤hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep /test/input /test/output 'dfs[a-z.]+'

⑥mkdir

命令解释：在$HADOOP_HOME目录下创建test/output/output-Pseudo-Distributed目录

⑦-1

hdfs dfs -get /test/output /test/output/output-Pseudo-Distributed

命令解释：将hdfs文件系统上的文件复制到本地文件

cat output-Pseudo-Distributed/*

命令解释：查看生成文件

⑦hdfs dfs -cat /test/output/*

（10）停止守护线程

命令：stop-dfs.sh

（11）停止yarn守护线程

命令：stop-yarn.sh

搭建Hadoop平台Cluster

（1）修改默认文件系统

步骤：

①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml

命令：vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置：将fs.defaultFS属性值修改为hdfs://localhost:9000，没有添加即可

（2）修改临时文件存储路径

步骤：

①在$HADOOP_HOME目录下创建tmp目录

②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml

命令：vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置：修改hadoop.tmp.dir属性值为file:$HADOOP_HOME/tmp，没有添加即可

注释：属性意义为其他临时目录的基础

（3）修改指定序列文件缓冲区大小

命令：vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置：修改io.file.buffer.size属性值为131702，没有添加即可

（4）修改namenode实例的存储目录

步骤：

①在$HADOOP_HOME目录下创建hdfs/namenode目录

②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml

命令：vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置：修改dfs.namenode.name.dir属性值为file:$HADOOP_HOME/hdfs/namenode，没有添加即可

注释：属性意义为确定DFS名称节点应该存储名称表(fsimage)在本地文件系统的何处。如果这是一个以都好分割的目录列表，那么为了冗余起见，将在所有目录中个赋值name表

（5）修改datanode实例的存储目录

步骤：

①在$HADOOP_HOME目录下创建hdfs/datanode目录

②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml

命令：vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置：修改dfs.datanode.data.dir属性值为file:$HADOOP_HOME/hdfs/datanode，没有添加即可

注释：属性意义为确定DFS数据节点应该将其块存储在本地文件系统的何处。如果这是一个以逗号分隔的目录列表，那么数据将存储在所有命名目录中，通常存储在不同的设备上。对于HDFS存储策略，目录应该使用相应的存储类型([SSD]/[DISK]/[ARCHIVE]/[RAM_DISK])进行标记。如果目录没有显式标记的存储类型，则默认存储类型为磁盘。如果本地文件系统权限允许，将创建不存在的目录

（6）修改副本数

命令：vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置：修改dfs.replication属性值为3，没有添加即可

（7）修改第二主节点端口

命令：vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置：修改dfs.namenode.secondary.http-address属性值为master:9000，没有添加即可

（8）启用webHDFS检测namenode与datanode

命令：vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置：修改dfs.webhdfs.enabled属性值为true，没有添加即可

（9）复制mapred-site.xml.template文件并将复制文件改名为mapred-site.xml

命令：cp mapred-site.xml.template mapred-site.xml

（10）修改历史任务端口号

命令：vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml

内容处置：修改mapreduce.jobhistory.address属性值改为master:10020，没有添加即可

（11）修改历史任务默认web端口

命令：vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml

内容处置：修改mapreduce.jobhistory.webapp.address属性值为master:19888，没有添加即可

（12）配置要使用的辅助服务类

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.nodemanager.aux-services.mapreduce.shuffle.class属性值为org.apache.hadoop.mapred.ShuffleHandler，没有添加即可

（13）配置RM对客户端访问端口

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.resourcemanager.address属性值为master:8032，没有添加即可

注释：ResourceManager对客户端暴露的地址，客户端通过该地址向RM提交应用程序，杀死应用程序等。

（14）配置RM对ApplicationMaster访问端口

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.resourcemanager.scheduler.address属性值为master:8030，没有添加即可

注释：ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。

（15）配置RM对NodeManager访问端口

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.resourcemanager.resource-tracker.address属性值为master:8031，没有添加即可

（16）配置RM 对管理员访问端口

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.resourcemanager.admin.address属性值为master:8033，没有添加即可

（17）配置RM对外web ui访问端口

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置：修改yarn.resourcemanager.webapp.address属性值为master:8088，没有添加即可

（18）配置slave节点

命令：vim $HADOOP_HOME/etx/Hadoop/slaves

内容处置：删除默认localhost并增加从节点域名或ip

（19）配置yarn的JAVAHOME

命令：vim $HADOOP_HOME/etx/Hadoop/yarn-env.sh

内容处置：将JAVA_HOME值改为$JAVA_HOME

（20）将已经配置好的hadoop文件与环境变量文件发送至slave从节点上

命令：

①scp -r ~/apps/hadoop 用户名@主机名:~/apps/hadoop

②scp /etc/profile root@主机名:/etc/profile

注释：发送环境变量文件时注意是否需要切换用户

（21）重新启动计算机

（22）格式化hdfs

命令：hdfs namenode -format

（23）启动集群

命令：start-all.sh

注释：不建议用该命令，建议使用start-dfs.sh与start-yarn.sh代替

（24）查看进程

命令：jps

注释：在主节点上应该存在有四个进程，分别为jps，SecondaryNameNode，ResourceManager，NameNode；从节点上应该存在有三个进程，分别为jps，NodeManager，DataNode

（25）通过web访问网页

网址：

①master:50070

②master:8088

注释：第一个网址为访问hdfs，第二个网址为访问yarn

（26）关闭集群

命令：stop-all.sh

注释：同样不建议，建议使用stop-dfs.sh与stop-yarn.sh代替

哒哒达

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录