(大数据二)hadoop平台伪分布(Pseudo-Distributed Operation)式与完全分布式(Cluster)(on yarn)

本文详细介绍了如何在Hadoop平台上搭建Pseudo-Distributed Operation和Cluster模式,涉及配置文件修改、副本数设定、执行框架切换至Yarn、文件系统格式化、守护线程启动与停止等关键步骤。
摘要由CSDN通过智能技术生成

搭建Hadoop平台Pseudo-Distributed Operation

 

1)修改默认文件系统

步骤:

①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml

命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置:将fs.defaultFS属性值修改为hdfs://localhost:9000

 

2)修改副本数

步骤:

①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置:将dfs.replication属性值修改为1

 

3)修改执行框架为yarn

命令:vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml

内容处置:将mapreduce.framework.name属性值改为yarn,没有添加即可

 

4)修改配置mr程序混洗服务

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.nodemanager.aux-services属性值为mapreduce_shuffle,没有添加即可

 

5)文件系统格式化

命令:hdfs namenode -format

 

6)启动NameNode守护线程和DataNode守护线程

命令:start-dfs.sh

 

7)启动yarn守护线程

命令:start-yarn.sh

 

8)浏览NameNodeWeb界面

网址:http://localhost:50070

 

9)测试

命令:

hdfs dfs -mkdir /test/input

命令解释:在hdfs文件系统上创建测试输入目录

echo I’m Hadoop,hello world >> inputTest

命令解释:在本地创建测试文件inputTest

hdfs dfs -put inputTest /test/input

命令解释:将本地文件上传至hdfs

hdfs dfs -mkdir /test/output

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep /test/input /test/output 'dfs[a-z.]+'

mkdir

命令解释:在$HADOOP_HOME目录下创建test/output/output-Pseudo-Distributed目录

-1

hdfs dfs -get /test/output /test/output/output-Pseudo-Distributed

命令解释:将hdfs文件系统上的文件复制到本地文件

cat output-Pseudo-Distributed/*

命令解释:查看生成文件

hdfs dfs -cat /test/output/*

 

10)停止守护线程

命令:stop-dfs.sh

 

11)停止yarn守护线程

命令:stop-yarn.sh

 

搭建Hadoop平台Cluster

 

1)修改默认文件系统

步骤:

①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml

命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置:将fs.defaultFS属性值修改为hdfs://localhost:9000,没有添加即可

 

2)修改临时文件存储路径

步骤:

①在$HADOOP_HOME目录下创建tmp目录

②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml

命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置:修改hadoop.tmp.dir属性值为file:$HADOOP_HOME/tmp,没有添加即可

注释:属性意义为其他临时目录的基础

 

3)修改指定序列文件缓冲区大小

命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml

内容处置:修改io.file.buffer.size属性值为131702,没有添加即可

 

4)修改namenode实例的存储目录

步骤:

①在$HADOOP_HOME目录下创建hdfs/namenode目录

②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml

命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置:修改dfs.namenode.name.dir属性值为file:$HADOOP_HOME/hdfs/namenode,没有添加即可

注释:属性意义为确定DFS名称节点应该存储名称表(fsimage)在本地文件系统的何处。如果这是一个以都好分割的目录列表,那么为了冗余起见,将在所有目录中个赋值name

 

5)修改datanode实例的存储目录

步骤:

①在$HADOOP_HOME目录下创建hdfs/datanode目录

②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml

命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置:修改dfs.datanode.data.dir属性值为file:$HADOOP_HOME/hdfs/datanode,没有添加即可

注释:属性意义为确定DFS数据节点应该将其块存储在本地文件系统的何处。如果这是一个以逗号分隔的目录列表,那么数据将存储在所有命名目录中,通常存储在不同的设备上。对于HDFS存储策略,目录应该使用相应的存储类型([SSD]/[DISK]/[ARCHIVE]/[RAM_DISK])进行标记。如果目录没有显式标记的存储类型,则默认存储类型为磁盘。如果本地文件系统权限允许,将创建不存在的目录

 

6)修改副本数

命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置:修改dfs.replication属性值为3,没有添加即可

 

7)修改第二主节点端口

命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置:修改dfs.namenode.secondary.http-address属性值为master:9000,没有添加即可

 

8)启用webHDFS检测namenodedatanode

命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml

内容处置:修改dfs.webhdfs.enabled属性值为true,没有添加即可

 

9)复制mapred-site.xml.template文件并将复制文件改名为mapred-site.xml

命令:cp mapred-site.xml.template mapred-site.xml

 

10)修改历史任务端口号

命令:vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml

内容处置:修改mapreduce.jobhistory.address属性值改为master:10020,没有添加即可

 

11)修改历史任务默认web端口

命令:vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml

内容处置:修改mapreduce.jobhistory.webapp.address属性值为master:19888,没有添加即可

 

12)配置要使用的辅助服务类

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.nodemanager.aux-services.mapreduce.shuffle.class属性值为org.apache.hadoop.mapred.ShuffleHandler,没有添加即可

 

13)配置RM对客户端访问端口

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.resourcemanager.address属性值为master:8032,没有添加即可

注释:ResourceManager对客户端暴露的地址,客户端通过该地址向RM提交应用程序,杀死应用程序等。

 

14)配置RMApplicationMaster访问端口

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.resourcemanager.scheduler.address属性值为master:8030,没有添加即可

注释:ResourceManager ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。

 

15)配置RMNodeManager访问端口

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.resourcemanager.resource-tracker.address属性值为master:8031,没有添加即可

 

16)配置RM 对管理员访问端口

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.resourcemanager.admin.address属性值为master:8033,没有添加即可

 

17)配置RM对外web ui访问端口

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml

内容处置:修改yarn.resourcemanager.webapp.address属性值为master:8088,没有添加即可

 

18)配置slave节点

命令:vim $HADOOP_HOME/etx/Hadoop/slaves

内容处置:删除默认localhost并增加从节点域名或ip

 

19)配置yarnJAVAHOME

命令:vim $HADOOP_HOME/etx/Hadoop/yarn-env.sh

内容处置:将JAVA_HOME值改为$JAVA_HOME

 

20)将已经配置好的hadoop文件与环境变量文件发送至slave从节点上

命令:

scp -r ~/apps/hadoop 用户名@主机名:~/apps/hadoop

scp /etc/profile root@主机名:/etc/profile

注释:发送环境变量文件时注意是否需要切换用户

 

21)重新启动计算机

 

22)格式化hdfs

命令:hdfs namenode -format

 

23)启动集群

命令:start-all.sh

注释:不建议用该命令,建议使用start-dfs.shstart-yarn.sh代替

 

24)查看进程

命令:jps

注释:在主节点上应该存在有四个进程,分别为jpsSecondaryNameNodeResourceManagerNameNode;从节点上应该存在有三个进程,分别为jpsNodeManagerDataNode

 

25)通过web访问网页

网址:

master:50070

master:8088

注释:第一个网址为访问hdfs,第二个网址为访问yarn

 

26)关闭集群

命令:stop-all.sh

注释:同样不建议,建议使用stop-dfs.shstop-yarn.sh代替

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值