搭建Hadoop平台Pseudo-Distributed Operation
(1)修改默认文件系统
步骤:
①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml
命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml
内容处置:将fs.defaultFS属性值修改为hdfs://localhost:9000
(2)修改副本数
步骤:
①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml
内容处置:将dfs.replication属性值修改为1
(3)修改执行框架为yarn
命令:vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml
内容处置:将mapreduce.framework.name属性值改为yarn,没有添加即可
(4)修改配置mr程序混洗服务
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.nodemanager.aux-services属性值为mapreduce_shuffle,没有添加即可
(5)文件系统格式化
命令:hdfs namenode -format
(6)启动NameNode守护线程和DataNode守护线程
命令:start-dfs.sh
(7)启动yarn守护线程
命令:start-yarn.sh
(8)浏览NameNode的Web界面
(9)测试
命令:
①hdfs dfs -mkdir /test/input
命令解释:在hdfs文件系统上创建测试输入目录
②echo I’m Hadoop,hello world >> inputTest
命令解释:在本地创建测试文件inputTest
③hdfs dfs -put inputTest /test/input
命令解释:将本地文件上传至hdfs
④hdfs dfs -mkdir /test/output
⑤hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep /test/input /test/output 'dfs[a-z.]+'
⑥mkdir
命令解释:在$HADOOP_HOME目录下创建test/output/output-Pseudo-Distributed目录
⑦-1
hdfs dfs -get /test/output /test/output/output-Pseudo-Distributed
命令解释:将hdfs文件系统上的文件复制到本地文件
cat output-Pseudo-Distributed/*
命令解释:查看生成文件
⑦hdfs dfs -cat /test/output/*
(10)停止守护线程
命令:stop-dfs.sh
(11)停止yarn守护线程
命令:stop-yarn.sh
搭建Hadoop平台Cluster
(1)修改默认文件系统
步骤:
①修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml
命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml
内容处置:将fs.defaultFS属性值修改为hdfs://localhost:9000,没有添加即可
(2)修改临时文件存储路径
步骤:
①在$HADOOP_HOME目录下创建tmp目录
②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/core-site.xml
命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml
内容处置:修改hadoop.tmp.dir属性值为file:$HADOOP_HOME/tmp,没有添加即可
注释:属性意义为其他临时目录的基础
(3)修改指定序列文件缓冲区大小
命令:vim $HADOOP_HOME/etx/Hadoop/core-site.xml
内容处置:修改io.file.buffer.size属性值为131702,没有添加即可
(4)修改namenode实例的存储目录
步骤:
①在$HADOOP_HOME目录下创建hdfs/namenode目录
②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml
命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml
内容处置:修改dfs.namenode.name.dir属性值为file:$HADOOP_HOME/hdfs/namenode,没有添加即可
注释:属性意义为确定DFS名称节点应该存储名称表(fsimage)在本地文件系统的何处。如果这是一个以都好分割的目录列表,那么为了冗余起见,将在所有目录中个赋值name表
(5)修改datanode实例的存储目录
步骤:
①在$HADOOP_HOME目录下创建hdfs/datanode目录
②修改hadoop配置文件$HADOOP_HOME/etx/Hadoop/hdfs-site.xml
命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml
内容处置:修改dfs.datanode.data.dir属性值为file:$HADOOP_HOME/hdfs/datanode,没有添加即可
注释:属性意义为确定DFS数据节点应该将其块存储在本地文件系统的何处。如果这是一个以逗号分隔的目录列表,那么数据将存储在所有命名目录中,通常存储在不同的设备上。对于HDFS存储策略,目录应该使用相应的存储类型([SSD]/[DISK]/[ARCHIVE]/[RAM_DISK])进行标记。如果目录没有显式标记的存储类型,则默认存储类型为磁盘。如果本地文件系统权限允许,将创建不存在的目录
(6)修改副本数
命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml
内容处置:修改dfs.replication属性值为3,没有添加即可
(7)修改第二主节点端口
命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml
内容处置:修改dfs.namenode.secondary.http-address属性值为master:9000,没有添加即可
(8)启用webHDFS检测namenode与datanode
命令:vim $HADOOP_HOME/etx/Hadoop/hdfs-site.xml
内容处置:修改dfs.webhdfs.enabled属性值为true,没有添加即可
(9)复制mapred-site.xml.template文件并将复制文件改名为mapred-site.xml
命令:cp mapred-site.xml.template mapred-site.xml
(10)修改历史任务端口号
命令:vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml
内容处置:修改mapreduce.jobhistory.address属性值改为master:10020,没有添加即可
(11)修改历史任务默认web端口
命令:vim $HADOOP_HOME/etx/Hadoop/mapred-site.xml
内容处置:修改mapreduce.jobhistory.webapp.address属性值为master:19888,没有添加即可
(12)配置要使用的辅助服务类
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.nodemanager.aux-services.mapreduce.shuffle.class属性值为org.apache.hadoop.mapred.ShuffleHandler,没有添加即可
(13)配置RM对客户端访问端口
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.resourcemanager.address属性值为master:8032,没有添加即可
注释:ResourceManager对客户端暴露的地址,客户端通过该地址向RM提交应用程序,杀死应用程序等。
(14)配置RM对ApplicationMaster访问端口
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.resourcemanager.scheduler.address属性值为master:8030,没有添加即可
注释:ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。
(15)配置RM对NodeManager访问端口
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.resourcemanager.resource-tracker.address属性值为master:8031,没有添加即可
(16)配置RM 对管理员访问端口
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.resourcemanager.admin.address属性值为master:8033,没有添加即可
(17)配置RM对外web ui访问端口
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-site.xml
内容处置:修改yarn.resourcemanager.webapp.address属性值为master:8088,没有添加即可
(18)配置slave节点
命令:vim $HADOOP_HOME/etx/Hadoop/slaves
内容处置:删除默认localhost并增加从节点域名或ip
(19)配置yarn的JAVAHOME
命令:vim $HADOOP_HOME/etx/Hadoop/yarn-env.sh
内容处置:将JAVA_HOME值改为$JAVA_HOME
(20)将已经配置好的hadoop文件与环境变量文件发送至slave从节点上
命令:
①scp -r ~/apps/hadoop 用户名@主机名:~/apps/hadoop
②scp /etc/profile root@主机名:/etc/profile
注释:发送环境变量文件时注意是否需要切换用户
(21)重新启动计算机
(22)格式化hdfs
命令:hdfs namenode -format
(23)启动集群
命令:start-all.sh
注释:不建议用该命令,建议使用start-dfs.sh与start-yarn.sh代替
(24)查看进程
命令:jps
注释:在主节点上应该存在有四个进程,分别为jps,SecondaryNameNode,ResourceManager,NameNode;从节点上应该存在有三个进程,分别为jps,NodeManager,DataNode
(25)通过web访问网页
网址:
①master:50070
②master:8088
注释:第一个网址为访问hdfs,第二个网址为访问yarn
(26)关闭集群
命令:stop-all.sh
注释:同样不建议,建议使用stop-dfs.sh与stop-yarn.sh代替