HDFS伪分布式三大进程:
Namenode NN
Datanode DN
SecondaryNamenode SNN
端口号50070
1.1 初识Hadoop
bin目录:命令文件件 **
sbin目录:启动和停止hadoop组件 **
etc:配置参数文件 **
lib:jar包
share:共享jar包库
启动过程中遇到了一个问题就是没有设置固定ip,以至于eth0的ip会发生变化,这篇教程帮大家设置乐固定ip。
https://jingyan.baidu.com/article/cbf0e500bdad122eaa289313.html
我们进入到bin目录下,发现一些.cmd进程的命令
rm -f *.cmd 删除sbin目录下所有后缀为.cmd的文件
./start-dfs.sh 运行
Namenode NN 从hadoop也就是我的ip 10.0.0.130启动
Datanode DN 从localhost启动应该是127.0.0.1
Secondarynode SNN 从0.0.0.0启动
三个进程都有独立ip,我们希望都是用自己的ip地址启动
1.1
Namenode 的ip修改:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
1.2
DataNode的ip修改
修改slaves文件就行,把localhost删除,换上本机ip
hdfs是主从架构 Namenode:主,DataNode:从:slaves(奴隶、从的意思)
在你的 hadoop目录/etc/hadoop/slaves 文件上列出全部slave机器名或IP地址,一个一行。
1.3
SecondaryNamenode的ip修改
vi /etc/hadoop/hdfs-site.xml
1.4
进入到hadoop下的sbin目录
./stop-dfs.sh 配置完后需要重启
./start-dfs.sh
jps 查看当前进程
我的hadoop就是10.0.0.130,下图可以看出三个进程的ip都相同
more /opt/sourcecode/hadoop-2.8.1/logs/hadoop-hadoop-namenode-hadoop.log 查看namenode的日志
2.JPS
注意:不同用户查看HDFS进程的结果不同
ps -ef|grep 7218 查看进程情况
如果查看出来发现进程存在,则切换用户去查看,不要kill -9 pid
如果进程不存在,需要删除/tmp/hsperfdata_hadoop/下的pid对应的文件
2.1
sbin/start-dfs.sh
http://10.0.0.130:50070 还要注意linux防火墙是否关闭
创建HDFS文件路径需要执行MapReduce
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/<username
hdfs 分布式文件系统 用于存储
linux系统 存储 部署服务
我是这样理解的:linux系统是我们在主机上安装虚拟机并在磁盘中划分一块区域来运行的,linux系统上有安装了一个虚拟的hdfs可以理解为百度云盘。
2.2查看hdfs的根目录:
进入到hadoop目录
bin/hdfs dfs -ls /
bin/hdfs dfs -ls hdfs://10.0.0.130:9000 /
注意:/前面默认的地址是在/opt/sourcecode/hadoop-2.8.1/etc/hadoop/
core-site.xml,它读的是fs.default(文件系统默认入口),路径hdfs://10.0.0.130:9000
进入主页面–>点击utilities–>browse the file system–>输入/(查看目录结构)–>单机go………..我们在linux上又做了一个文件存储系统、可以是分布式的多台机器联合的。可以看到 / 根目录下的文件是user。
3.YARN的伪分布式部署
3.1配置mapred-site.xml
etc/hadoop/mapred-site.xml 配置这个文件,把下面这段话添加进去
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
3.2配置yarn-site.xml
etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
3.3启动
sbin/start-yarn.sh
./start-yarn.sh 已经进入到sbin目录时使用
jps查看进程多了ResourceManger RM
NodeMAnger NM
netstat -nlp|grep 11025 查看ResourceManger的端口号
http://localhost:8088/