一:伪分布式环境概念
什么是伪分布式?
伪分布式和分布式区别:伪分布式配置文件完全按照分布式配置文件配置,只不过所有东西配置在一台服务器上。
二:环境搭建
1、先配置hadoop环境变量
详情请查看第一篇博客: https://my.oschina.net/u/3535099/blog/3108124
2、配置core-site.xml(命令:vi 你的hadoop的根路径下/etc/hadoop/core-site.xml)
将配置信息添加的<configuration></configuration>标签中
<!--指定hdfs中NameNode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <!--指定hadoop运行时产生的文件存储目录--> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/hadoop-3.2.0/tmp</value> </property>
点击esc退出编辑模式,并输入:wq!进行保存并退出。
3、配置hadoop-env.sh(命令 vi etc/hadoop/hadoop-env.sh)
点击i进入编辑模式
将配置信息添加的文件最下方,对jdk路径进行修改
export JAVA_HOME=/usr/local/java/jdk1.8.0_131
点击esc退出编辑模式,输入:wq!保存并退出
4、配置hdfs-site.xml(命令:vi etc/hadoop/hdfs-site.xml),该文件可以选择不配置
默认的副本数为3,他会在其他机器上也会有副本,如果某台服务器上节点挂掉,他会再增加一个节点,始终保持为三个节点副本,副本数的多少取决于机器的性能。
<!--指定hdfs的副本数量--> <property> <name>dfs.replication</name> <value>1</value> </property> <!--修改页面端口号,默认为9870,可以不进行修改--> <property> <name>dfs.http.address</name> <value>0.0.0.0:50070</value> </property>
5、格式化NameNode(第一次启动时格式化,之后启动不需要格式化)
命令: bin/hdfs namenode -format
6、启动NameNode节点
命令:sbin/hadoop-daemon.sh start namenode
7、运行完之后输入jps查看进程中有没有NameNode,如果有则启动成功
8、启动datanode节点
命令:sbin/hadoop-daemon.sh start datanode
9、运行完之后输入jps查看进程中有没有datanode,如果有则启动成功
10、关闭防火墙(命令:service firewalld stop)
11、在浏览器中输入ip+端口号访问,即可看到如下图的页面(HDFS页面),(ip为虚拟机ip,端口号是你在hdfs-site.xml文件中配置的端口号,如没有配置默认为9870)