启动Hadoop支持三种模式操作,分别是单机模式操作、伪分布模式操作和全分布模式操作。
单机模式操作是Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式。该模式主要用于开发调试MapReduce程序的应用逻辑,而不会和守护进程交互,避免增加额外的复杂性。
伪分布模式操作是指在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式操作之上多了代码调试功能,可以查阅内存的使用情况、HDFS的输入输出以及守护进程之间的交互。
全分布模式操作是指一种实际意义上的Hadoop集群,其规模可从几个节点的小集群到成百上千个节点的大集群,甚至是成千上万的超大集群。
单机模式操作和伪分布模式操作均用于开发与调试的目的。真实的Hadoop 集群是全分布模式操作。
伪分布模式操作Hadoop集群,具体步骤如下。
此安装将在已经安装了单机hadoop的环境基础上进行,即接下来直接部署hadoop、配置hadoop相关文件。
建议开始之前,先对hadoop单机环境做一验证,以hadoop用户登录,执行如下命令,能正常显示结果即可。
$cd /apps/hadoop/bin
$./hadoop version
开始安装:
1 准备好两个目录:/apps与/data
(1)创建这两个目录
因为安装单机模式的时候已经建立了/apps目录,这里只需创建目录/data,命令为:
$sudo mkdir /data
(2)更改这两个目录所属的用户、用户组,均为hadoop
$sudo chown -R hadoop:hadoop /apps
$sudo chown -R hadoop:hadoop /data
如下操作可以验证,两个目录的所属用户和用户组均已经改好。
2修改环境变量文件,添入hadoop的路径
这里仍然选择hadoop用户的~/.bashrc文件,打开在其尾部添加如下几行:
export HADOOP_HOME=/apps/hadoop
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
让变量生效:
$source ~/.bashrc
如下图所示的操作可以验