启动Hadoop支持三种模式操作,分别是单机模式操作、伪分布模式操作和全分布模式操作。
单机模式操作是Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式。该模式主要用于开发调试MapReduce程序的应用逻辑,而不会和守护进程交互,避免增加额外的复杂性。
伪分布模式操作是指在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式操作之上多了代码调试功能,可以查阅内存的使用情况、HDFS的输入输出以及守护进程之间的交互。
全分布模式操作是指一种实际意义上的Hadoop集群,其规模可从几个节点的小集群到成百上千个节点的大集群,甚至是成千上万的超大集群。
单机模式操作和伪分布模式操作均用于开发与调试的目的。真实的Hadoop 集群是全分布模式操作。
安装思路。一、搭建系统环境,配置ip,主机名,设置ssh无密码登录;二、配置jdk环境;三、安装部署hadoop。
- 创建hadoop用户和hadoop组
(1)系统中已经存在了名为hadoop的用户与用户组,如果不是这样,root用户登录并使用如下命令将其创建:
#useradd -d /home/hadoop –m hadoop
(2)为hadoop用户设置密码
#passwd hadoop
输入2次密码,这里输入hadoop1234
(3)将hadoop添加为sudo的成员,使其具备管理员权限,以免后续操作遇到权限不足问题
#adduser hadoop sudo 不是使用useradd
用如下命令可以从sudo中删去成员:
#deluser hadoop sudo
- 更新apt程序
apt-get是什么?ubuntu下一款好用的软件安装管理工具,首先需要更新一下apt,否则后续使用apt安装软件时有可能无法安装。更新apt的命令为:
$sudo apt-get update
- 安装ssh并使sshd运行
Hadoop用ssh通信,因此ssh必须安装且sshd服务必须处于启动状态。前边章节已经介绍了ssh的安装与检测方法,恕不赘述。 apt-get install openssh-server ps-e|grep ssh
- 配置ssh免密码登录
Hadoop需要通过ssh(安全shell协议)远程登录,来启动Slave列表中各台机器的守护进程,但是节点之间每次访问都将要求输入密码确实太不方便,为此配置ssh为免密码登录,即ssh到其他机器无需密码即可执行指令。
SSH无密码原理:master(namenode/jobtrack)作为客户端,要实现无密码公钥认证,连接到服务器slave(datanode/tasktracker)上时,需要在master上生成一个公钥对,包括一个公钥和一个私钥,而后将公钥复制到所有的slave</