二、Hadoop教程之分布式环境集群搭建讲解(详细)

前言

本文只介绍安装部署Apache Hadoop2.x版本,后续文章将来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hadoop才是目的。

1. 布式环境部署

分部式是真正利用多台 Linux 主机来进行部署 Hadoop,对 Linux 机器集群进行规划,使得 Hadoop 各个模块分别部署在不同的多台机器上。
下面将演示Hadoop集群分布式部署(包含1个主节点和2个从节点)。

(1) 准备工作

准备三台linux服务器
192.168.2.110 (主节点)
192.168.2.111 (从节点)
192.168.2.112 (从节点)
关闭防火墙
安装JDK并配置环境变量
默认您已安装JDK并配置环境变量,安装和配置在此不做赘述。

//192.168.2.110上配置如下:
/usr/local/jdk/jdk1.8.0_192/bin/java

//192.168.2.111上配置如下:
/usr/local/server/jdk1.8.0_171/bin/java

//192.168.2.112上配置如下:
/usr/local/server/jdk1.8.0_171/bin/java

想知道是否配置成功?查看全局变量:

echo $JAVA_HOME

(1)三台服务器配置同步时间:

yum install ntpdate
ntpdate cn.pool.ntp.org

(2)三台服务器配置主机名:

vim /etc/sysconfig/network
//192.168.2.110上network配置如下:
NETWORKING=yes
HOSTNAME=node-1

//192.168.2.111上network配置如下:
NETWORKING=yes
HOSTNAME=node-2

//192.168.2.112上network配置如下:
NETWORKING=yes
HOSTNAME=node-3

(2)三台服务器设置ip、主机名映射:

vim /etc/hosts
//192.168.2.110上hosts配置如下:
192.168.2.110 node-1

//192.168.2.111上hosts配置如下:
192.168.2.111 node-2

//192.168.2.112上hosts配置如下:
192.168.2.112 node-3

(3)主节点服务器配置ssh免密登录(192.168.2.110上配置)
网上hadoop配置ssh免密登录的方法多种多样,看的眼花缭乱。条条大路通罗马,博主整理了最简洁的配置方法:

ssh-keygen -t rsa              # 会有提示,都按回车就可以
//cat id_rsa.pub >> authorized_keys  # 加入授权(非必须执行)
//chmod 600 ./authorized_keys    # 修改文件权限(非必须执行)
ssh-copy-id node-1
ssh -o StrictHostKeyChecking=no node-1
ssh-copy-id node-2
ssh -o StrictHostKeyChecking=no node-2
ssh-copy-id node-3
ssh -o StrictHostKeyChecking=no node-3

ssh-copy-id :命令可以将当前生成的公共密钥填充到一个远程机器上的authorized_keys文件中。
ssh -o StrictHostKeyChecking=no:在首次连接服务器时,会弹出公钥确认的提示。这会导致某些自动化任务,由于初次连接服务器而导致自动化任务中断。或者由于 ~/.ssh/known_hosts 文件内容清空,导致自动化任务中断。 SSH 客户端的 StrictHostKeyChecking 配置指令,可以实现当第一次连接服务器时,自动接受新的公钥。

如果报错:The authenticity of host ‘node-2 (10.0.0.8)’ can’t be established。别慌,再次执行下面命令:

ssh -o StrictHostKeyChecking=no node-2

如果报错:Permissions 0644 for ‘/root/.ssh/id_rsa’ are too open。别慌,是说/root/.ssh/id_rsa给的权限太开放,执行下面命令赋权:

chmod 0600 /root/.ssh/id_rsa
(2) 配置工作

将hadoop-2.8.5传到/home/neijiang/目录(可以自定义),以下配置均是在主节点服务器上进行,配置完成后,将主节点的hadoop-2.8.5复制到所有从节点即可:
(特别注意:因为hadoop的环境变量不是在hadoop-2.8.5目录下配置的,所有需手动配置到从节点)
(1)配置hadoop-env.sh

vim hadoop-env.sh
//192.168.2.110上hadoop-env.sh配置如下:
<!-- 修改 JAVA_HOME 路径 -->
export JAVA_HOME=/usr/local/jdk1.8.0_171

(2)修改配置文件 core-site.xml

//192.168.2.110上core-site.xml配置如下:
<configuration>
    <!-- 指定Hadoop运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/neijiang/hadoop-2.8.5/hadoopData</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node-1:9000</value>
    </property>
</configuration>

(3)修改配置文件 hdfs-site.xml:

//192.168.2.110上hdfs-site.xml配置如下:
<configuration>
    <!-- 指定HDFS副本的数量 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!-- 指定HDFS副本所在节点位置 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node-2:50090</value>
    </property>
</configuration>

(4)修改配置文件 mapred-site.xml.template:

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
//192.168.2.110上mapred-site.xml.template配置如下:
<configuration>
<!--指定mr运行时框架,这里指定在yarn上,默认是local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

(5)yarn-site.xml

//192.168.2.110上yarn-site.xml配置如下:
<!--指定yarn的老大(resourceManager)的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node-1</value>
    </property>
<!--NodeManager上运行的附属服务,需配置成mapreduce_shuffle,才可运行MapReduce程序的默认值-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

(6)slaves文件,里面写上从节点所在的主机名称

vim slaves
//192.168.2.110上slaves配置如下:
//删除原先的localhsot,写入如下内容:
node-1
node-2
node-3

(7)将hadoop添加到环境变量

vim /etc/profile
//192.168.2.110上配置如下:
export HADOOP_HOME=/home/neijiang/hadoop-2.8.5/  #指向hadoop解压路径
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH=$HBASE_HOME/bin:$ZK_HOME/bin:$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

(8)将主节点192.168.2.110上配置好的 hadoop-2.10.0根目录复制到所有从节点:

scp -r /home/neijiang/hadoop-2.8.5/ root@node-2:/home/neijiang/
scp -r /home/neijiang/hadoop-2.8.5/ root@node-3:/home/neijiang/

(9)将主节点192.168.2.110上配置好的 hadoop环境变量手动配置到所有从节点:

export HADOOP_HOME=/home/neijiang/hadoop-2.8.5  #指向hadoop解压路径
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(3) 启动工作

(1)关于hdfs的格式化:
首次启动需要进行格式化,格式化的本质是进行文件系统的初始化操作,创建一些自己需要的文件;
格式化之后,集群启动成功,后续再也不需要格式化。
格式化的操作必须在hdfs集群的主节点(Namenode)所在的机器上操作
格式化命令:

hadoop namenode -format

(2) 启动方式
/home/neijiang/hadoop-2.8.5/sbin下

  hdfs启动:  start-dfs.sh
  yarn启动:  start-yarn.sh
  //等同于:start-all.sh
  hdfs关闭:  stop-dfs.sh
  yarn关闭:  stop-yarn.sh
  //等同于:stop-all.sh
(4) 查看集群

(1)hdfs集群web-ui页面(文件系统:集群状态和文件存储):
http://192.168.2.110:50070/
(2)yarn集群web-ui页面(资源调度平台:管理计算资源):
http://192.168.2.110:8088/

可以在各个节点服务器上,使用jps命令查看启动的东西
如果感觉有帮助,请“点赞”、“关注”、“收藏”哈!

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值