三台Hadoop、zookeeper环境上搭建Hbase

最新推荐文章于 2023-07-11 17:58:16 发布

zkhong07

最新推荐文章于 2023-07-11 17:58:16 发布

阅读量654

点赞数

文章标签： hadoop zookeeper hbase HA集群搭建

本文链接：https://blog.csdn.net/zkhong07/article/details/91047000

版权

@三台Hadoop、zookeeper环境上搭建Hbase

三台HA集群环境搭建（hadoop zookeeper hbase）

学习hadoop有一段时间了，每次在搭建环境总是碰到各种问题，这一次在搭建三台环境中又一次碰到各种版本不匹配问题，搞了1天半终于搞定了。作为小白菜党着实难受！！在这把我的环境配置发出来，仅供参考下。

前提

已经把IP 主机名修改完毕（楼主着实菜，各种修改IP映射主机，最后在配置hadoop时候还是用不了主机名，所以配置时候都是写的IP地址）
JDK安装完毕
ssh密钥相关配置已成功，三台可以互相访问。

三个版本：

hadoop2.4.1 ，之前看视屏学习hadoop，视频版本很早，用的hadoop版本所以也就比较早。实在不想麻烦再换版本了。
zookeeper-3.4.5
Hbase1.3.3
jdk1.7.0_65

HA集群节点分布

两个namenode节点、ResourceManager在第二个节点上。

192.196.146.100： DataNode QuorumPeerMain NameNode JournalNode NodeManager HMaster DFSZKFailoverController HRegionServer
192.196.146.101： DataNode NodeManager NameNode JournalNode ResourceManager QuorumPeerMain HRegionServer
192.196.146.102： DataNode QuorumPeerMain HRegionServer NodeManager JournalNode

（一）zookeeper环境配置

安装步骤：
1.安装配置zooekeeper集群（在192.168.146.100上）
1.1解压
tar -zxvf zookeeper-3.4.5.tar.gz /home/hadoop/app (自己机器上面的路径)
1.2修改配置
cd /home/hadoop/app/zookeeper-3.4.5/conf/
cp zoo_sample.cfg zoo.cfg (更改配置文件名)
vim zoo.cfg （配置zoo.cfg）
修改：dataDir=/home/hadoop/app/zookeeper-3.4.5/tmp
在最后添加：
server.1=192.168.146.100:2888:3888
server.2=192.168.146.101:2888:3888
server.3=192.168.146.102:2888:3888
保存退出（:wq! 命令）
然后创建一个tmp文件夹
mkdir /home/hadoop/app/zookeeper-3.4.5/tmp
再创建一个空文件
touch/home/hadoop/app/zookeeper-3.4.5/tmp/myid （不使用linux命令，可以直接在linux界面创建文件tmp后创建文件myid 在里面输入对应的机器序号。192.168.146.100对应1）
最后向该文件写入ID
echo 1 > /weekend/zookeeper-3.4.5/tmp/myid
1.3将配置好的zookeeper拷贝到其他节点(首先分别在192.168.146.101、192.168.146.102目录下。保证放在了/home/hadoop/app)
scp -r /weekend/zookeeper-3.4.5/ 192.168.146.101:/home/hadoop/app
scp -r /weekend/zookeeper-3.4.5/ 192.168.146.102:/home/hadoop/app
注意：修改192.168.146.101、192.168.146.102对应/home/hadoop/app/zookeeper-3.4.5/tmp/myid内容
192.168.146.101：
echo 2 > /weekend/zookeeper-3.4.5/tmp/myid
192.168.146.102：
echo 3 > /weekend/zookeeper-3.4.5/tmp/myid

修改每文件权限

sudo chown hadoop:hadoop /home/hadoop/app/zookeeper -R

（二）hadoop环境配置(在192.168.146.100上面操作)

将hadoop添加到环境变量中

		vim /etc/profile

		export JAVA_HOME=//home/hadoop/app/java/jdk1.7.0_55
		export HADOOP_HOME=//home/hadoop/app/hadoop-2.4.1
		export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

修改 hadoop-env.sh文件（配置文件全部在$HADOOP_HOME/etc/hadoop下)

export JAVA_HOME=/home/hadoop/app/jdk1.7.0_55

修改core-site.xml

 <configuration>
<property>
<!-- 指定hdfs的nameservice为ns1 -->
<name>fs.defaultFS</name>
<value>hdfs://ns1/</value>
</property>
<property>
<!-- 指定hadoop临时目录 -->
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/hadoop-2.4.1/tmp</value>
</property>
<property>
<!-- 指定zookeeper地址 -->
<name>ha.zookeeper.quorum</name>
<value>192.168.146.100:2181,192.168.146.101:2181,192.168.146.102:2181</value>
</property>
<property>
<name>ipc.client.connect.max.retries</name>
<value>100</value>
</property>
<property>
<name>ipc.client.connect.retry.interval</name>
<value>10000</value>
</property>
</configuration>

修改hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<!--指定hdfs的nameservice为ns1，需要和core-site.xml中的保持一致 -->
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<property>
<!-- ns1下面有两个NameNode，分别是nn1，nn2 -->
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<property>
<!-- nn1的RPC通信地址 -->
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>192.168.146.100:9000</value>
</property>
<property>
<!-- nn1的http通信地址 -->
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>192.168.146.100:50070</value>
</property>
<property>
<!-- nn2的RPC通信地址 -->
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>192.168.146.101:9000</value>
</property>
<property>
<!-- nn2的http通信地址 -->
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>192.168.146.101:50070</value>
</property>
<property>
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://192.168.146.100:8485;192.168.146.101:8485;192.168.146.102:8485/ns1</value>
</property>
<property>
<!-- 开启NameNode失败自动切换 -->
<name>dfs.ha.automatic-failover.enabled.ns1</name>
<value>true</value>
</property>
<property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<name>dfs.journalnode.edits.dir</name>
<value>/home/hadoop/app/hadoop-2.4.1/journaldata</value>
</property>
<property>
<!-- 配置失败自动切换实现方式 -->
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行-->
<name>dfs.ha.fencing.methods</name>
<value>
        sshfence
        shell(/bin/true)
</value>
</property>
<property>
<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<!-- 配置sshfence隔离机制超时时间 -->
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

修改mapred-site.xml

<configuration>
<!-- 指定mr框架为yarn方式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

修改 yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
<!-- 开启RM高可用 -->
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<!-- 指定RM的cluster id -->
<name>yarn.resourcemanager.cluster-id</name>
<value>highgo</value>
</property>
<property>
 <!-- 指定RM的名字 -->
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<!-- 分别指定RM的地址 -->
<name>yarn.resourcemanager.hostname.rm1</name>
<value>192.168.146.100</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>192.168.146.101</value>
</property> 
<property>
<!-- 指定zk集群地址 -->
<name>yarn.resourcemanager.zk-address</name>
<value>192.168.146.100:2181,192.168.146.101:2181,192.168.146.102:2181</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

修改slaves（datanode需要分布的节点）

vi slaves

192.168.146.100
192.168.146.101
192.168.146.102

将配置好的192.168.146.100上面的hadoop拷贝到其他节点

		scp -r /home/hadoop/app/hadoop-2.4.1/ 192.168.146.101:/home/hadoop/app
		scp -r /home/hadoop/app/hadoop-2.4.1/ 192.168.146.102:/home/hadoop/app

启动过程顺序（严格按照顺序）

1.启动zookeeper集群（分别再192.168.146.100、192.168.146.101、192.168.146.102上执行）

		 cd /home/hadoop/app/zookeeper-3.4.5/bin/
		./zkServer.sh start
		./zkServer.sh status （查看状态：一个leader，两个follower）

2. 启动journalnode（分别再192.168.146.100、192.168.146.101、192.168.146.102上执行）

启动journalNode最主要的作用的同步元数据

		cd /home/hadoop/app/hadoop-2.4.1/sbin
		hadoop-daemon.sh start journalnode
		#运行jps命令检验，192.168.146.100、192.168.146.101、192.168.146.102上多了JournalNode进程

3.格式化HDFS

在192.168.146.100上执行命令:

		hdfs namenode -format

格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，我配置的是/app/hadoop-2.4.1/tmp，然后将/app/hadoop-2.4.1/tmp拷贝到192.168.146.101的/app/hadoop-2.4.1/下

		scp -r tmp/ 192.168.146.101:/home/hadoop/app/hadoop-2.4.1/

4. 格式化ZKFC(在192.168.146.100上执行即可)

		hdfs zkfc -formatZK

5.启动 DFSZKFailoverController(在192.168.146.100上执行即可)

		hadoop-daemon.sh start zkfc

5.启动HDFS(在192.168.146.100上执行)

		sbin/start-dfs.sh

6.启动YARN(在192.168.146.101上执行)

把namenode和resourcemanager分开是因为性能问题，因为他们都要占用大量资源，所以把他们分开了，他们分开了就要分别在不同的机器上启动（这个原文是7个机器它把所有的namenode和resourcemanager分开了，在我第二台机器namenode和resourcemanager都有）

		bin/start-yarn.sh

hadoop-2.4.1配置完毕（成功后接着配置hbase，不然重复配置下吧）

可以统计浏览器访问:
http: //192. 168. 146.100:50070
NameNode ‘weekend01:9000’ (active)
http: //192. 168. 146. 101：50070
NameNode ‘weekend02:9000’ (standby)

修改每文件权限

sudo chown hadoop:hadoop /home/hadoop/app/hadoo-2.4.1 -R

（三）hbase环境配置(在192.168.146.100上面操作)

修改hbase-env,sh

		export JAVA_HOME=/usr/java/jdk1.7.0_55

告诉hbase使用外部的zk

		export HBASE_MANAGES_ZK=false

修改hbase-site.xml

<configuration>
	<property>
	<!-- 指定hbase在HDFS上存储的路径 -->
　　　　<name>hbase.rootdir</name>
　　　　<value>hdfs://192.168.146.100:9000/hbase</value>
　　    </property>
　　 <property>
　　 <!-- 指定hbase是分布式的 -->
　　　　<name>hbase.cluster.distributed</name>
　　　　<value>true</value>
　　 </property>

     <property>
            <name>hbase.zookeeper.property.clientPort</name>
            <value>2181</value>
     </property>
     <property>
     		<!-- 指定zk的地址，多个用“,”分割 -->
             <name>hbase.zookeeper.quorum</name>
             <value>192.168.146.100,192.168.146.101,192.168.146.102</value>
     </property>
     <property>
              <name>hbase.zookeeper.property.dataDir</name>
              <value>/home/hadoop/app/zookeeper-3.4.5</value>
     </property>
</configuration>

修改regionservers(这个是说明regionservers运行的节点)

	vi regionservers
	192.168.146.100
	192.168.146.101
	192.168.146.102

注意包的替换

需要用hadoop/share/hadoop 相关包去替换hbase/lib中hadoop.*相关包，不然在启动hbase时候会出现各种问题。（大概有13-14个包有一个包我没找到）

注意删除一个包下的类，不然后面报错一个类重复（可以不删，如果运行出错在删除）

hbase-1.3.3/lib/slf4j-log4j12-1.7.5.jar 里面的/org/slf4j/impl/StaticLoggerBinder.class（网上提示是删除包，我是把类删除了可以运行。（应该是整个包都重复了））

拷贝hbase到其他节点

	scp -r /home/hadoop/app/hbase-1.3.3  192.168.146.101:/home/hadoop/app
	scp -r /home/hadoop/app/hbase-1.3.3  192.168.146.102:/home/hadoop/app

注意启动hbase的时候需要三台linux时间相同，要不会出错

启动（在192.168.146.100节点上运行）

	start-hbase.sh

通过浏览器访问hbase管理页面查看正常启动。

192.168.146.100:16010

在视屏学习中提到

1.测试集群工作状态的一些指令：

bin/hdfs dfsadmin -report 查看hdfs的各节点状态信息

bin/hdfs haadmin -getServiceState nn1 获取一个namenode节点的HA状态

sbin/hadoop-daemon.sh start namenode 单独启动一个namenode进程

./hadoop-daemon.sh start zkfc 单独启动一个zkfc进程

2.Datanode突然不堪重负宕掉

只需重启坏掉的Datanode或者JobTracker。当集群中的某单个节点出现问题，不必重新重启整个系统，只需重启这个节点，然后会自动连接到整个集群里。

在坏死的节点上输入以下命令：

bin/Hadoop-daemon.sh start DataNode

bin/Hadoop-daemon.sh start jobtracker

以上方法也可以用于动态加入datanode，允许用户动态将某个节点加入集群中。

在hadoop集群中，HDFS分布式文件系统和mapreduce计算框架是可以独立部署安装的，在hadoop2中体现很明显，如果只需要使用部分节点进行计算,只需要单独启动resourcemanager和需要使用的结点上的nodemanager即可，查找命令可以参考/hadoop2/sbin/start-yarn.sh中是如何写的就可以找到答案了！在hadoop2/sbin/start-yarn.sh脚本中，写了启动resourcemanager和所有节点上的nodemanager，所以只需要参考该脚本文件，就能得到启动单个节点上的nodemanager的方法：

hadoop2/sbin/hadoop-daemon.sh startdatanode

hadoop2/sbin/yarn-daemon.sh nodemanager

然后执行下集群HDFS的负载均衡即可完成动态添加节点了！

在hadoop1中

bin/Hadoop-daemon.sh --config ./conf start DataNode

bin/Hadoop-daemon.sh --config ./conf start tasktracker

参考

zkhong07

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
三台Hadoop、zookeeper环境上搭建Hbase

@三台Hadoop、zookeeper环境上搭建Hbase三台HA集群环境搭建（hadoop zookeeper hbase）学习hadoop有一段时间了，每次在搭建环境总是碰到各种问题，这一次在搭建三台环境中又一次碰到各种版本不匹配问题，搞了1天半终于搞定了。作为小白菜党着实难受！！在这把我的环境配置发出来，仅供参考下。前提已经把IP 主机名修改完毕（楼主着实菜，各种修改IP映射主机...
复制链接

扫一扫