Zookeeper

最新推荐文章于 2024-08-13 17:40:41 发布

MautheDoog

最新推荐文章于 2024-08-13 17:40:41 发布

阅读量430

点赞数

分类专栏： hadoop 文章标签： zookeeper 安装 hadoop 配置

hadoop 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

» Zookeeper 是 Google 的 Chubb y一个开源的实现，是 Hadoop 的分布式协调服务

» 它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等

为什么使用Zookeeper？

» 大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程（如资源、任务分配等）

» 目前，大部分应用需要开发私有的协调程序，缺乏一个通用的机制

» 协调程序的反复编写浪费，且难以形成通用、伸缩性好的协调器

» ZooKeeper ：提供通用的分布式锁服务，用以协调分布式应用

Zookeeper的特性

» Zookeeper 是简单的

» Zookeeper 是富有表现力的

» Zookeeper 具有高可用性

» Zookeeper 采用松耦合交互方式

» Zookeeper 是一个资源库

Zookeeper 的安装和配置（单机模式）

» 解压： tar xzf zookeeper-3.4. 5 . tar.gz

» 在 conf 目录下创建一个配置文件 zoo.cfg ，
dataDir =/ usr/local / zk /data

» 启动 ZooKeeper 的 Server ： shbin/zkServer.sh start, 如果想要关闭，输入： zkServer.shstop

只运行在一台服务器上，适合测试环境；Zookeeper 的启动脚本在bin 目录下；在启动脚本之前，还有几个基本的配置项需要配置一下，tickTime：这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳；dataDir：顾名思义就是 Zookeeper保存数据的目录，默认情况下，Zookeeper 将写数据的日志文件也保存在这个目录里；clientPort：这个端口就是客户端连接 Zookeeper 服务器的端口，Zookeeper会监听这个端口，接受客户端的访问请求。当这些配置项配置好后，就可以启动 Zookeeper 了，启动后使用命令echo ruok | nclocalhost 2181检查 Zookeeper是否已经在服务

1.ZooKeeper
   1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。
2.如何搭建ZooKeeper服务器集群
   2.1 zk服务器集群规模不小于3个节点，要求各服务器之间系统时间要保持一致。
   2.2 在hadoop0的/usr/local目录下，解压缩zk....tar.gz，设置环境变量
   2.3 在conf目录下，修改文件 vi zoo_sample.cfg zoo.cfg
   2.4 编辑该文件，执行vi zoo.cfg
       修改dataDir=/usr/local/zk/data
       新增server.0=hadoop0:2888:3888
            server.1=hadoop1:2888:3888
           server.2=hadoop2:2888:3888
   2.5 创建文件夹mkdir /usr/local/zk/data
   2.6 在data目录下，创建文件myid，值为0
   2.7 把zk目录复制到hadoop1和hadoop2中
   2.8 把hadoop1中相应的myid的值改为1
        把hadoop2中相应的myid的值改为2
   2.9 启动，在三个节点上分别执行命令zkServer.sh start
   2.10 检验，在三个节点上分别执行命令zkServer.sh status

Zookeeper 不仅可以单机提供服务，同时也支持多机组成集群来提供服务 , 实际上 Zookeeper还支持另外一种伪集群的方式，也就是可以在一台物理机上运行多个 Zookeeper 实例；nitLimit：这个配置项是用来配置 Zookeeper 接受客户端（这里所说的客户端不是用户连接 Zookeeper 服务器的客户端，而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器）初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 10 个心跳的时间（也就是 tickTime）长度后Zookeeper 服务器还没有收到客户端的返回信息，那么表明这个客户端连接失败。总的时间长度就是 5*2000=10 秒；syncLimit：这个配置项标识 Leader 与 Follower 之间发送消息，请求和应答时间长度，最长不能超过多少个 tickTime的时间长度，总的时间长度就是 2*2000=4 秒；server.A=B：C：D：其中 A 是一个数字，表示这个是第几号服务器；B 是这个服务器的ip地址；C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口；D 表示的是万一集群中的 Leader 服务器挂了，需要一个端口来重新进行选举，选出一个新的Leader，而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式，由于 B 都是一样，所以不同的 Zookeeper 实例通信端口号不能一样，所以要给它们分配不同的端口号。除了修改 zoo.cfg 配置文件，集群模式下还要配置一个文件 myid，这个文件在dataDir目录下，这个文件里面就有一个数据就是 A 的值，Zookeeper 启动时会读取这个文件，拿到里面的数据与 zoo.cfg 里面的配置信息比较从而判断到底是那个server。分别在3台机器上启动ZooKeeper的Server：shbin/zkServer.sh start；运行于一个集群上，适合生产环境，这个计算机集群被称为一个“集合体”（ensemble）。Zookeeper通过复制来实现高可用性，只要集合体中半数以上的机器处于可用状态，它就能够保证服务继续。为什么一定要超过半数呢？这跟Zookeeper的复制策略有关：zookeeper确保对znode树的每一个修改都会被复制到集合体中超过半数的机器上。

Zookeeper 的数据模型

» 层次化的目录结构，命名符合常规文件系统规范

» 每个节点在 zookeeper 中叫做 znode , 并且其有一个唯一的路径标识

» 节点 Znode 可以包含数据和子节点，但是 EPHEMERAL 类型的节点不能有子节点

» Znode 中的数据可以有多个版本，比如某一个路径下存有多个数据版本，那么查询这个路径下的数据就需要带上版本

» 客户端应用可以在节点上设置监视器

» 节点不支持部分读写，而是一次性完整读写

- znode 可以被监控，包括这个目录节点中存储的数据的修改，子节点目录的变化等，一旦变化可以通知设置监控的客户端，这个功能是 zookeeper 对于应用最重要的特性，通过这个特性可以实现的功能包括配置的集中管理，集群管理，分布式锁等等。

Zookeeper 的节点

» Znode 有两种类型，短暂的（ ephemeral ）和持久的（ persistent ）

» Znode 的类型在创建时确定并且之后不能再修改

» 短暂 znode 的客户端会话结束时， zookeeper 会将该短暂 znode 删除，短暂 znode 不可以有子节点

» 持久 znode 不依赖于客户端会话，只有当客户端明确要删除该持久 znode 时才会被删除

» Znode 有四种形式的目录节点， PERSISTENT 、 PERSISTENT_SEQUENTIAL 、 EPHEMERAL 、 EPHEMERAL_SEQUENTIAL

- znode 可以是临时节点，一旦创建这个 znode 的客户端与服务器失去联系，这个 znode 也将自动删除， Zookeeper 的客户端和服务器通信采用长连接方式，每个客户端和服务器通过心跳来保持连接，这个连接状态称为 session ，如果 znode 是临时节点，这个 session 失效， znode 也就删除了；持久化目录节点，这个目录节点存储的数据不会丢失；顺序自动编号的目录节点，这种目录节点会根据当前已近存在的节点数自动加 1 ，然后返回给客户端已经成功创建的目录节点名；临时目录节点，一旦创建这个节点的客户端与服务器端口也就是 session 超时，这种节点会被自动删除；临时自动编号节点

Zookeeper的角色

» 领导者（ leader ），负责进行投票的发起和决议，更新系统状态

» 学习者（ learner ），包括跟随者（ follower ）和观察者（ observer ）， follower 用于接受客户端请求并想客户端返回结果，在选主过程中参与投票

» Observer 可以接受客户端连接，将写请求转发给 leader ，但 observer 不参加投票过程，只同步 leader 的状态， observer 的目的是为了扩展系统，提高读取速度

» 客户端（ client ），请求发起方