Zookeeper学习笔记(1)—— 基础知识

Zookeeper概述

Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目

工作机制

Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注 册,一旦这些数据的状态发生变化,Zookeeper就 将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应

Zookeeper=文件系统+通知机制

其主要功能为:数据存储+通知更新


以服务器上下线为例:


1.服务端启动,到zookeeper集群中注册信息

2.客户端从zookeeper集群中获取到当前服务器的列表并注册监听

3.服务器节点下线

4.zookeeper集群将服务器节点下线事件通知到客户端

5.客户端重新获取服务器列表,并注册监听

特点

1)Zookeeper是一个领导者(Leader),多个跟随者(Follower)组成的集群

2)集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。所 以Zookeeper适合安装奇数台服务器

偶数台服务器并不能提升zookeeper的性能

3)全局数据一致:每个Server保存一份相同的数据副本,Client无论连接到哪个Server,数据都是一致的

4)更新请求顺序执行,来自同一个Client的更新请求按其发送顺序依次执行

5)数据更新原子性,一次数据更新要么成功,要么失败

6)实时性,在一定时间范围内,Client能读到最新数据

数据结构

ZooKeeper 数据模型的结构与 Unix 文件系统很类似,整体上可以看作是一棵树,每个节点称做一个 ZNode。每一个 ZNode 默认能够存储 1MB 的数据,每个 ZNode 都可以通过其路径唯一标识

ZNode结构决定了ZooKeeper只适合存储一些简单的配置文件,不适合存储海量数据

应用场景

Zookeeper提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡

统一命名服务

统一配置管理

分布式环境下经常有各个节点配置信息一致的要求,因此对配置文件修改后,希望能快速同步到各个节点上;


zookeeper进行统一配置管理的简单流程:

(1)可将配置信息写入ZooKeeper上的一个Znode

(2)各个客户端服务器监听这个Znode

(3)一旦Znode中的数据被修改,ZooKeeper将通知各个客户端服务器

统一集群管理

将节点信息写入zookeeper的ZNode中,然后监听该ZNode即可获取集群节点的实时状态变化;

服务器动态上下线

客户端能实时洞察到服务器上下线的变化:

1.服务端启动,到zookeeper集群中注册信息

2.客户端从zookeeper集群中获取到当前服务器的列表并注册监听

3.服务器节点下线

4.zookeeper集群将服务器节点下线事件通知到客户端

5.客户端重新获取服务器列表,并注册监听

软负载均衡

在Zookeeper中记录每台服务器的访问数,让访问数最少的服务器去处理最新的客户端请求

Zookeeper集群搭建

安装包下载

官网地址:Apache ZooKeeper

进入下载界面:

选择tar包:

安装流程

集群一共使用在三台服务器上部署zookeeper,服务器名称分别为hadoop102-hadoop104

1.上传安装包到服务器上,使用tar -zxvf进行解压到/opt/module/路径下(自定义的路径)

2.将解压后的apache-zookeeper-3.5.7-bin重命名为zookeeper-3.5.7

3.配置服务器编号:

/opt/module/zookeeper-3.5.7/这个目录下创建 zkData

然后在该目录下创建一个名为myid的文件

文件名称是固定的,因为源码中读取的文件名称就是myid

然后在文件中添加与server 对应的编号(三台服务器的编号分别为2、3、4)

4.配置zoo.cfg文件:
重命名/opt/module/zookeeper-3.5.7/conf 这个目录下的 zoo_sample.cfg 为 zoo.cfg

然后打开 zoo.cfg:

①修改数据存储路径dataDir:dataDir=/opt/module/zookeeper-3.5.7/zkData

②增加集群配置:

server.2=hadoop102:2888:3888
server.3=hadoop103:2888:3888
server.4=hadoop104:2888:3888

配置参数格式:server.A=B:C:D

A 是一个数字,表示这个是第几号服务器;集群模式下配置一个文件 myid,这个文件在 dataDir 目录下,这个文件里面有一个数据就是 A 的值,Zookeeper 启动时读取此文件,拿到里面的数据与 zoo.cfg 里面的配置信息比较从而判断到底是哪个 server

B 是这个服务器的地址;

C 是这个服务器 Follower 与集群中的 Leader 服务器交换信息的端口(2888)

D 是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口(3888)

5.将myid及zoo.cfg的配置分发到所有服务器上(注意服务器编号要修改)

集群启动

进入zookeeper路径下:

启动:bin/zkServer.sh start

停止:bin/zkServer.sh stop

查看状态:bin/zkServer.sh status

(附)zoo.cfg配置参数解读

1.tickTime = 2000:通信心跳时间,Zookeeper服务器与客户端通信心跳时间,单位为毫秒

2.initLimit = 10:LF初始通信时限(Leader和Follower初始连接时能容忍的最多心跳数(tickTime的数量)

当前配置下,tickTime = 2000,initLimit = 10,则如果Leader和Follower20s内未建立连接,就认为通信失败

3.syncLimit = 5:LF同步通信时限

Leader和Follower之间通信时间如果超过syncLimit * tickTime(也就是10s),Leader认为Follwer挂掉,从服务器列表中删除Follwer

4.dataDir:Zookeeper中数据存储的路径

不建议使用默认的tmp目录,可能会被linux定期删除

5.clientPort = 2181:客户端连接端口,通常不做修改

 

(附)集群启停脚本

/home/username/bin(如/home/why/bin)路径下新建zk.sh文件:

#!/bin/bash
case $1 in
"start"){
for i in hadoop102 hadoop103 hadoop104
doecho ---------- zookeeper $i 启动 ------------
ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
done
};;"stop"){
for i in hadoop102 hadoop103 hadoop104
doecho ---------- zookeeper $i 停止 ------------ 
ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
done
};;"status"){
for i in hadoop102 hadoop103 hadoop104
doecho ---------- zookeeper $i 状态 ------------ 
ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
done
};;esac

即将bin/zkServer.sh startbin/zkServer.sh stopbin/zkServer.sh status等指令封装起来

添加权限:chmod u+x zk.sh

这样就可以通过zk.sh startzk.sh stop进行集群的启停了

Zookeeper选举机制

第一次启动

假设集群中一共有5台服务器:

(1)服务器1启动,发起一次选举。服务器1投自己一票。此时服务器1票数一票,不够半数以上(3票),选举无法完成,服务器1状态保持为LOOKING

(2)服务器2启动,再发起一次选举。服务器1和2分别投自己一票并交换选票信息:此时服务器1发现服务器2的myid比自己目前投票推举的(服务器1)大,更改选票为推举服务器2。此时服务器1票数0票,服务器2票数2票,没有半数以上结果,选举无法完成,服务器1,2状态保持LOOKING

根据myid进行投票选择

(3)服务器3启动,发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果:服务器1为0票,服务器2为0票,服务器3为3票。此时服务器3的票数已经超过半数,服务器3当选Leader。服务器1,2更改状态为FOLLOWING,服务器3更改状态为LEADING

(4)服务器4启动,发起一次选举。此时服务器1,2,3已经不是LOOKING状态,不会更改选票信息。交换选票信息结果:服务器3为3票,服务器4为1票。此时服务器4服从多数,更改选票信息为服务器3,并更改状态为FOLLOWING

(5)服务器5启动,与服务器4相同

集群中产生leader之后不再继续选举

非第一次启动

当ZooKeeper集群中的一台服务器出现以下两种情况之一时,就会开始进入Leader选举:

  • 服务器初始化启动
  • 服务器运行期间无法和Leader保持连接

而当一台机器进入Leader选举流程时,当前集群也可能会处于以下两种状态:

  • 集群中本来就已经存在一个Leader。

对于第一种已经存在Leader的情况,机器试图去选举Leader时,会被告知当前服务器的Leader信息,对于该机器来说,仅仅需要和Leader机器建立连接,并进行状态同步即可

  • 集群中确实不存在Leader

此时的选举规则如下:

假设ZooKeeper由5台服务器组成,SID分别为1、2、3、4、5,ZXID分别为8、8、8、7、7,并且此时SID为3的服务器是Leader。某一时刻,3和5服务器出现故障,因此开始进行Leader选举

SID为1、2、4的机器投票情况:(EPOCH,ZXID,SID )

(1,8,1) (1,8,2) (1,7,4)

选举Leader规则:

①EPOCH大的直接胜出

②EPOCH相同,事务id大的胜出

③事务id相同,服务器id大的胜出

参数说明:

● SID:服务器ID。用来唯一标识一台ZooKeeper集群中的机器,每台机器不能重复,和myid一致。

● ZXID:事务ID。ZXID是一个事务ID,用来标识一次服务器状态的变更。在某一时刻,集群中的每台机器的ZXID值不一定完全一致,这和ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。

● Epoch:每个Leader任期的代号。没有Leader时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加

Zookeeper 命令行操作

命令行语法

命令基本语法

功能描述

help

显示所有操作命令

ls path

使用 ls 命令来查看当前 znode 的子节点 [可监听]

-w 监听子节点变化

-s 附加次级信息

create

普通创建znode节点

-s 含有序列

-e 临时(重启或者超时消失)

get path

获得节点的值 [可监听]

-w 监听节点内容变化

-s 附加次级信息

set

设置节点的具体值

stat

查看节点状态

delete

删除节点

deleteall

递归删除节点

命令行实操

首先启动zookeeper集群

然后进入zookeeper安装路径下,启动客户端:

bin/zkCli.sh -server hadoop102:2181

help

使用help查看帮助:

节点数据信息(ls)

ls /:查看zookeeper中所有的znode节点

ls -s /:查看更多节点信息

(1)czxid:创建节点的事务 zxid

每次修改 ZooKeeper 状态都会产生一个 ZooKeeper 事务 ID。事务 ID 是 ZooKeeper 中所有修改总的次序。每次修改都有唯一的 zxid,如果 zxid1 小于 zxid2,那么 zxid1 在 zxid2 之前发生

(2)ctime:znode 被创建的毫秒数(从 1970 年开始)

(3)mzxid:znode 最后更新的事务 zxid

(4)mtime:znode 最后修改的毫秒数(从 1970 年开始)

(5)pZxid:znode 最后更新的子节点 zxid

(6)cversion:znode 子节点变化号,znode 子节点修改次数

(7)dataversion:znode 数据变化号

(8)aclVersion:znode 访问控制列表的变化号

(9)ephemeralOwner:如果是临时节点,这个是 znode 拥有者的 session id。如果不是临时节点则是0

(10)dataLength:znode 的数据长度

(11)numChildren:znode 子节点数量

注意,使用ls -s /查看的是整个znode树的根节点

即是该根节点下面所有的子节点,要想查看子节点的具体信息,使用具体路径即可;

例如:ls -s /why

节点类型(create/get/set) 

节点类型主要分为以下四种:
(1)持久化目录节点:客户端与Zookeeper断开连接后,该节点依旧存在

(2)持久化顺序编号目录节点:客户端与Zookeeper断开连接后,该节点依旧存在,只是Zookeeper给该节点名称进行顺序编号

(3)临时目录节点:客户端与Zookeeper断开连接后,该节点被删除

(4)临时顺序编号目录节点:客户端与 Zookeeper 断开连接后 , 该节点被删除 , 只 是Zookeeper给该节点名称进行顺序编号。

顺序编号的含义:
创建znode时设置顺序标识,znode名称后会附加一个值,顺序号是一个单调递增的计数器由父节点维护

在分布式系统中,顺序号可以被用于为所有的事件进行全局排序,这样客户端可以通过顺序号推断事件的顺序

创建普通节点(永久节点 + 不带序号)

1.create /bigdata "bigdata":create普通节点,/bigdata是路径,"bigdata"是节点值

zookeeper创建节点时需要赋值

2.create /bigdata/test1 "test1"


查看节点的值:

get -s /bigdata

get -s /bigdata/test1

创建带序号的节点(永久节点 + 带序号)

首先创建一个节点:create /bigdata/test2 "test2"

然后在该节点下创建带序号的永久节点(通过 -s 创建)

如果原来没有序号节点,序号从 0 开始依次递增。如果原节点下已有 2 个节点,则再排序时从 2 开始,以此类推

创建短暂节点

首先创建一个节点:create /bigdata/test3 "test3"

然后在该节点下创建短暂节点(通过 -e 创建):create -e /bigdata/test3/e1 "e1"

可以查看该节点:

接下来退出客户端,重启zookeeper集群,之后重新进入客户端去查看该节点:

可以看到该短暂节点已经不存在了;

修改节点的值

使用set指令:

set /bigdata "bigdata_why"

监听器原理

客户端注册监听它关心的目录节点,当目录节点发生变化(数据改变、节点删除、子目录节点增加删除)时,ZooKeeper 会通知客户端。监听机制保证 ZooKeeper 保存的任何的数据的任何改变都能快速的响应到监听了该节点的应用程序

工作流程

1)首先要有一个main()线程

2)在main线程中创建Zookeeper客户端,这时就会创建两个线程,一个负责网络连接通信(connet),一个负责监听(listener)

3)通过connect线程将注册的监听事件发送给Zookeeper

4)在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中

5)Zookeeper监听到有数据或路径变化,就会将这个消息发送给listener线程

6)listener线程内部调用了process()方法,将变化通知到客户端

常见的监听

1)监听节点数据的变化:get path [watch]

2)监听子节点增减的变化:ls path [watch]

节点的值变化

监听bigdata节点的变化:get -w /bigdata

可以看到节点当前的值:

在hadoop103上修改节点的值:

在hadoop102中即可监听到节点数据的变化:

节点的子节点变化监听

在hadoop102中:

ls -w /bigdata:监听bigdata节点

在hadoop103中新建子节点:

在hadoop102中即可监听到子节点的变化

节点删除与状态查看

删除节点:delete /bigdata/test4

递归删除:deleteall /bigdata/test2

可以看到删除成功

查看节点状态:stat /bigdata

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/180124.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode【560】和为k的子数组

题目: 思路: 转化为前缀和问题,和为k,即为:前缀和差值为k的情况统计; 为什么要转化为前缀和呢?因为和为k的子数组可能有n个元素,但是前缀和差值为k,只有两个元素&#…

蒙HarmonyOS从零实现类微信app效果第二篇,我的+发现页面实现

本着不拖更的原则,今天上新了,今天实现了类微信app的发现页和我的页面。先看效果。 效果是不是看着还不错。其实这两个页面功能实现还是比较简单的,接下来还是老规矩,先进行页面的拆分和代码实现,然后进行相关我认为比…

java初探之代理模式

代理模式 代理模式一般有三种角色: 没有使用代理模式的话可能就会直接去操作真实的对象 加入代理模式就是加入了 隔离 把我们的真实对象与调用者隔离了一下(代理对象) 代理对象的好处? 使用者(client)跟真实的对象是没有直接的交集的。不会直接操作到…

基于平衡优化器算法优化概率神经网络PNN的分类预测 - 附代码

基于平衡优化器算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于平衡优化器算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于平衡优化器优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针…

构造函数和初始化列表的关系和区别【详解】

构造函数和初始化列表关系和区别,以及为什么有初始化列表,和它的好处 一、构造函数和初始化列表的关系和区别二、为什么有初始化列表三、使用初始化列表的好处 一、构造函数和初始化列表的关系和区别 百度百科这样定义初始化列表:与其他函数…

CocosCreator3.8神秘面纱 CocosCreator 项目结构说明及编辑器的简单使用

我们通过Dashboard 创建一个2d项目,来演示CocosCreator 的项目结构。 等待创建完成后,会得到以下项目工程: 一、assets文件夹 assets文件夹:为资源目录,用来存储所有的本地资源,如各种图片,脚本…

nodejs+vue黄河风景线旅游网站的设计与实现-微信小程序-安卓-python-PHP-计算机毕业设计

本文首先对该系统进行了详细地描述,然后对该系统进行了详细的描述。管理人员增加了系统首页、个人中心、用户管理、景点分类管理、景点简介管理、旅游路线管理、文章分类管理、公告文章管理、系统管理理等功能。这套黄河风景线旅游网站是根据当前的现实需要&#xf…

Nginx配置开启HTTPS

获取证书文件 Nginx 开启SSL server {listen 443 default ssl;server_name localhost;#charset koi8-r;#access_log logs/host.access.log main;proxy_set_header Host $host;ssl_certificate /usr/local/nginx/cert/server.pem;ssl_certificate_key /usr/local/ngin…

大数据爬虫分析基于Python+Django旅游大数据分析系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 基于Python和Django的旅游大数据分析系统是一种使用Python编程语言和Django框架开发的系统,用于处理和分…

OpenAI与微软合作,构建 ChatGPT 5 模型;10天准确天气预报

🦉 AI新闻 🚀 OpenAI与微软合作,构建 ChatGPT 5 模型,下一代人工智能或拥有超级智能 摘要:OpenAI首席执行官 Sam Altman 在接受采访时表示,OpenAI正在与微软合作构建下一代人工智能模型 ChatGPT 5&#x…

人工智能基础_机器学习037_多项式回归升维实战4_使用随机梯度下降模型_对天猫双十一销量数据进行预测_拟合---人工智能工作笔记0077

上一节我们使用线性回归模型最终拟合了双十一天猫销量数据,升维后的数据. 我们使用SGDRegressor的时候,随机梯度下降的时候,发现有问题, 对吧,怎么都不能拟合我们看看怎么回事现在 可以看到上面是之前的代码 上面是对数据的准备 这里我们还是修改,使用 poly=PolynomialFeatur…

第14届蓝桥杯青少组python试题解析:22年10月选拔赛

选择题 T1. 执行print (5%3) 语句后,输出的结果是 ( ) 0 1 2 3 T2. 以下选项中,哪一个是乘法运算符?() % // * ** T3. 已知x3,求x//2x**2的运算结果? 7.5 10 8 10.5 T4. 以下选项中,对下面程序的打印…