[kubernetes]控制平面ETCD

什么是ETCD

  • CoreOS基于Raft开发的分布式key-value存储,可用于服务发现、共享配置以及一致性保障(如数据库选主、分布式锁等)
  • etcd像是专门为集群环境的服务发现和注册而设计,它提供了数据TTL失效、数据改变监视、多值、目录监听、分布式锁原子操作等功能,可以方便的跟踪并管理集群节点的状态

特点:

  • 键值对存储:将数据存储在分层组织的目录中,如同在标准文件系统中
    监测变更:监测特定的键或目录以进行更改,并对值的更改做出反应
  • 简单: curl可访问的用户的API(HTTP+JSON)
  • 安全: 可选的SSL客户端证书认证
  • 快速: 单实例每秒1000次写操作,2000+次读操作
  • 可靠: 使用Raft算法保证一致性

主要功能

  • key-value存储
  • 监听机制
  • key的过期及续约机制,用于监控和服务发现
  • 基于监听机制的分布式异步系统

键值对存储

  • 采用kv型数据存储,一般情况下比关系型数据库快
  • 支持动态存储(内存)以及静态存储(磁盘)
  • 分布式存储,可集成为多节点集群
  • 存储方式,采用类似目录结构。(B+tree)
    • 只有叶子节点才能真正存储数据,相当于文件
    • 叶子节点的父节点一定是目录,目录不能存储数据

服务注册与发现

  • 强一致性、高可用的服务存储目录
    • 基于 Raft 算法的 etcd 天生就是这样一个强一致性、高可用的服务存储目录
  • 一种注册服务和服务健康状况的机制
    • 用户可以在 etcd 中注册服务,并且对注册的服务配置 key TTL,定时保持服务的心跳以达到监控健康状态的效果

消息发布与订阅

  • 在分布式系统中,最适用的一种组件间通信方式就是消息发布与订阅
  • 即构建一个配置共享中心,数据提供者在这个配置中心发布消息,而消息使用者则订阅他们
  • 关心的主题,一旦主题有消息发布,就会实时通知订阅者
  • 通过这种方式可以做到分布式系统配置的集中式管理与动态更新
  • 应用中用到的一些配置信息放到etcd上进行集中管理
  • 应用在启动的时候主动从etcd获取一次配置信息,同时,在etcd节点上注册一个Watcher并等待,以后每次配置有更新的时候,etcd都会实时通知订阅者,以此达到获取最新配置信息的目的

核心:TTL & CAS

  • TTL(time to live)指的是给一个key设置一个有效期,到期后这个key就会被自动删掉,这在
    很多分布式锁的实现上都会用到,可以保证锁的实时有效性
  • Atomic Compare-and-Swap(CAS)指的是在对key进行赋值的时候,客户端需要提供一些条
    件,当这些条件满足后,才能赋值成功。这些条件包括

• prevExist:key当前赋值前是否存在
• prevValue:key当前赋值前的值
• prevIndex:key当前赋值前的Index

  • key的设置是有前提的,需要知道这个key当前的具体情况才可以对其设置

Raft 协议

概览

  • Raft协议基于quorum机制,即大多数同意原则,任何的变更都需超过半数的成员确认
    在这里插入图片描述

learner

  • Raft 4.2.1引入的新角色
  • 当出现一个etcd集群需要增加节点时,新节点与Leader的数据差异较大,需要较多数据同步才能跟上leader的最新的数据
  • 此时Leader的网络带宽很可能被用尽,进而使得leader无法正常保持心跳
  • 进而导致follower重新发起投票
  • 进而可能引发etcd集群不可用
  • Learner角色只接收数据而不参与投票,因此增加learner节点时,集群的quorum不变

etcd基于Raft的一致性

  • 初始启动时,节点处于follower状态并被设定一个election timeout,如果在这一时间周期内没有收到
    来自 leader 的 heartbeat,节点将发起选举:将自己切换为 candidate 之后,向集群中其它 follower
    节点发送请求,询问其是否选举自己成为 leader
  • 当收到来自集群中过半数节点的接受投票后,节点即成为 leader,开始接收保存 client 的数据并向其它
    的 follower 节点同步日志。如果没有达成一致,则candidate随机选择一个等待间隔(150ms ~
    300ms)再次发起投票,得到集群中半数以上follower接受的candidate将成为leader
  • leader节点依靠定时向 follower 发送heartbeat来保持其地位
  • 任何时候如果其它 follower 在 election timeout 期间都没有收到来自 leader 的 heartbeat,同样会将
    自己的状态切换为 candidate 并发起选举。每成功选举一次,新 leader 的任期(Term)都会比之前
    leader 的任期大1。

日志复制

  • 当接Leader收到客户端的日志(事务请求)后先把该日志追加到本地的Log中,然后通过
    heartbeat把该Entry同步给其他Follower,Follower接收到日志后记录日志然后向Leader发送
    ACK,当Leader收到大多数(n/2+1)Follower的ACK信息后将该日志设置为已提交并追加到
    本地磁盘中,通知客户端并在下个heartbeat中Leader将通知所有的Follower将该日志存储在自
    己的本地磁盘中。

安全性

  • 用于保证每个节点都执行相同序列的安全机制
  • Safety就是用于保证选举出来的Leader一定包含先前 committed Log的机制
  • 选举安全性(Election Safety):每个任期(Term)只能选举出一个Leade
  • Leader完整性(Leader Completeness):指Leader日志的完整性,当Log在任期Term1被
    Commit后,那么以后任期Term2、Term3…等的Leader必须包含该Log;Raft在选举阶段就使
    用Term的判断用于保证完整性:当请求投票的该Candidate的Term较大或Term相同Index更大
    则投票,否则拒绝该请求

失效处理

  • 1 Leader失效:其他没有收到heartbeat的节点会发起新的选举,而当Leader恢复后由于步进
    数小会自动成为follower(日志也会被新leader的日志覆盖)
  • 2 follower节点不可用:follower 节点不可用的情况相对容易解决。因为集群中的日志内容始
    终是从 leader 节点同步的,只要这一节点再次加入集群时重新从 leader 节点处复制日志即可。
  • 3 多个candidate:冲突后candidate将随机选择一个等待间隔(150ms ~ 300ms)再次发起
    投票,得到集群中半数以上follower接受的candidate将成为leader

wal日志

  • 数据结构LogEntry
  • 字段type,只有两种,
    一种是0表示Normal,1表示ConfChange(ConfChange表示 Etcd 本身的配置变更同步,比如有新的节点加入等)
  • term,每个term代表一个主节点的任期,每次主节点变更term就会变化
  • index,这个序号是严格有序递增的,代表变更序号
  • data,将raft request对象的pb结构整个保存下
  • 一致性都通过同步wal日志来实现,每个节点将从主节点收到的data apply到本地的存储,Raft只关心日志的同步状态
  • 如果本地存储实现的有bug,比如没有正确的将data apply到本地,也可能会导致数据不一致。

etcd v3 存储,Watch以及过期机制

-在这里插入图片描述

存储机制

  • 一部分是内存中的索引,kvindex,是基于Google开源的一个Golang的btree实现的
  • 另外一部分是后端存储
    • backend可以对接多种存储,当前使用的boltdb
    • boltdb是一个单机的支持事务的kv存储,etcd 的事务是基于boltdb的事务实现的
    • etcd 在boltdb中存储的key是reversion,value是 etcd 自己的key-value组合,也就是说 etcd 会在boltdb中把每个版都保存下,从而实现了多版本机制
    • reversion主要由两部分组成,第一部分main rev,每次事务进行加一,第二部分sub rev,同一
      个事务中的每次操作加一
    • etcd 提供了命令和设置选项来控制compact,同时支持put操作的参数来精确控制某个key的历史版本数
    • 内存kvindex保存的就是key和reversion之前的映射关系,用来加速查询
      在这里插入图片描述

Watch机制

  • etcd v3 的watch机制支持watch某个固定的key,也支持watch一个范围

    • watchGroup 包含两种watcher,一种是 key watchers,数据结构是每
      个key对应一组watcher,另外一种是 range watchers, 数据结构是一个 IntervalTree,方便通
      过区间查找到对应的watcher
  • 每个 WatchableStore 包含两种 watcherGroup,一种是synced,一种是unsynced,
    前者表示该group的watcher数据都已经同步完毕,在等待新的变更,后者表示该group的
    watcher数据同步落后于当前最新变更,还在追赶

    • 当 etcd 收到客户端的watch请求,如果请求携带了revision参数,则比较请求的revision和
      store当前的revision,如果大于当前revision,则放入synced组中,否则放入unsynced组
    • etcd 会启动一个后台的goroutine持续同步unsynced的watcher,然后将其迁移到synced组
    • etcd v3 支持从任意版本开始watch,没有v2的1000条历史event表限制的问题(当然这是指没有compact的情况下)

etcd 成员重要参数

成员相关参数
–name ‘default’
Human-readable name for this member.
–data-dir ‘${name}.etcd’
Path to the data directory.
–listen-peer-urls ‘http://localhost:2380’
List of URLs to listen on for peer traffic.
–listen-client-urls ‘http://localhost:2379’
List of URLs to listen on for client tra

etcd集群重要参数

–initial-advertise-peer-urls ‘http://localhost:2380’
List of this member’s peer URLs to advertise to the rest of the cluster.
–initial-cluster ‘default=http://localhost:2380’
Initial cluster configuration for bootstrapping.
–initial-cluster-state ‘new’
Initial cluster state (‘new’ or ‘existing’).
–initial-cluster-token ‘etcd-cluster’
Initial cluster token for the etcd cluster during bootstrap.
–advertise-client-urls ‘http://localhost:2379’
List of this member’s client URLs to advertise to the public

etcd安全相关参数

–cert-file ‘’
Path to the client server TLS cert file.
–key-file ‘’
Path to the client server TLS key file.
–client-crl-file ‘’
Path to the client certificate revocation list file.
–trusted-ca-file ‘’
Path to the client server TLS trusted CA cert file.
–peer-cert-file ‘’
Path to the peer server TLS cert file.
–peer-key-file ‘’
Path to the peer server TLS key file.
–peer-trusted-ca-file ‘’
Path to the peer server TLS trusted CA file

灾备

• 创建Snapshot
etcdctl --endpoints https://127.0.0.1:3379 --cert /tmp/etcd-certs/certs/127.0.0.1.pem –
key /tmp/etcd-certs/certs/127.0.0.1-key.pem --cacert /tmp/etcd-certs/certs/ca.pem
snapshot save snapshot.db
• 恢复数据
etcdctl snapshot restore snapshot.db
–name infra2
–data-dir=/tmp/etcd/infra2
–initial-cluster
infra0=http://127.0.0.1:3380,infra1=http://127.0.0.1:4380,infra2=http://127.0.0.1:5380
–initial-cluster-token etcd-cluster-1
–initial-advertise-peer-urls http://127.0.0.1:538

容量管理

  • 单个对象不建议超过1.5M
  • 默认容量2G
  • 不建议超过8G

Alarm & Disarm Alarm

• 设置etcd存储大小
$ etcd --quota-backend-bytes=$((1610241024))
• 写爆磁盘
$ while [ 1 ]; do dd if=/dev/urandom bs=1024 count=1024 | ETCDCTL_API=3 etcdctl put key
|| break; done
• 查看endpoint状态
$ ETCDCTL_API=3 etcdctl --write-out=table endpoint status
• 查看alarm
$ ETCDCTL_API=3 etcdctl alarm list
• 清理碎片
$ ETCDCTL_API=3 etcdctl defrag
• 清理alarm
$ ETCDCTL_API=3 etcdctl alarm disarm

碎片整理

keep one hour of history

$ etcd --auto-compaction-retention=1

compact up to revision 3

$ etcdctl compact 3
$ etcdctl defrag
Finished defragmenting etcd member[127.0.0.1:2379]

高可用etcd解决方案

etcd-operator: coreos开源的,基于kubernetes CRD完成etcd集群配置。Archived
https://github.com/coreos/etcd-operator
Etcd statefulset Helm chart: Bitnami(powered by vmware)
https://bitnami.com/stack/etcd/helm
https://github.com/bitnami/charts/blob/master/bitnami

Etcd Operato

在这里插入图片描述

基于 Bitnami 安装etcd高可用集群

• 安装helm
https://github.com/helm/helm/releases
• 通过helm安装etcd
helm repo add bitnami https://charts.bitnami.com/bitnami
helm install my-release bitnami/etcd
• 通过客户端与serve交互
kubectl run my-release-etcd-client --restart=‘Never’ --image
docker.io/bitnami/etcd:3.5.0-debian-10-r94 --env ROOT_PASSWORD=$(kubectl get
secret --namespace default my-release-etcd -o jsonpath=“{.data.etcd-root-password}” |
base64 --decode) --env ETCDCTL_ENDPOINTS=“my-release-
etcd.default.svc.cluster.local:2379” --namespace default --command – sleep infinity

Kubernetes如何使用etcd

  • etcd是kubernetes的后端存储

  • 对于每一个kubernetes Object,都有对应的storage.go 负责对象的存储操作

    • pkg/registry/core/pod/storage/storage.go
  • API server 启动脚本中指定etcd servers集群

spec:
containers:
- command:
- kube-apiserver
- --advertise-address=192.168.34.2
- --enable-bootstrap-token-auth=true
- --etcd-cafile=/etc/kubernetes/pki/etcd/ca.crt
- --etcd-certfile=/etc/kubernetes/pki/apiserver-etcd-client.crt
- --etcd-keyfile=/etc/kubernetes/pki/apiserver-etcd-client.key
- --etcd-servers=https://127.0.0.1:237

Kubernets对象在etcd中的存储路径

etcd在集群中所处的位置

在这里插入图片描述

堆叠式etcd集群的高可用拓扑

  • 这种拓扑将相同节点上的控制平面和etcd成员耦合在一起。优点在于建立起来非常容易,并且对副本的管理也更容易
  • 堆叠式存在耦合失败的风险,如果一个节点发生故障,则etcd成员和控制平面实例都会丢失,并且集群冗余也会受到损害
  • 可以通过添加更多控制平面节点来减轻这种风险。因此为实现集群高可用应该至少运行三个堆叠的Master节点
    在这里插入图片描述

外部etcd集群的高可用拓扑

  • 该拓扑将控制平面和etcd成员解耦。如果丢失一个Master节点,对etcd成员的影响较小,并
    且不会像堆叠式拓扑那样对集群冗余产生太大影响。但是,此拓扑所需的主机数量是堆叠式拓
    扑的两倍。具有此拓扑的群集至少需要三个主机用于控制平面节点,三个主机用于etcd集群
    在这里插入图片描述

实践 - etcd集群高可用

  • 保证高可用是首要目标
  • 所有写操作都要经过leader
  • apiserver的配置只连本地的etcd peer
  • apiserver的配置指定所有etcd peers,但只有当前连接的etcd member异常,apiserver才会换目标

实践 - etcd集群高可用

• apiserver和etcd 部署在同一节点
• apiserver和etcd之间的通讯基于gRPC
➢ 针对每一个object,apiserver和etcd之间的Connection -> stream 共享
➢ http2的特性
➢ Stream quota
➢ 带来的问题?对于大规模集群,会造成链路阻塞
➢ 10000个pod,一次list操作需要返回的数据可能超过100M

实践 – etcd存储规划

本地 vs 远程

  • Remote Storage
    • 优势是假设永远可用
    • 劣势是IO效率
  • 最佳实践
    • Local SSD
    • 利用local volume分配空间

多少空间

  • 与集群规模相关

安全性

  • peer和peer之间的通讯加密

    • 是否有需求
    • TLS的额外开销
    • 运营复杂度增加
  • 数据加密

    • Kubernetes提供了针对secret的加密
  • 事件分离

    • 对于大规模集群,大量的事件会对etcd造成压力
    • API server 启动脚本中指定etcd servers集群

减少网络延迟

  • 数据中心内的RTT大概是数毫秒,国内的典型RTT约为50ms,两大洲之间的RTT可能慢至
    400ms。因此建议etcd集群尽量同地域部署
  • 当客户端到Leader的并发连接数量过多,可能会导致其他Follower节点发往Leader的请求因
    为网络拥塞而被延迟处理
    可以在节点上通过流量控制工具(Traffic Control)提高etcd成员之间发送数据的优先级来避免

减少磁盘I/O延迟

  • 强烈建议使用SSD
    • 典型的旋转磁盘写延迟约为10毫秒
    • SSD(Solid State Drives,固态硬盘),延迟通常低于1毫秒
  • 将etcd的数据存放在单独的磁盘内
  • ionice命令对etcd服务设置更高的磁盘I/O优先级,尽可能避免其他进程的影响
$ ionice -c2 -n0 -p 'pgrep etcd'

保持合理的日志文件大小

  • tcd以日志的形式保存数据,无论是数据创建还是修改,它都将操作追加到日志文件,因此日志
    文件大小会随着数据修改次数而线性增长
  • 当Kubernetes集群规模较大时,其对etcd集群中的数据更改也会很频繁,集群日记文件会迅速
    增长
  • etcd会以固定周期创建快照保存系统的当前状态,并移除旧日志文
    件。另外当修改次数累积到一定的数量(默认是10000,通过参数“–snapshot-count”指
    定),etcd也会创建快照文件
  • 如果etcd的内存使用和磁盘使用过高,可以先分析是否数据写入频度过大导致快照频度过高,确
    认后可通过调低快照触发的阈值来降低其对内存和磁盘的使用

设置合理的存储配额

  • 存储空间的配额用于控制etcd数据空间的大小
    • 合理的存储配额可保证集群操作的可靠性
    • etcd的性能会因为存储空间的持续增长而严重下降
    • 甚至有耗完集群磁盘空间导致不可预测集群行为的风险

自动压缩历史版本

  • “–auto-compaction”,其值以小时为单位。也就是etcd会自动压缩该值设置的时间窗口之
    前的历史版本

定期消除碎片化

  • 压缩历史版本,相当于离散地抹去etcd存储空间某些数据,etcd存储空间中将会出现碎片
  • 定期消除存储碎片,将释放碎片化的存储空间,重新调整整个存储空间
  • 备份方案
    • etcd备份:备份完整的集群信息,灾难恢复
    • etcdctl snapshot save
    • 备份Kubernetes event
  • 频度
    • 时间间隔太长
      • 如果有外部资源配置,如负载均衡等,能否接受数据丢失导致的leak
    • 时间间隔太短
      • 做snapshot的时候,etcd会锁住当前数据
      • 并发的写操作需要开辟新的空间进行增量写,导致磁盘空间增长
  • 如何保证备份的时效性,同时防止磁盘爆掉
    • Auto defrag

优化运行参数

  • 通过调整心跳周期(Heatbeat Interval)和选举超时时间(Election
    Timeout),来降低Leader选举的可能性
    • 心跳周期参数推荐设置为接近etcd多个成员之间平均数据往返周期的最大值,一般是平均RTT的0.55-1.5倍
    • 选举超时时间最少设置为etcd成员之间RTT时间的10倍

etcd备份存储

  • 两个子目录:wal和snap
  • 所有数据的修改在提交前,都要先写入wal中
  • snap是用于存放快照数据,为防止wal文件过多,etcd会定期(当wal中数据超过10000条记录时,由参数“–snapshot-count”设置)创建快照。当快照生成后,wal中数据就可以被删除了
  • 数据遭到破坏或错误修改需要回滚到之前某个状态
    • 一是从快照中恢复数据主体,但是未被拍入快照的数据会丢失
    • 而是执行所有WAL中记录的修改操作,从最原始的数据恢复到数据损坏之前的状态,但恢复的时间较长

备份方案实践

  • 备份程序每30分钟触发一次快照的拍摄。紧接着它从快照结
    束的版本(Revision)开始,监听etcd集群的事件,并每10秒钟将事件保存到文件中,并将快照和事件文件
    上传到网络存储设备中。
  • 30分钟的快照周期对集群性能影响甚微。当大灾难来临时,也至多丢失10秒的数据。
    至于数据修复,首先把数据从网络存储设备中下载下来,然后从快照中恢复大块数据,并在此基础上依次应
    用存储的所有事件。这样就可以将集群数据恢复到灾难发生前
    在这里插入图片描述

refer 云原生训练营

常联系,如果您看完了

  • wx: tutengdihuang
  • 群如下
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/296290.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot实践指南

一.SpringBoot入门案例 SpringBoot是由Pivotal团队提供的全新框架,其设计目的是用来简化Spring应用的初始搭建以及开发过程 原生开发SpringMVC程序过程 在没有SpringBoot前: 1.入门案例开发步骤 (1)创建新模块,选…

基于ssm医药信息管理系统论文

基于SSM的医药信息管理系统的设计与实现 摘要 当下,正处于信息化的时代,许多行业顺应时代的变化,结合使用计算机技术向数字化、信息化建设迈进。以前相关行业对于医药信息的管理和控制,采用人工登记的方式保存相关数据&#xff…

nodejs+vue+ElementUi房屋房产销售预约看房系统bqv00

完成房产销售系统,对房源的信息、用户信息及各种资料进行收集和科学的管理,该系统的功能基本可以满足当前市面上的小型房产企业对于房产销售的基本要求,收集各个地区的房源信息并进行分类管理,用户通过注册账号登录网站查询房源信…

C# 使用Socket进行简单的通讯

目录 写在前面 代码实现 服务端部分 客户端部分 运行示例 总结 写在前面 在.Net的 System.Net.Sockets 命名空间中包含托管的跨平台套接字网络实现。 System.Net 命名空间中的所有其他网络访问类均建立在套接字的此实现之上。 其中的Socket 类是基于与 Linux、macOS 或 W…

51单片机的羽毛球计分器系统【含proteus仿真+程序+报告+原理图】

1、主要功能 该系统由AT89C51单片机LCD1602显示模块按键等模块构成。适用于羽毛球计分、乒乓球计分、篮球计分等相似项目。 可实现基本功能: 1、LCD1602液晶屏实时显示比赛信息 2、按键控制比赛的开始、暂停和结束,以及两位选手分数的加减。 本项目同时包含器件清…

python实现图像的几何变换——冈萨雷斯数字图像处理

1、 实现图像的平移。 原理: 图像的平移是一种基本的图像处理操作,它将图像中的每个像素沿着指定的方向和距离移动,以创建一个新的平移后的图像。平移的原理很简单,通常涉及到以下几个步骤: 确定平移的距离和方向:首先…

Unity新动画系统之动画层和动画遮罩

Unity新动画系统之动画层和动画遮罩 一、介绍二、动画骨骼遮罩层使用第一种就是create一个avatar Mask,如下:第二种遮罩,就是直接在动画剪辑的属性上更改,如图一为humanoid类型的动画剪辑属性: 一、介绍 之前分享过FSM动画控制系…

【AI提示词人物篇】创新艺术未来,让科技改变想象空间

AI 绘画学习难度和练习技巧 学习绘画的技巧 学习能难度: 外貌特征:AI需要学习识别和理解各种外貌特征,如发型、肤色、眼睛颜色等。这可能需要大量的训练数据和复杂的模型架构。 镜头提示:AI需要学习理解不同镜头提示的含义&…

PostGreSQL:货币类型

货币类型:money money类型存储固定小数精度的货币数字,小数的精度由数据库的lc_monetary设置决定。windows系统下,该配置项位于/data/postgresql.conf文件中,默认配置如下, lc_monetary Chinese (Simplified)_Chi…

SRE - 监控建设

监控⽂档 随着信息技术的迅速发展及其在商业和工业环境中的广泛应用,系统的可靠性成为了组织的生存之本。Site Reliability Engineering(SRE)作为一种实践的结合体,广泛地用于确保和提升软件系统的可靠性。其中,它的一个重要组成部分是制定和监控服务的关键性能指标(Ser…

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《计及风电不确定性的多场景多时段安全约束机组组合解耦求解方法》

这个标题涉及到一种解决在能源系统中考虑风电不确定性的方法。让我们逐步分解这个标题,以便更好地理解其含义: 计及风电不确定性: 这指的是在能源系统中,风力发电的产出具有不确定性。因为风速是难以预测的,风力发电的…

51单片机模数转换ADC原理与代码一

51单片机模数转换ADC原理与代码一 1.概述 这篇文章是模数转换的入门文章,这篇文章主要介绍模数的概念、原理、核心指标、专业术语,以及一个模数转换的实例代码实现检测电位器的数值变化。 2.ADC介绍 2.1.ADC概念 ADC(Analog-to-Digital Converter)是…