分布式一致性算法---Raft初探

读Raft论文也有一段时间了,但是自己总是以目前并没有完全掌握为由拖着这篇博客。今天先以目前的理解程度(做了6.824的lab2A和lab2B)对这篇论文做一个初步总结,之后有了更深入的理解之后再进行迭代,关于本文有任何疑问欢迎评论交流。另外需要说明的是本篇博客并没有对Raft算法的背景和基础知识进行全面介绍,所以需要有一定的基础之后进行阅读。

基本概念

三种状态及相互转换关系

Raft算法中每个服务器处于这三种状态中的一个。

  • 领导者(Leader):负责处理客户端请求、发送心跳、进行日志同步。正常情况下每个时刻只能有一个领导者。
  • 跟随者(Follower):完全被动的处理请求,也就是处理来自领导者的日志同步请求(心跳包含在其中),以及来自候选者的投票请求,服务器大多数情况属于此状态。
  • 候选者(Candidate):在特殊情况下候选者通过选举可以成为领导者,它是一个中间状态。

以下是三种状态的转换关系图。
raft状态转换.png

日志形式

日志以下图的形式组织,Raft算法通过索引和任期号唯一的标识一条日志条目,并且只有被存储在超过一半节点的日志条目才能认为该日志为已提交(committed)。
image.png

算法总览

论文中的图2给出了Raft算法的整体框架图,下面给出图二的内容。整体分为四部分,第一部分是在代码实现时Raft这个结构体需要定义的属性,第二部分是进行日志同步日志时的RPC定义,第三部分是进行投票选举的RPC的定义,第四部分是每个Server的职责和三种角色的职责。
图片.png
Raft.png

领导者选举

实现流程(理论)

起初Server是Follower,在一段时间内没有收到心跳,或者投出自己的选票则会转换为Candidate。成为Candidate的流程是状态转变为Candidate,当前的任期加一,给自己投一票,然后通过RequestVote RPC向其他节点索要选票。接下来会发生下面三种情况中的一个:(1)如果在超时时间内收到多数选票,则转为Leader并立马发送心跳;(2)如果超时时间过去了没有收到多数选票,则重新开始上面的成为Candidate的流程;(3)如果在选举过程中收到已有领导者的消息则转为Follower。
情况(1):Candidate通过RequestVote rpc向其他节点发送索要选票请求时,会将当前任期,ID,最后一条日志的索引,最后一条日志的任期作为请求参数发送到每个Follower节点。Follower节点在收到请求后会首先进行任期对齐(如果Candidate的任期比我Follower小,则返回给他我的任期,并且不给他投票);然后当我还没给别人投票时,会比较Candidate的最后一条日志与我Follower的最后一条日志谁更新(up-to-date),如果你Candidate更新,那么好我给你我的选票,不然我Follower更新的话就不给你选票。这里谁更新(up-to-date)的规则在下面的 **2.3.1.比较日志新旧规则 **部分给出。
情况(2):这种情况出现的场景就是多个Follower同时成为Candidate,选票被分割,没人当选Leader,重启新的选举流程之后选票又被分割,选不出来Leader,好像进入了死循环,这个情况怎么解决呢?在 **2.3.2.分割选票 **部分给出。
情况(3):这种情况是当Candidate收到一个AppendEntries RPC请求时,并且发送这个请求的Leader的任期大于等于Candidate的任期,则认为当前时刻已有合法的Leader,并且Candidate你需要转换成为Follower。

实现流程(代码)

这里只给出核心的代码实现逻辑。需要定义一个选举计时器,如果当前是Follower或者Candidate并且达到超时时间了,则需要转变为Candidate并开始一轮选举。

func (rf *Raft) electionTicker() {for !rf.killed() {rf.mu.Lock()// rf.isElectionTimeoutLocked() 包含了随机超时时间逻辑// 关联细节2.3.2if rf.role != Leader && rf.isElectionTimeoutLocked() { rf.becomeCandidateLocked() // 转变为Candidatego rf.startElection(rf.currentTerm) // 开始选举给每个节点发送索要投票请求}rf.mu.Unlock()ms := 50 + (rand.Int63() % 300)time.Sleep(time.Duration(ms) * time.Millisecond)}
}

转变为Candidate的实现如下:

func (rf *Raft) becomeCandidateLocked() {if rf.role == Leader {return}rf.currentTerm++  // 任期加一rf.role = Candidate  // 状态转变为Candidaterf.votedFor = rf.me  // 给自己投一票rf.resetElectionTimerLocked() // 重置超时计时器
}

开始选举给每个节点发送索要投票请求的实现:

func (rf *Raft) startElection(term int) {// 统计选票votes := 0rf.mu.Lock()l := len(rf.log)for peer := 0; peer < len(rf.peers); peer++ {if peer == rf.me {votes++continue}args := &RequestVoteArgs{Term:         rf.currentTerm,CandidateId:  rf.me,LastLogIndex: l - 1,   // 最后一条日志的索引LastLogTerm:  rf.log[l-1].Term,  // 最后一条日志的任期}go askVoteFromPeer(peer, args)  }rf.mu.Unlock()// 定义一个给其他节点发送索要选票并对回复信息进行处理的匿名函数askVoteFromPeer := func(peer int, args *RequestVoteArgs) {reply := &RequestVoteReply{}// 发送索要选票的请求ok := rf.sendRequestVote(peer, args, reply)rf.mu.Lock()defer rf.mu.Unlock()if !ok {return}// 如果发送到的节点的任期更大,则说明本Candidate没资格当Leaderif reply.Term > rf.currentTerm {rf.becomeFollowerLocked(reply.Term)return}// 统计选票,获取过半数选票时转变为Leader并发送心跳if reply.VoteGranted {votes++if votes > len(rf.peers)/2 {rf.becomeLeaderLocked()go rf.replicationTicker(term)}}}}

给一个节点发送索要投票请求的函数:

func (rf *Raft) sendRequestVote(server int, args *RequestVoteArgs, reply *RequestVoteReply) bool {ok := rf.peers[server].Call("Raft.RequestVote", args, reply)return ok
}

索要投票的RPC ,或者叫Follower对Candidate的请求的回调函数的定义:

func (rf *Raft) RequestVote(args *RequestVoteArgs, reply *RequestVoteReply) {rf.mu.Lock()defer rf.mu.Unlock()reply.Term = rf.currentTermreply.VoteGranted = false// 如果你Candidate的任期比我小,那你该退下去了if args.Term < rf.currentTerm {return}// 如果你Candidate的任期比我大,那我如果是Candidate就得边Followerif args.Term > rf.currentTerm {rf.becomeFollowerLocked(args.Term)}if rf.votedFor != -1 {return}// 比较Candidate的最后一条日志与本Follower的最后一条日志谁更新// 关联细节2.3.1if rf.isMoreUpToDateLocked(args.LastLogIndex, args.LastLogTerm) {return}reply.VoteGranted = truerf.votedFor = args.CandidateIdrf.resetElectionTimerLocked()
}

需要注意的细节

比较日志新旧

论文中关于两个日志谁更新的比较规则是下面这样描述的。总结一下就是首先比较任期,任期大的更新;任期相同则比较索引,索引更大的更新。

Raft determines which of two logs is more up-to-date by comparing the index and term of the last entries in the logs. If the logs have last entries with different terms, then the log with the later term is more up-to-date. If the logs end with the same term, then whichever log is longer is more up-to-date.

分割选票

关于分割选票可以采用随机超时时间的方法来解决。选举超时时间通常在[T, 2T]区间内(例如150ms~300ms)。由于随机性节点不太可能再同时开始竞选,所以先竞选的节点有足够的时间来向其他节点索要选票。

日志同步/心跳

实现流程(理论)

整体上看是:Leader服务来着客户端的请求,每个客户端请求都包含一个要由复制状态机执行的命令,Leader将命令作为新条目追加到其日志中,然后并行地向其他每个服务器发出AppendEntries RPC以同步该命令到全部节点。
详细来说:开始日志同步的过程中Leader需要通过AppendEntries RPC进行日志同步和心跳,该RPC的请求参数包含term、leaderID、prevLogIndex、prevLogTerm、entries、leaderCommit。其中prevLogIndex是根据Leader中定义的nextIndex数组中该Follower的值得到的,prevLogTerm是Leader中prevLogIndex处的日志的任期,entries则包含prevLogIndex之后的所有日志,leaderCommit是Leader已经commit的日志的索引用来推进Leader的apply和Follower日志的commit、apply。当Follower节点收到AppendEntries RPC指令之后,首先比较任期如果领导的任期小于自己则直接返回当前任期让Leader下台。接下来看Follower中prevLogIndex索引处的日志是否任期是prevLogTerm,如果是则匹配成功,接下来把请求中的entries复制到本地的日志中,并且更新该节点的nextIndex数组和matchIndex数组;否则返回返回false让Leader的prevLogIndex继续向前试探,重新发送AppendEntries RPC请求给Follower直到匹配成功。这一部分的更细节的描述见 3.3.1.日志同步请求能否成功的逻辑
对于Leader来说:在Follower接收AppendEntries RPC并成功把日志复制到本地之后,会更新matchindex数组,这个数组更新了之后就可能使得有新的日志已经从Leader被大多数节点复制完成,这时Leader就需要更新自己的commitIndex,同时如果commitIndex一更新就需要触发apply日志的Ticker进行日志应用,具体细节见 3.3.3.apply日志的业务逻辑。这里关于commitIndex的更新有个细节就是Leader只能提交当前任期的日志而不能提交之前任期的日志,具体细节见 3.3.2.不能commit非当前任期的日志
对于Follower来说:Follower会根据AppendEntries RPC的请求参数中的leaderCommit进行自身commitIndex的更新进而推进日志的apply。Leader发送请求的请求参数中的leaderCommit是依据自身的commitIndex来确定的,所以上面的Leader的commitIndex的更新就会使得Leader发送请求的请求参数中的leaderCommit进行更新,进而推进Follower日志的apply。Follower的commitIndex一更新就需要触发apply日志的Ticker进行日志应用,具体细节见 3.3.3.apply日志的业务逻辑。这里还有另外一个细节就是不能直接把Leader的leaderCommit赋值给Follower的commitIndex更新Follower已提交日志索引,还需要考虑Follower的长度,具体细节见 3.3.4.更新Follower的commitIndex时需注意的点

实现细节 (代码)

承接第二部分当Candidate当选Leader后就会go一个replicationTicker协程定时发送心跳以及日志同步请求。

func (rf *Raft) replicationTicker(term int) {for !rf.killed() {ok := rf.startReplication(term)if !ok {break}time.Sleep(replicateInterval)  // replicateInterval为一个固定的值}
}

Leader向所有其他节点进行同步日志并对返回结果处理的逻辑如下:

func (rf *Raft) startReplication(term int) bool {rf.mu.Lock()for peer := 0; peer < len(rf.peers); peer++ {if peer == rf.me {rf.matchIndex[peer] = len(rf.log) - 1rf.nextIndex[peer] = len(rf.log)continue}// 根据要发送节点的nextIndex数组中的数值确定prevLogIndexprevIdx := rf.nextIndex[peer] - 1prevTerm := rf.log[prevIdx].Termargs := &AppendEntriesArgs{Term:         rf.currentTerm,LeaderId:     rf.me,PrevLogIndex: prevIdx,PrevLogTerm:  prevTerm,Entries:      rf.log[prevIdx+1:],  // 将prevLogIndex之后的日志填充进来LeaderCommit: rf.commitIndex,  // 根据Leader的commitIndex确定发送的LeaderCommit}go replicateToPeer(peer, args)}rf.mu.Unlock()return true// Leader对单个节点发送日志同步请求并处理响应的匿名函数的定义replicateToPeer := func(peer int, args *AppendEntriesArgs) {reply := &AppendEntriesReply{}ok := rf.sendAppendEntries(peer, args, reply)rf.mu.Lock()defer rf.mu.Unlock()if !ok {return}// 如果得到的返回任期比我Leader,那么就需要变成Follower并returnif reply.Term > rf.currentTerm {rf.becomeFollowerLocked(reply.Term)return}// 如果不匹配则需要试探更前面的日志,最后通过更新nextIndex数组来保存要试探的索引// 关联细节3.3.1if !reply.Success {idx, term := args.PrevLogIndex, args.PrevLogTermfor idx > 0 && rf.log[idx].Term == term {idx--}rf.nextIndex[peer] = idx + 1return}// 如果匹配成功则需要更新matchIndex,nextIndex两个数组rf.matchIndex[peer] = args.PrevLogIndex + len(args.Entries) rf.nextIndex[peer] = rf.matchIndex[peer] + 1// 匹配成功则需要判断是否要更新commitIndexmajorityMatched := rf.getMajorityIndexLocked()// 关联细节3.3.2if majorityMatched > rf.commitIndex && rf.log[majorityMatched].Term == rf.currentTerm {rf.commitIndex = majorityMatched// 关联细节3.3.3rf.applyCond.Signal()  // 如果更新了commitIndex那么触发Leader节点进行apply}}
}
func (rf *Raft) sendAppendEntries(server int, args *AppendEntriesArgs, reply *AppendEntriesReply) bool {ok := rf.peers[server].Call("Raft.AppendEntries", args, reply)return ok
}

AppendEntries RPC的定义也就是Follower对Leader的日志同步请求的回调函数如下:

func (rf *Raft) AppendEntries(args *AppendEntriesArgs, reply *AppendEntriesReply) {rf.mu.Lock()defer rf.mu.Unlock()reply.Term = rf.currentTermreply.Success = false// 如果Leader任期比我Follower还小,那你应该下台if args.Term < rf.currentTerm {return}// 如果你Leader的任期比我Candidate或者Follower大,那我需要变成Followerif args.Term >= rf.currentTerm {rf.becomeFollowerLocked(args.Term)}// 如果我Leader要尝试给你同步的日志索引比你Follower的全部日志还长,// 那说明你缺日志,不能从PrevLogIndex处开始同步// 关联细节3.3.1if args.PrevLogIndex >= len(rf.log) {return}// 如果日志不匹配PrevLogIndex索引处的任期一致说明不匹配// 关联细节3.3.1if rf.log[args.PrevLogIndex].Term != args.PrevLogTerm {return}// 能运行到这里说明匹配成功,就需要把你Leader要发给我的Entries我放到我的日志中rf.log = append(rf.log[:args.PrevLogIndex+1], args.Entries...)reply.Success = true// 如果你Leader的已提交日志索引比我Follower大,// 那么我就需要更新我的commitIndex并触发日志applyif args.LeaderCommit > rf.commitIndex {// 关联细节3.3.4rf.commitIndex = min(args.LeaderCommit, len(rf.log)-1)// 关联细节3.3.3rf.applyCond.Signal()}rf.resetElectionTimerLocked()  // 收到了心跳重置超时计时器
}

需要注意的细节

日志同步请求能否成功的逻辑

在第一部分中我们说到Raft算法通过索引和任期号唯一的标识一条日志条目,所以判断Leader发送给Follower的AppendEntries RPC的请求能否成功的关键就是看Follower的prevLogIndex索引处的任期是否等于prevLogTerm,相等则可以将请求中的entries添加的Follower的日志中,否则失败需要减小nextIndex数组中该Follower的索引值,进而减小下次试探的prevLogIndex的值。
另外还需要注意一个容易忽视的可能导致的bug就是不匹配有两种情况,一种是Follower的prevLogIndex索引处的任期不一致,还有一种就是Follower中缺日志进而导致Follower中的日志长度<=prevLogIndex,这个情况应该提前判断避免数组越界。

不能commit非当前任期的日志

在论文中给出一个反例,我们详细看一下这个反例。
image.png
(a) S1 是领导者,复制索引2 处的日志条目到S2。
(b) S1崩溃,通过来自 S3、S4 和自身的投票,S5 被选为term 3的领导者,并在日志索引 2 处接收到一个来自客户端的跟S1、S2不同的日志条目。
© S5崩溃,S1重新启动,被选为leader,并继续复制日志到其他节点。此时,term 2中的日志条目已在大多数服务器上复制,但尚未提交。
(d) 如果S1又崩溃了,S5可以被选为leader(来自S2、S3和S4的投票),并用自己在term 3中的条目覆盖索引2的term 2的条目。
(e) 但是,如果S1在崩溃之前在大多数服务器上复制其当前任期的条目,如(e)所示,则该条目被提交(S5无法赢得选举)。此时,也提交了日志中前面的所有条目。
通过上面的(d)可以看到如果我在©处当term 2中的日志条目已在大多数服务器上复制时如果进行提交,那么在(d)处会把已提交的term 2的日志覆盖掉,这种情况是极其不允许的!而且通过(e)可以看到如果S1在崩溃之前在大多数服务器上复制其当前任期的条目,那么一方面能压制S5获取不到大多数投票,另一方面在提交当前term 4的日志时也会间接的term 2的日志进行提交。

apply日志的业务逻辑

可以分为Leader的apply日志和Follower的apply日志。
首先讨论一下Leader可能apply日志的时机,在replicateToPeer匿名函数中,Leader向单个Follower同步成功日志之后需要判断一下commitIndex需不需要更新,如果需要更新,那么说明有新的日志被提交也就会触发Leader日志apply。
其次说一下Follower可能apply日志的时机,当上一段中commitIndex更新之后由于leaderCommit = commitIndex,也就会导致leaderCommit更新,在AppendEntries函数的最后可以看到如果leaderCommit更新变大了就会触发Follower的日志apply。

更新Follower的commitIndex时需注意的点

这个是极易忽视的一点,在Follower处理AppendEntries RPC请求时,最后如果发送过来的leaderCommit参数比我Follower当前的commitIndex大,那么我Follower需要更新我的commitIndex,但是,你注意但是啊,这个commitIndex再大也不能超过我日志的总长度-1吧,这个是及其容易忽视的一点。

总结

在本文结合Raft论文和mit 6.5840(原6.824)的lab2的partA和partB实验对Raft算法的基础概念以及两大重要部分投票选举和日志同步对Raft算法进行了细致的讨论。在后面的实验中还有关于日志持久化和日志压缩的内容,之后会在学习完成之后进行相应内容的更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/424381.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式条码二维码读码引擎安装注意事项

一、静电保护 &#xff1a; 帕德盾条码二维码扫描设备均已设计了对静电的防护&#xff0c;并使用了防静电包装&#xff0c;但在拆封和使用过程中仍需注意防静电措施&#xff0c;如使用接地腕带和工作区域接地等措施。 二、防尘防污&#xff1a; 帕德盾嵌入式引擎在保存及使用过…

SpringBoot 自定义Filter 提前返回 CORS 错误 处理前后端分离跨域配置无效问题解析

前言 浏览器有跨域限制&#xff0c;非同源策略 (协议、主机名或端口不同) 被视为跨域请求&#xff0c;解决跨域有跨域资源共享(CORS)、反向代理和 JSONP的方式。本篇通过 SpringBoot 的资源共享配置 (CORS) 来解决前后端分离项目的跨域&#xff0c;以及从原理上去解决跨域配置…

使用Python自动化操作手机,自动执行常见任务,例如滑动手势、呼叫、发送短信等等

使用Python自动化操作手机,自动执行常见任务,例如滑动手势、呼叫、发送短信等等。 此自动化脚本将帮助你使用 Python 中的 Android 调试桥 (ADB) 自动化你的智能手机。下面我将展示如何自动执行常见任务,例如滑动手势、呼叫、发送短信等等。 您可以了解有关 ADB 的更多信息,…

采用企业应用开发平台实现提质增效!

当前&#xff0c;为了实现提质增效的办公目的&#xff0c;有不少企业都倾向于使用低代码技术平台&#xff0c;企业应用开发平台就是大家常用的软件平台&#xff0c;由于具有效率高、简便灵活、可视化设计等诸多优势特点&#xff0c;因而在业务量上涨的现代化职场办公中&#xf…

Postman工作协同:生成接口文档和示例,超实用

Postman这个Documentation功能对于前后端分离的团队&#xff0c;接口开发团队来说真的是提升沟通效率和工作效率的一个利器。废话不多说&#xff0c;直接上干货来看如何通过Postman来生成接口文档和发布接口文档&#xff0c;以及如何定制化文档中的内容。 流程概要&#xff1a…

牛仔服装行业研究:预计到2025年将达到约650亿美元

牛仔服装是指原美国西部垦拓者(牛仔)穿着的服装&#xff0c;一般用纯棉或棉纤维为主要原材料混纺、交织的色织牛仔布制作。 牛仔布的生产起源于美国。牛仔服装历经百年变迁&#xff0c;由最初的工装演变为时装&#xff0c;征服了人们不同阶段挑剔的目光&#xff0c;最终成为服装…

伊恩·斯图尔特《改变世界的17个方程》麦克斯韦方程方程笔记

它告诉我们什么&#xff1f; 电和磁并不会随便乱跑。旋转的电场区域会产生垂直于旋转方向的磁场。旋转的磁场区域也会产生垂直于旋转方向的电场&#xff0c;但方向相反。 为什么重要&#xff1f; 这是物理力的第一次重大统一&#xff0c;表明电和磁是密切相关的。 它带来了什么…

echarts绘制多条刻度线仪表盘,文本内容带背景且颜色渐变,echarts绘制复杂仪表盘

option {series: [{// 最外圈type: gauge,radius: 80%,center: [50%, 90%],startAngle: 180,endAngle: 0,min: 0,max: 100,progress: {show: false,width: 8},pointer: {show: false},axisLine: {show: false,lineStyle: {width: 50,color: [// axisTick使用的是这里的颜色[0.…

Java项目:基于ssm框架实现的电影评论系统(ssm+B/S架构+源码+数据库+毕业论文)

一、项目简介 本项目是一套ssm826基于ssm框架实现的电影评论系统&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#x…

切鱼达人,Android休闲游戏开发

使用 Android Studio 开发了一款休闲游戏 —— 《切鱼达人》 A. 项目描述 《切鱼达人》是一款有趣的休闲游戏app&#xff0c;让玩家在虚拟的海洋世界中体验切割各种鱼类的乐趣。 《切鱼达人》玩法简单而富有挑战性。玩家需要在游戏中扮演一名渔民&#xff0c;使用手指在屏幕上…

测试不拘一格——掌握Pytest插件pytest-random-order

在测试领域,测试用例的执行顺序往往是一个重要的考虑因素。Pytest插件 pytest-random-order 提供了一种有趣且灵活的方式,让你的测试用例能够以随机顺序执行。本文将深入介绍 pytest-random-order 插件的基本用法和实际案例,助你摆脱固定的测试顺序,让测试更具变化和全面性…

【动态规划】879. 盈利计划

作者推荐 【动态规划】【广度优先搜索】【状态压缩】847 访问所有节点的最短路径 本文涉及知识点 动态规划汇总 LeetCode879. 盈利计划 集团里有 n 名员工&#xff0c;他们可以完成各种各样的工作创造利润。 第 i 种工作会产生 profit[i] 的利润&#xff0c;它要求 group[…