【存储】blotdb的原理及实现(2)

【存储】etcd的存储是如何实现的(3)-blotdb

在etcd系列中,我们对作为etcd底层kv存储的boltdb进行了比较全面的介绍。但是还有两个点没有涉及。

第一点是boltdb如何和磁盘文件交互。
持久化存储和我们一般业务应用程序的最大区别就是其强依赖磁盘文件。一方面文件数据结构和内存数据结构的差异很大,需要设计合适的文件数据结构(文件布局)来保证足够的读写效率;另一个方面,在与磁盘文件的读写交互上也需要做各种优化以提升db的整体性能。boltdb的文件布局在上一篇中已经介绍过了,本篇中会介绍mmap,boltdb用来做文件交互的技术。

第二点是boltdb如何管理free page。
在第一篇中我们讲过,boltdb采用了shadow paging(影子分页)的实现,这种类似copy

文章目录

  • mmap
  • freelist
    • 数组freelist
    • map freelist
    • 页的释放
      • 事务的记录
      • 页的释放

mmap

mmap是linux提供的一个系统调用。

mmap的作用是将进程的一块虚拟内存和文件相映射,通过对该虚拟内存的读写就可以直接对文件进行读写。相对于一般的使用read、write系统调用来读写文件的情况,使用mmap可以减少用户空间和内核空间之间的数据拷贝,提高效率。

mmap的原理是将一块虚拟内存和一块内核物理内存相映射,以此来减少用户空间和内核空间的数据拷贝。更具体的细节这里就不展开,网上有不少文章都介绍的非常详细,感兴趣可自行了解。

mmap是一种高效的操作文件的方式,但是应用在数据库也会有一些问题。这些问题产生的根本原因就是在mmap中,内存回写文件完全由内核管理而无法由存储应用层控制。可能导致的后果有:

  • 事务安全

在mmap中,内存刷盘的过程完全由操作系统控制,其无法感知上层应用的情况,会存在事务尚未提交,就将脏页刷盘的情况。这种情况可能会对事务造成影响。

博主认为在存在mvcc的db中其实是没有影响的,如果没有mvcc,则确实会产生中间状态。因为mvcc是存储应用层针对事务设计,如果没有mvcc,则事务完全依赖持久化能力。当然实际情况会更复杂,应该根据不同的实现具体情况具体分析。

解决mmap事务安全可以采用wal+copy-on-write,或者采用shadow paging(影子分页)。boltdb采用的是shadow paging。其能解决问题的根本原因是shadow paging中,每次写入都会将更新写入新的页而不是在原有页上update。在页表刷盘前,即使新的页被回写磁盘,该页也只会被当作空白页对待。

  • i/o停顿

操作系统无法感知存储应用层对数据的使用情况,其页面的置换无法保证db的热点数据在内存中,会导致i/o的性能波动。

除以上问题外,mmap还存在一些其他的问题,数据库大神andy专门写了一篇论文来论证为什么不要在数据库中使用mmap,详情见论文。但实际上,在工业界的很多知名项目中都使用了mmap,其中的考量博主目前也没有深入研究,留待下回分解。

freelist

freelist在内存中维护了所有的空闲页,以便快速的进行页的分配。boltdb支持两种形式的freelist,分别以数组和map的形式维护空闲页面,可以在创建DB对象时通过option中的FreelistType参数控制。

const (// FreelistArrayType indicates backend freelist type is arrayFreelistArrayType = FreelistType("array")// FreelistMapType indicates backend freelist type is hashmapFreelistMapType = FreelistType("hashmap")
)

官方解释中,数组形式的freelist实现简单,但是性能较差,尤其当db比较大时,并且容易产生文件碎片。map形式的freelist性能很快,在文件碎片问题上表现更好,但不能保证分配的页是offset最小的页。默认使用数组形式的freelist。

数组freelist

数组形式的freelist使用数组按照升序来维护所有的page id。当需要分配一块n页的连续空间时,会从前向后找到第一块大于n页的连续空间,从中截取n页分配。这种形式保证了我们一定能拿到offset最小的符合要求的page。但是遍历的方式是O(n)的复杂度,当db很大时,可能会产生严重的性能问题。同时这种方式也很容易产生文件碎片。

// 省略其他字段
type freelist struct {freelistType   FreelistType                // freelist typeids            []pgid                      // all free and available free page ids.
}

map freelist

map形式的freelist采用三个map维护空闲页,或者说连续的页面组成的不同大小的连续空间。

  • freemaps的key是空间大小(页数表示),value是以对应大小连续空间的起始page id表示的集合;
  • forwardMap的key是连续空间起始page id,value为连续空间大小;
  • backwardMap的key是连续空间结束page id,value为连续空间大小;
// 省略其他字段
type freelist struct {freelistType   FreelistType                // freelist typefreemaps       map[uint64]pidSet           // key is the size of continuous pages(span), value is a set which contains the starting pgids of same sizeforwardMap     map[pgid]uint64             // key is start pgid, value is its span sizebackwardMap    map[pgid]uint64             // key is end pgid, value is its span size
}type pidSet map[pgid]struct{}

当需要分配一块n页的连续空间时,会在freemaps中查找是否存在n页的连续空间,如有,则选择一块分配,否则随机选择大于n页的连续空间分配(这样看在碎片问题上也没好到哪去)。forwardMap和backwardMap的作用则是在释放内存时进行连续空间的合并。

页的释放

上面提到了freelist有数组和map两种实现,其差别主要在空闲页的分配上。个人觉得freelist的最有意思的点在页的释放上,这也是freelist跨事务管理page的体现。

在介绍具体的实现前,我们先回顾下boltdb事务的特点。

  • boltdb支持同时进行多个读事务和最多一个写事务。
  • 读事务是快照读,快照的内容是读事务开始前最近一次已提交写事务。
  • 读事务不会对db的数据造成影响,但是会导致过期的页不能被释放。(长读事务会导致db空间暴涨)

回顾过以上内容,我们再来看具体的实现。

事务的记录

boltdb会将读写事务和只读事务分别记录。其中读写事务同时最多存在一个,只读事务同时存在多个,采用数组记录,并且boltdb会按照txnid升序维护只读事务。

// 省略其他字段
type DB struct {rwtx     *Tx         // 读写事务txs      []*Tx       // 只读事务
}

当事务结束(提交或者回滚)时,会调用事务的close方法消除事务。

// 省略多余代码
func (tx *Tx) close() {if tx.db == nil {return}if tx.writable {// Remove transaction ref & writer lock.tx.db.rwtx = nil} else {tx.db.removeTx(tx)}
}

页的释放

页的释放分为两部分:

  • 读写事务中有delete或者update(影子分页的特点)时将page标记为待释放;
  • 持有待释放page的只读事务结束,读写事务开始前将不被只读事务持有的待释放page释放;

在读写事务中,当发生update或者delete操作时,对应的页需要被释放。但是这些页不能在读写事务提交时立刻被释放,因为可能会被只读事务的快照持有。

所以freelist对外提供free方法,记录当前事务需要释放的页。读写事务中在对应的位置调用free方法。

待释放的page以txPending的方式组织,这种组织方式是为了在事务回滚时快速进行回滚操作。

type txPending struct {ids              []pgidalloctx          []txid // txids allocating the idslastReleaseBegin txid   // beginning txid of last matching releaseRange
}

free方式的实现如下。其会记录释放的页以及对应分配该页的txnid。在boltdb中只有开启读写事务才会对txnid进行递增,所以txnid可以认为是版本的概念。当一个版本不被只读事务持有,那么该版本分配的待释放页就可以释放。在boltdb中,只读事务永远只能拿到最新版本的快照而无法获取旧版本的快照,所以页总是可以被释放。但同时长的只读事务也会导致页迟迟不能释放,从而可能会导致db空间快速增长。

// free releases a page and its overflow for a given transaction id.
// If the page is already free then a panic will occur.
func (f *freelist) free(txid txid, p *page) {if p.id <= 1 {panic(fmt.Sprintf("cannot free page 0 or 1: %d", p.id))}// Free page and all its overflow pages.txp := f.pending[txid]if txp == nil {txp = &txPending{}f.pending[txid] = txp}allocTxid, ok := f.allocs[p.id]if ok {delete(f.allocs, p.id)} else if (p.flags & freelistPageFlag) != 0 {// Freelist is always allocated by prior tx.allocTxid = txid - 1}for id := p.id; id <= p.id+pgid(p.overflow); id++ {// Verify that page is not already free.if _, ok := f.cache[id]; ok {panic(fmt.Sprintf("page %d already freed", id))}// Add to the freelist and cache.txp.ids = append(txp.ids, id)txp.alloctx = append(txp.alloctx, allocTxid)f.cache[id] = struct{}{}}
}

在新读写事务开启时,会根据txPending和当前只读事务的状态来释放待释放的page,可以认为是一种lazy的策略,但是在这个场景下效果很好。

boltdb会遍历进行中的所有只读事务(db.Txs),调用release和releaseRange方法来释放已结束版本的待释放页。

func (db *DB) freePages() {// Free all pending pages prior to earliest open transaction.sort.Sort(txsById(db.txs))minid := txid(0xFFFFFFFFFFFFFFFF)if len(db.txs) > 0 {minid = db.txs[0].meta.txid}if minid > 0 {db.freelist.release(minid - 1)}// Release unused txid extents.for _, t := range db.txs {db.freelist.releaseRange(minid, t.meta.txid-1)minid = t.meta.txid + 1}db.freelist.releaseRange(minid, txid(0xFFFFFFFFFFFFFFFF))// Any page both allocated and freed in an extent is safe to release.
}

至此,我们对boltdb的各个方面进行了比较完善的讲解。


如果觉得本文对您有帮助,可以请博主喝杯咖啡~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/231350.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue的在线考试系统(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容&#xff1a;毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

顺丰JAVA开发一面—面试实战经验分析【已通过】

文章目录 面试总结面试开始项目相关基础知识反问环节 顺丰JAVA开发一面面试过程中的问题确实涵盖了很多方面&#xff0c;从项目架构到基础知识再到具体技术细节都有所涉及。 面试官的提问风格也是比较开放的&#xff0c;注重考察面试者的深度理解和解决问题的能力。以下是对每个…

AI模型训练——入门篇(一)

前言 一文了解NLP&#xff0c;并搭建一个简单的Transformers模型&#xff08;含环境配置&#xff09; 一、HuggingFace 与NLP 自从ChatGPT3 问世以来的普及性使用&#xff0c;大家或许才真正觉察AI离我们已经越来越近了&#xff0c;自那之后大家也渐渐的开始接触stable diff…

【开源】基于Vue.js的大病保险管理系统的设计和实现

项目编号&#xff1a; S 031 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S031&#xff0c;文末获取源码。} 项目编号&#xff1a;S031&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统配置维护2.2 系统参保管理2.3 大…

python安装PyHook3

pyhook 报错 “TypeError: KeyboardSwitch() missing 8 required positional arguments: ‘msg’, ‘vk_code’, ‘scan_code’, ‘ascii’, ‘flags’, ‘time’, ‘hwnd’, and ‘win_name’” 一、PyHook3简介 pyHook包为Windows中的全局鼠标和键盘事件提供回调。Python应…

测绘地理信息安全保密管理制度文件

测绘地理信息安全保密管理制度文件 建立健全测绘地理信息安全保密管理制度。明确涉密人员管理、保密要害部门部位管理、涉密设备与存储介质管理、涉密测绘成果全流程保密、保密自查等要求。

【知识】简单理解为何GCN层数越多越能覆盖多跳邻居聚合信息范围更广

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 背景说明 大多数博客在介绍GCN层数时候&#xff0c;都会提到如下几点(经总结)&#xff1a; 在第一层&#xff0c;节点聚合来自其直接邻居的信息。在第二层&#xff0c;由于每个节点现在包含了其直接邻居的信息&a…

C++ day44完全背包问题 零钱兑换Ⅱ 组合总和Ⅳ

完全背包&#xff1a;一个物品可以使用无数次&#xff0c;将01背包中倒序遍历背包变成正序遍历背包 遍历顺序&#xff1a;在完全背包中&#xff0c;对于一维dp数组来说&#xff0c;其实两个for循环嵌套顺序是无所谓的&#xff01; 先遍历物品&#xff0c;后遍历背包可以&#…

LeetCode [简单](非递归)二叉树的中序遍历

遍历左孩子&#xff0c;将他们放进栈中&#xff0c;左边走到尽头&#xff0c;出栈&#xff0c;root变为栈顶元素&#xff0c;存值&#xff0c;向右边走一个 再次遍历左孩子&#xff0c;将他们放入栈中&#xff0c;如果没有左孩子了&#xff0c;就出栈&#xff0c;root变为栈顶…

网页能做二维码吗?1分钟学会链接转码的方法

想要将链接做成二维码图片&#xff0c;让他人通过扫码跳转链接以提高网页的传播性&#xff0c;是现在很常用的一种手段。主要在于二维码是现在最常用的一种展现方式&#xff0c;更加符合现在人的行为习惯&#xff0c;那么网址二维码该如何操作呢&#xff1f;今天小编给大家讲解…

网络层协议-IP协议

目录 基本概念IP协议格式分片与组装分片组装 网段划分特殊的IP地址IP地址的数量限制私有IP地址和公网IP地址路由 基本概念 TCP作为传输层控制协议&#xff0c;其保证的是数据传输的可靠性和传输效率&#xff0c;但TCP提供的仅仅是数据传输的策略&#xff0c;而真正负责数据在网…

DCGAN 使用指南:将卷积神经网络和对抗网络结合,适用于生成小尺寸的图像

DCGAN 使用指南&#xff1a;将卷积神经网络和对抗网络结合 网络结构细节设计 论文地址&#xff1a;https://arxiv.org/abs/1511.06434 项目代码&#xff1a;https://github.com/tensorlayer/DCGAN.git DCGAN 适用于生成小尺寸的图像&#xff0c;并且具有简单易用的优势 Styl…