CMU15445实验总结(Spring 2023)

CMU15445实验总结(Spring 2023)

背景

菜鸟博主是2024届毕业生,学历背景太差,导致23年秋招无果,准备奋战春招。此前有读过LevelDB源码的经历,对数据库的了解也仅限于LevelDB。奔着”有对比才能学的深“的理念,以及缓解自身就业焦虑的想法,于是乎在2024.2.16日开始CMU15445(关系性数据库)实验之旅。截止到2.26日:将P2做完了。

因为C++的基础还凑合,而且时间紧迫,于是跳过了p0实验,建议之前没学过C++同学,可以做做p0以熟悉现代C++的语法。

课程主页链接:https://15445.courses.cs.cmu.edu/spring2023/

B站有一位up主“Moody-老师”,对着CMU15445的ppt按照自己的理解复现了每一次的讲座,链接如下:https://space.bilibili.com/23722270

Project #1 - Buffer Pool

总结

该模块是基于LRU-K Replacement Policy实现了一个内存池。简单来讲LRU-K Replacement Policy就是类似操作系统的内存页面置换。

P1模块实现的内存池,和LevelDB的Cache有相似的作用,只是LevelDB的Cache中实现的内存替换策略是最简单的LRU算法,同时,LevelDB并没有像本实验中那样一上来就分配那么多内存进行内存复用,而是采用了动态内存分配与释放的方式,新的Block(或者Table)加到Cache中时,使用malloc分配内存,淘汰时,使用free直接释放内存。可能这就是在BusTub中叫内存池,而在LevelDB中叫Cache的原因。

本实验进行的比较顺利,唯一主要弄清楚的是Frame和Page的区别。

  • Frame(4K): 就是内存页,相应的frame_id就是Buffer Manager最开始申请的每个内存页的唯一id号。

  • Page(4K): 就是磁盘页,相应的page_id就是磁盘上每一页的id号。

理清这两个术语,接下来直接复现本模块的业务代码即可。

  1. 在实现class BufferPoolManager时,可以实现一个NewFrameUnlocked成员函数,方便在BufferPoolManager中获得空闲内存页(Frame)。

  2. 明确class Page的读写锁是保护data_的,在class BufferPoolManager中无需对Page加读写锁,从实现上也可以想清楚这点。

Gradescope测试

关于6个Fail的解释

前三个是关于代码规范的测试,没有通过。。。

后三个是关于PageGuard的测试,我的实现参考了std::lock_guard,在构造时加读写锁、在析构时,解读写锁。但是因为出现了死锁,猜测测试程序可能不支持这么实现,但其实并没有错误。而且后续的B+树索引实验在使用PageGuard时并没有出现死锁。

gradescope测试

Project #2 - B+Tree

总结

该模块就是基于磁盘(结合Buffer Pool Manager)实现一个B+树的增删查改,另外要保证线程安全。

和LevelDB对比,LevelDB使用LSM Tree的结构,其数据结构使用的是跳表、内存按层的方式,每层内部存储SSTable文件的元数据,作为表级索引,SSTable文件尾部存储着数据块的索引,作为块级索引,而每个数据块的尾部存储着数据索引,作为数据索引。在检索一个key-value对时,由于LevelDB一层的各个部分之间是有序不重叠的,所以以二分为主。查询方面,可能LevelDB会略差,但是增删改,LevelDB可以做到“O(1)”(忽略内存插入跳表的操作)的时间复杂度,而使用B+的数据库增删查改时间复杂度都是O(logn)。LevelDB其实将真正的删改延迟到了压缩阶段。具体细节有兴趣的读者可以自行看LevelDB的源码。

B+树的实现

考虑到递归方式调试困难,我采用了迭代式实现了B+树

由于B+树只在叶节点存数据,所有迭代式只需要保存从根节点定位到key的路径然后根据规则进行调整即可。

约定:

  1. internal_page的kv关系如下:… key1 <= value1(value所代表的page中的key) < key2 <= value2 …

需了解的是:B+树internal_page,索引为0的entry,其key是无效value是有效。即,B+树internal_page中,key的数量 = value数量 - 1。而leaf page中,kv数量一样。也正是存在这种关系,使得在插入和删除时,internal page的处理更为复杂。

关于对我帮助很大的链接:

调试B+树可视化调试方式可以参考这篇文章:https://www.cnblogs.com/wangzming/p/17479777.html

经验贴:https://zhuanlan.zhihu.com/p/665802858?utm_id=0

B+树-查找

我实现了一个辅助函数:

INDEX_TEMPLATE_ARGUMENTS
void BPLUSTREE_TYPE::FindPath(const KeyType &key, Context& ctx, bool write, Transaction *txn)

可以查找key并保存路径。后面的插入和删除都用到了该函数。

流程如下:

从root_page开始,根据key找到leaf_page,同时保存沿路的internal_page。

官方提供的查找伪代码:

查找伪代码

B+树-插入

插入也是先调用FindPath记录并锁住沿路的page,然后自下而上迭代操作。

插入需要注意的是节点达到MAXSize时需要分裂。

对于leaf page的分裂

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>…

要分裂page_id为vn-1的leaf_page,流程如下:

  1. 以leaf_page的1/2处的kv作为分裂点,假设为<ki, vi>

  2. 将leaf_page节点中,索引为i(包括i)之后的所有的entry移动到new_leaf_page(index从0开始)中。

  3. 将leaf_page的next_page_id赋值给new_leaf_page的next_page_id。

  4. 将new_leaf_page_id赋值给leaf_page的next_page_id。

  5. 左孩子为vn-1(leaf_page的id),key为ki,右孩子为new_leaf_page_id(new_leaf_page的id)

  6. 将ki插到parent_page中。(即插到parent_page的index为n的地方)

分裂后parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<ki, new_page_id>、<kn, vn> 、<kn+1, vn+1>…

由于new_leaf_page中index为0处key还是有效的,所以,leaf page的分裂中,分裂点ki是复制并上移的。

对于internal page的分裂

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>…

要分裂page_id为vn-1的internal_page,流程如下:

  1. 以internal_page的1/2处的kv作为分裂点,假设为<ki, vi>

  2. 将internal_page节点中,索引为i(包括i)之后的所有的entry移动到new_internal_page(index从0开始)中。

  3. 左孩子为vn-1(internal_page的id),key为ki,右孩子为new_internal_page_id(new_internal_page的id)

  4. 将ki插到parent_page中。(即插到parent_page的index为n的地方)

分裂后parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<ki, new_page_id>、<kn, vn> 、<kn+1, vn+1>…

注意和leaf_page分裂时的区别。

由于new_internal_page中index为0处key是无效的,所以,internal page的分裂中,分裂点ki是上移的。

官方提供的插入伪代码:

插入伪代码1

插入伪代码2

Gradescope测试

关于3个Fail的解释

这三个是关于代码规范的测试,所以没有通过。

gradescope测试

B+树-删除

删除也是先调用FindPath记录并锁住沿路的page,然后自下而上迭代操作。

删除比较麻烦,需要考虑的情况比较多,但是一步一步,理清思路还是很好实现的。按规律来说,不能拆借就一定能合并,反之亦然。至于拆借和合并的时机,本文不过多赘述。

对于leaf page的拆借与合并

向left sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page向left sibling借其最右端的entry,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。移除并获得其最右端的entryi,假设为<ki, vi>

  2. 根据上面的[约定1],将parent_page中的entryn-1(<kn-1, vn-1>)中的key更新为:ki。

  3. 将<ki, vi>插到page_id为vn-1的leaf page最前方。

向left sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

向left sibling合并

我实现的合并,以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page和left sibling合并,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。

  2. 将leaf_page所有的entry都追加到left_sibling中去。

  3. 将leaf_page的next_page_id赋值给left sibling的next_page_id。

  4. 删除parent_page中index为n-1的entry。

和left sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn, vn> 、<kn+1, vn+1>、…

向right sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page向right sibling借其最左端的entry,流程如下:

  1. 找到right sibling的page_id假设中是vn。移除并获得其最左端的entryi,假设为<ki, vi>,为方便将entryi的下一个entry设为entryi+1<ki+1, vi+1>。

  2. 根据上面的[约定1],将parent_page中的entryn(<kn, vn>)中的key更新为:ki+1。

  3. 将<ki, vi>插到page_id为vn-1的leaf page最后方。

向right sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<ki+1, vn> 、<kn+1, vn+1>、…

向right sibling合并

还是以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page和right sibling合并,流程如下:

  1. 找到right sibling的page_id假设中是vn。

  2. 将right_sibling所有的entry都追加到leaf_page中去。

  3. 将right_sibling的next_page_id赋值给leaf_page的next_page_id。

  4. 删除parent_page中index为n的entry。

和right sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn+1, vn+1>、…

对于internal page的拆借与合并

向left sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page向left sibling借其最右端的entry,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。移除并获得其最右端的entryi,假设为<ki, vi>

  2. 根据上面的[约定1],parent_page的key更新如下:

    • entryn-1(<kn-1, vn-1>) -> entryn-1(<ki, vn-1>)
    • entryi(<ki, vi>) -> entryi(<kn-1, vi>)(描述成<vi, kn-1>更合适)
  3. 将<kn-1, vi>按kv关系插到page_id为vn-1的internal page最前方。

向left sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

向left sibling合并

以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page和left sibling合并,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。

  2. 将internal_page所有的entry(包括index为0,尽管key是无效的)都追加到left_sibling中去。

  3. 在left sibling中找到原来internal_page中index为0的entry(其key是无效key),将kn-1设为其key。

  4. 删除parent_page中index为n-1的entry。

和left sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn, vn> 、<kn+1, vn+1>、…

向right sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page向right sibling借其最左端的entry,流程如下:

  1. 找到right sibling的page_id假设中是vn。取right sibling的entry0的value,以及entry1的key,组成entryi,假设为<k1, v0>。(描述成<v0, k1>更合适)

  2. 根据上面的[约定1],parent_page的key更新如下:

    • entryn(<kn, vn>) -> entryn(<k1, vn>)
    • entryi(<k1, v0>) -> entryi(<kn, v0>)
  3. 将<k1, v0>插到page_id为vn-1的internal page最后方。

向right sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<k1, vn> 、<kn+1, vn+1>、…

向right sibling合并

还是以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page和right sibling合并,流程如下:

  1. 找到right sibling的page_id假设中是vn。

  2. 将right_sibling所有的entry(包括index为0,尽管key是无效的)都追加到internal_page中去。

  3. 在internal_page中找到原来right_sibling中index为0的entry(其key是无效key),将kn设为其key。

  4. 删除parent_page中index为n的entry。

和right sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn+1, vn+1>、…

官方提供的删除伪代码如下:

删除伪代码

Gradescope测试

关于3个Fail的解释

这三个是关于代码规范的测试,所以没有通过。

gradescope测试

大总结

p1+p2两个lab,大概花了10天,效率还是比较满意的。后面还剩两个project。目前核心在春招,所以准备放一放了。

CMU15445的lab做的还是爽的,就调试而言,起码比6.824的lab友好很多了。


本章完结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/494140.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习:微模型过度拟合】微模型简介或:我如何学会停止担忧并热爱过度拟合

【深度学习&#xff1a;微模型过度拟合】微模型简介或&#xff1a;我如何学会停止担忧并热爱过度拟合 起源微模型到底是什么&#xff1f;一维标记蝙蝠侠效率额外的好处面向数据的编程 这篇文章的目的是介绍我们在 Encord 中用于自动化数据注释的“微模型”方法。我们已将这种方…

测试环境搭建整套大数据系统(七:集群搭建kafka(2.13)+flink(1.14)+dinky+hudi)

一&#xff1a;搭建kafka。 1. 三台机器执行以下命令。 cd /opt wget wget https://dlcdn.apache.org/kafka/3.6.1/kafka_2.13-3.6.1.tgz tar zxvf kafka_2.13-3.6.1.tgz cd kafka_2.13-3.6.1/config vim server.properties修改以下俩内容 1.三台机器分别给予各自的broker_id…

【nvm】下载安装及使用(包含windows和Linux)

目录 1、Windows版本下载及安装 2、Linux下载及安装 下载 安装 3、使用 4、附加 在不借助第三方工具的情况下切换node版本&#xff0c;只能卸载现有版本&#xff0c;安装需要的版本&#xff0c;这样显然很麻烦。而nvm就很好的帮我们解决了这个问题。 nvm&#xff08;nod…

GEE数据集——全球 30 米不透水表面动态数据集 (GISD30)

全球 30 米不透水表面动态数据集 (GISD30) 全球 30 米不透水表面动态数据集 (GISD30) 为了解 1985 年至 2020 年全球不断变化的不透水表面景观提供了宝贵的资源。该数据集在城市可持续发展、人为碳排放评估和全球生态环境建模等领域具有深远的科学意义和实际应用价值。GISD30 是…

全域增长方法论:帮助品牌实现科学经营,助力长效生意增长

前两年由于疫情反复、供给需求收缩等条件制约&#xff0c;品牌业务均受到不同程度的影响。以双十一和618电商大促为例&#xff0c;就相比往年颇显“惨淡”&#xff0c;大多品牌营销都无法达到理想预期。 随着市场环境不断开放&#xff0c;2023年营销行业开始从低迷期走上了高速…

vue2、vue3各自的响应式原理

查看本专栏目录 关于作者 还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#x…

Anaconda和TensorFlow环境搭建!!

Anaconda下载 进入官网下载 https://www.anaconda.com/download 也可以通过清华的映像站下载&#xff1a; https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 我这里下载的是3.4.20版本。下载好就可以安装默认安装就行。 打开Anaconda Prompt修改成国内镜像 conda c…

【Python如何求出100以内的所有质数】

1、求质数Python代码如下&#xff1a; # 求100以内的所有质数&#xff1a;质数&#xff08;prime number&#xff09;又称素数&#xff0c;有无限个。 # 质数定义&#xff1a;在大于1的自然数中&#xff0c;除了1和它本身以外不再有其他因数的数称为质数&#xff0c;如&#x…

掌握ChatGPT润色绝技:什么是人工智能写作以及如何使用它来完成写作任务

如对AI写论文感兴趣&#xff0c;欢迎添加作者wx讨论 : ryan_2982 人工智能 (AI) 的出现开创了技术进步的新时代&#xff0c;彻底改变了包括写作和内容创作在内的各个行业。人工智能写作和人工智能提示已成为可以简化和增强写作任务的强大工具。在这篇博文中&#xff0c;我们将…

Python实现自动检测设备连通性并发送告警到企业微信

背景&#xff1a;门禁机器使用的WiFi连接&#xff0c;因为某些原因会不定期自动断开连接&#xff0c;需要人工及时干预&#xff0c;以免影响门禁数据同步&#xff0c;故写此脚本&#xff0c;定时检测门禁网络联通性。 #首次使用要安装tcping模块 pip install tcpingfrom tcpin…

使用R语言进行多元线性回归分析-多重共线的诊断

一、数据集 序号X1x2x3x4Y序号X1x2x3X4Y12666078.57831224472.51229155274.31954182293.12356850104.3111047426115.92143184787.6111140233483.8155263395.971266912113.311655922109.2111368812109.410771176102.73       1、从中选取主要变量&#xff0c;建立与因变…

apachectl: line 79: 20233 Segmentation fault (core dumped) $HTTPD “$@“

[TOC](apachectl: line 79: 20233 Segmentation fault (core dumped) $HTTPD “$”) 1、问题描述 apache 启动报错 apachectl: line 79: 20233 Segmentation fault (core dumped) $HTTPD “$” 2、问题分析 参考链接: https://stackoverflow.com/questions/43726930/apache…