cmu15545-数据存储(Database Storage)-编程知识

cmu15545-数据存储(Database Storage)

news/2025/2/21 3:00:30/文章来源:https://www.cnblogs.com/timothy020/p/18534892

蓝图

数据库自己管理磁盘数据和缓冲区，而不是通过操作系统管理（Os is not your friend.）。

三层视图

数据库以页（page）为存储数据的基本单位，文件（file）是一系列页的集合，页中存储页数据（data），形成文件-页-数据三层架构。

文件有不同的组织形式，页包含页头和页数据，页数据可以采用不同方式组织：元组，日志，索引。

黄色部分为课程会提及的内容。

采用Heapfile进行文件存储时的执行图：

页目录：存储管理的页的元信息（空闲页，空页）
页头：存储页的元信息（页大小，校验和，数据库版本，事务可见性，压缩元数据）

面向元组的数据存储

通过<FileId, PageId, Slot>定位到一个指向tuple的指针（磁盘地址），然后找到tuple。
slot指针的灵活性：内部元组位置变化时，外部无感知；指针可以指向其他页，可以存储大数据（文件，大文本）；支持变长记录。
数据库会为每个元组分配一个数据记录的唯一标识（record identifier），来表示元组的物理位置。SQLite和Oracle中为ROWID，Pg中是CTID，<PageId, Slot>。但是他们对于应用程序是无用的。

Header包含：可见性信息；NULL Bit Map。
Data包含：行数据。

Tuple只是一个字符串（char[]），本身不存储类型信息，类型信息存在数据库的System Catalogs中。（为了保证数据紧凑；非自解释的）

存数据时会遇到的问题：

数据对齐：填充，重排序

精确值问题：BIGDECIMAL（转为字符串存储）

空值：Bit Map；特殊值
大值和文件：Overflow Page和External File。

大值采用溢出页；大文件可以采用溢出页，也可以用外部文件系统存储，然后存储一个指向文件路径的指针，而不是直接存储文件内容（Oracle:BFILE, Microsoft: FILESTREAM）。

日志结构存储

基本概念：

利写不利读，非原地更新：只有PUT和DELETE操作，顺序IO。查询时由最新到最老时查询日志。
加速查询：索引。

加速查询：日志压缩，且压缩时会排序日志。
压缩方式：层级压缩，统一压缩

特点	Level Compaction	Universal Compaction
层级结构	有多层级，L0、L1、L2 等	无层级结构，所有文件在同一级别
文件组织方式	每个层级内文件不重叠，跨层逐渐下推	基于文件大小和数量合并，文件可能有重叠
合并策略	层级压缩，按顺序下推合并	文件数量和大小超过阈值时触发合并
写放大	较高，因为需要不断下推文件至更低层级	较低，因为减少频繁合并
读放大	较低，因为相同键在每层只存在一次	较高，因为没有严格层级，需检查多个文件
适用场景	读多写少的场景	写多读少、实时数据的高写入场景

索引组织存储

直接用索引组织数据，数据挂在叶子结点上，Page内部的tuple有序。

SQLite和MySQL默认用这种方式组织数据，Oracle和SQL Server可选。

和基于元组的存储对比：

特性	Index-Organized Storage	Tuple-Oriented Storage
数据与索引存储	数据存储在主键索引结构中	数据和索引独立存储
数据排序	数据按照主键顺序排序	数据无序存储
主键查询性能	高效，因数据已按主键排序	依赖主键索引，但数据本身无序
插入和更新性能	插入和更新时可能需要索引重排，较慢	插入和更新较快，无需主键排序
适用场景	主键查询频繁，数据顺序性强的场景	多种查询模式，插入和更新频繁的场景

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/828791.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

mysql分区表占用大量容量处理（优化）及归档分区表

背景生产环境中，某个分区表两三年了，占用磁盘1T多，需要对前几年的数据做归档点击查看代码 SELECTtable_schema as 数据库,table_name as 表名,table_rows as 记录数,truncate(data_length/1024/1024, 2) as 数据容量(MB),truncate(index_length/1024/1024, 2) as 索引容量(…

深入理解Java虚拟机 --- 类加载机制

类的生命周期类的生命周期：加载→验证→准备→解析→初始化→使用→卸载类加载的时机关于在什么情况下需要需要开始类加载过程的第一个阶段"加载"，虚拟机并没有进行强制约束，这点交给虚拟机的具体实现来自由把握。但严格规定了有且只有六种情况必须立即对类进…

深入理解Java虚拟机 --- 垃圾标记/收集算法

在开始本章之前，我们得了解一个概念，那就是我们怎么知道这个对象是"垃圾"？所以如何定义垃圾就成为我们第一个需要探讨的重要的点之一。垃圾标记算法常见的垃圾标记算法有：引用计数算法和可达性分析算法。引用计数算法实现思路每个对象去额外存储一个引用计数…

深入理解Java虚拟机 --- 垃圾回收器

Serial收集器 HotSpot虚拟机运行在客户端模式下的默认新生代收集器。类型：单线程串行垃圾回收器垃圾收集算法：复制算法作用区域：新生代特点： 1、只会用单个线程去完成垃圾收集工作，用户线程会STW，直到收集结束。 2、没有线程交互，专心做垃圾收集，获得最高的单线程收…

【补档】玄武550电源怎么样？ - 约呼的回答 - 知乎

【补档】玄武550电源怎么样？ - 约呼的回答 - 知乎约呼一个路过的图吧用户低预算整机非常推荐，高预算慎选。低预算整机非常推荐，高预算慎选。优点不少，缺点也有。先说优点：价格上来说便宜大碗，用料不错，部分型号反向虚标，比如550v4其实是按650w规格用料来做的，拆…

打造吸睛开场白：六招教你瞬间抓住客户心弦

开场白是在初次接触客户的头30秒至1分钟时间内，销售人员用以吸引目标客户注意力的简短言辞，通常涵盖前几句关键对话。为了设计出一个引人入胜的开场白，以下策略值得尝试：赞美客户赞美是人际交往中的润滑剂，恰当的赞美能迅速引起客户的关注。可以从客户的外观、着装、气质…

MM--项目中遇到的一些问题记录

采购订单: 创建采购订单时,供应商对应的信息记录已失效,但是切换供应商之后价格不会自动更新成0 1.SU01-查看用户对应的采购缺省值2.SPRO-维护采购缺省值采购订单收货的时候,提示无符合条件的行项目经打断点发现是由于程序中判断时公司间的内部交易所导致的,根本原因是因为采…

前言安装环境：Windows10+SonarQube 9.9.7 LTA Community Edition+jdk17+PostgreSQL 16.4+SonarScanner for .NET 9.0.1 在安装SonarQube 前需要搭建好jdk环境，这里我用的版本是jdk17，之前用过jdk1.8、jdk11和jdk21都失败了。还需提前安装第三方数据库，我用的是PostgreSQL …