【数据库】数据库物理执行计划最基本操作-表扫描机制与可选路径,基于代价的评估模型以及模型参数的含义

物理执行计划基本操作符

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 物理执行计划基本操作符
  • 前言
  • 概述
  • 扫描表
    • 顺序扫描
    • 索引扫描
  • 排序扫描
  • 代价计算模型
    • 计算参数
  • 总结
  • 结尾

在这里插入图片描述

前言

随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。

因此,本专栏的分享希望可以提高大家对数据库理论的认识和理解,对于感兴趣的朋友带来帮助。

概述

数据库执行计划的最后一步,是生成物理执行计划,物理执行计划是由一系列操作节点构成。其中最基本的操作符扫描表,一般都是执行计划的叶子节点。

本文主要分享物理执行计划的最基本操作扫描表,扫描表时排序,以及它的代价计划模型和估算,希望大家得到启示,感谢各位的浏览和点赞。

扫描表

SQL执行的目的都是要从表里拿到想要的数据,一般对于扫描表的节点,都会含有一个谓词,符合谓词的数据都会被返回。

表对应的数据块,一般都会存放在内存缓冲区中,扫描表时可以一个接一个的找到。扫描表时,可以有多种方法可以选择,比如顺序扫描,索引扫描,仅索引扫描。

顺序扫描

最常见的就是顺序扫描,顾名思义,就是从表的第一个数据块开始,每个数据块从第一个元组开始扫描,直到这个块的结尾,然后继续下一个块,直到所有表的数据块扫描结束。

索引扫描

对于表上建有索引的情况,正好谓词对应字段有索引,那么可以使用索引,避免顺序遍历表的所有数据块。索引的数据也是存放在内存缓存区中,遍历索引文件的所有数据块,扫描索引数据块上的索引元组。

如果是密集索引,就可以直接找到符合谓词的元组在表中的数据块上的位置,然后直接访问对应的表数据块,从该块的offset处读取元组。

如果是稀疏索引,通过索引定位到表的某个位置,还需要继续从此位置扫描表,直到找到符合谓词的元组。

直到索引文件的所有数据块扫描结束,整个扫描就会结束。通常索引文件相比表文件来说,小非常多。

对于查询结查字段,只有索引字段时,此时只用扫描密集索引文件,就可以得到元组字段,不需要扫描表文件,这就是仅索引扫描,当然实际应用中,会有事务隔离的处理,并不是所有情况下密集索引都能使用仅索引扫描。

排序扫描

对于含有order by子句的查询来说,扫描表的结果需要以排序的方式返回,另外还有一些关系代数的运算,需要基于排序的结果,所以这就用到了排序-扫描方式。

排序扫描节点的输入是要扫描的表,和排序字段的说明,在物理执行计划中有很多方式选择。

  • 对于排序字段上含有索引,而且是索引是带有顺序,如Btree索引,或者表数据的存储是按排序字段的顺序存储的;此时只进行表扫描或索引扫描即可;

  • 对于比较小的表,查询结果全部可以装入缓冲区,那么可以用常用的排序算法进行排序即可;

  • 对于非常大的表,查询结果并不能全部装入缓冲区时,就需要使用外排,通过几趟读写的算法才能完成排序,后面分享多路归并算法;

代价计算模型

在将逻辑查询计划转换为物理查询计划时,我们需要选择执行效率比较高的物理操作符进行执行,也可以说是选择最优执行路径。当出现几种执行路径时,如顺序扫描,索引扫描,路径选择时,首先对每种操作符的执行代价进行评估,才能选出最优的路径。

这是一种基于代价的选择最优路径的模式,按什么模型来计算操作符的代价呢,下面我们一起看看。

可用的缓冲区都是有限的,数据一般都会存储在磁盘上,当使用到时会加载到缓冲区,缓冲区满时也会利用替换策略,将暂时不用的数据置换到磁盘上。

那么在查询的过程中,读写磁盘的IO次数会是代价的一个衡量值。同时磁盘的读写IO耗时远远大于内存中的操作,所以磁盘代价将占查询成本的大部分,这样就可以简化操作符的代价计算为磁盘IO次数的计算。

基于代价的计算模型就生成了,下面我们看有那些参数来计算。

计算参数

  • 缓冲区大小(M), 我们假设可用的缓冲区能容纳的数据块为M,缓冲区是远远小于物理内存大小的;
  • 表占用的数据块数量(B), 当我们扫描表时,需要一个数据块一个数块的读出,这就和表文件所占数据块的多少有关系了,假设表占用了B个数据块,那么最多也就会产生B次IO;
  • 表的元组数量(T), 表中所有元组的数量T/B,就得到了每个数据块上的平均元组数量,最差情况是元组数量与块数相同;
  • 查询列对应的值数量,假如查询列为货物类型,那么它对应的就是有限类型;最差情况是与元组数量相等;

以上参数值的不同,都会影响我们查询处理时,磁盘IO的数目,后面会继续分享在扫描算法中的应用。

总结

物理执行计划的最基本节点就是扫描表,实际扫描表中有多种方式可以选择,通过代价计算模型可以选择最优路径最终执行。

有菜也有肉的分享,下面插一段hello world的代码;
以下是一个简单的 “Hello world”,在初始化函数中输出,在main之前会被调用:

#include <stdio.h>  __attribute((constructor))  void premain() {  printf("Hello, World!\n");  
}  int main() {  return 0;  
}

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/217084.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css三角,鼠标样式,溢出文字

目录 css三角 鼠标样式 例子&#xff1a;页码模块 溢出文字表示方式 margin负值运用 css三角强化 css三角 css三角中&#xff1a;line-height&#xff1a;0和font-size&#xff1a;0是防止兼容性的问题 jd {position: relative;width: 120px;height: 249px;background-…

斐讯K2结合Padavan实现锐捷认证破解方法

前言 众所周知&#xff0c;校园网在传统模式下是不能直接插路由使用的&#xff0c;但苦于校园网只能连接一台设备的烦恼&#xff0c;不得不“另辟蹊径”来寻求新的解决路径&#xff0c;这不&#xff0c;它来了&#xff0c;它来了&#xff0c;它带着希望走来了。 本文基于斐讯…

电子学会C/C++编程等级考试2021年09月(二级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:字符统计 给定一个由a-z这26个字符组成的字符串,统计其中哪个字符出现的次数最多。输入 输入包含一行,一个字符串,长度不超过1000。输出 输出一行,包括出现次数最多的字符和该字符出现的次数,中间以一个空格分开。如果有多…

前缀和——238. 除自身以外数组的乘积

文章目录 &#x1f377;1. 题目&#x1f378;2. 算法原理&#x1f365;解法一&#xff1a;暴力求解&#x1f365;解法二&#xff1a;前缀和&#xff08;积&#xff09; &#x1f379;3. 代码实现 &#x1f377;1. 题目 题目链接&#xff1a;238. 除自身以外数组的乘积 - 力扣&a…

34970A 数据采集 / 数据记录仪开关单元

34970A 数据采集 / 数据记录仪开关单元 产品综述&#xff1a; Keysight 34970A 数据采集/数据记录仪开关单元由一个 3 插槽主机和一个内置的 6 1/2 位数字万用表组成。每个通道可以单独配置&#xff0c;以测量 11 种不同功能之一&#xff0c;这样既不会增加成本&#xff0c;也…

ubuntu挂载硬盘方法

1.关闭服务器加上新硬盘 2.启动服务器&#xff0c;以root用户登录 3.查看硬盘信息 fdisk -l4.格式化分区 找到需要分区的目录,并记录分区的uuid&#xff0c;用于后面修改/etc/fstab永久挂载配置文件 mkfs.ext4 /dev/nvme0n1 mkfs.ext4 /dev/nvme1n1 Filesystem UUID: a1c…

zookeeper 单机伪集群搭建简单记录

1、官方下载加压后&#xff0c;根目录下新建data和log目录&#xff0c;然后分别拷贝两份&#xff0c;分别放到D盘&#xff0c;E盘&#xff0c;F盘 2、data目录下面新建myid文件&#xff0c;文件内容分别为1&#xff0c;2&#xff0c;3.注意文件没有后缀&#xff0c;不能是txt文…

FreeRTOS学习之路,以STM32F103C8T6为实验MCU(2-4:内核控制与时间管理函数)

学习之路主要为FreeRTOS操作系统在STM32F103&#xff08;STM32F103C8T6&#xff09;上的运用&#xff0c;采用的是标准库编程的方式&#xff0c;使用的IDE为KEIL5。 注意&#xff01;&#xff01;&#xff01;本学习之路可以通过购买STM32最小系统板以及部分配件的方式进行学习…

怎样禁止邮件发送涉密信息

数字化时代&#xff0c;电子邮件已成为人们生活和工作中不可或缺的通讯工具。然而&#xff0c;随着互联网的普及&#xff0c;涉密信息的泄露风险也随之增加。为了保护敏感数据&#xff0c;禁止邮件发送涉密信息显得尤为重要。以下是一些建议&#xff0c;帮助你实现这一目标。 1…

「最优化基础知识2」一维搜索,以及python代码

最优化基础知识&#xff08;2&#xff09; 无约束优化问题&#xff0c;一维搜索 一、一维搜索 一维搜索的意思是在一个方向上找到最小点。 用数学语言描述&#xff0c;X*Xk tPk&#xff0c;从Xk沿着Pk方向行走t到达最小点X*。 1、收敛速度&#xff1a; 线性收敛&#xff1…

ubuntu 使用webrtc_ros 编译linux webrtc库

ubuntu 使用webrtc_ros 编译linux webrtc库 webrtc_ros 使用WebRTC流式传输ROS图像主题 该节点提供了一个WebRTC对等方&#xff0c;可以将其配置为流ROS图像主题并接收发布到ROS图像主题的流。 该节点托管一个提供简单测试页面的Web服务器&#xff0c;并提供可用于创建和配置W…

Unity技美35——再URP管线环境下,配置post后期效果插件(post processing)

前两年在我的unity文章第10篇写过&#xff0c;后效滤镜的使用&#xff0c;那时候大部分项目用的还是unity的基础管线&#xff0c;stander管线。 但是现在随着unity的发展&#xff0c;大部分项目都用了URO管线&#xff0c;甚至很多PC端用的都是高效果的HDRP管线&#xff0c;这就…