数据库索引及优化

数据库索引及优化

什么是索引?
MySQL官方对索引的定义为:索引(INDEX)是帮助MySQL高效获取数据的数据结构。
索引的本质: 数据结构

为什么要引入索引?
引入索引的目的在于提高查询效率,就好像是字典一样,如果要查”mysql“这个单词,我们肯定要定位到m字母,然后从上往下找y字母,再找到剩下的sql。
如果没有索引,那么你可能需要a-z进行全表扫描,会非常慢,当数据量少的时候适用,数据量大的时候不适用,因此很多情况下我们要避免全表扫描的发生。
所以我们需要映入更高效的机制—索引。
我们可以简单理解为:排好序的快速查找结构。

图书馆借书就是索引很好的例子,先去图书馆电脑上查找书的位置可以理解为索引,就可以直接去找到对应位置的图书。
在这里插入图片描述
在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。
一般来说索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储在磁盘上。

索引的优缺点:
优点:

1.类似大学图书馆建书目索引,提高数据检索的效率,降低数据库的IO成本(不需要全表扫描)
2.通过索引对数据进行排序,降低数据排序的成本,降低了CPU的消耗
缺点:
1.实际上索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录,所以索引也是要占空间的。
2.虽然索引大大提高了查询速度,同时却会降低更新表的速度,如对表进行INSERT、UPDATE和DELETE。因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件
3.每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息
4.索引只提高效率的一个因素,如果你的MySQL有大量数据的表,就需要花时间研究建立最优秀的索引,或优化查询语句,索引都是不停的根据业务场景不停试验修改调整。 如:index(name) index(name,age,gender)在搜索的时候不是根据name来搜索

MySQL索引
MySQL目前主要有以下几种索引类型:
1.普通索引 key
2.唯一索引 unique key
3.主键索引 primary key
4.组合索引 index(name,age,gender)
5.全文索引

MySQL的索引结构包含有:
BTree索引
Hash索引
full-text全文索引
R-Tree索引

我们平常说的索引,如果没有特别指明,都是指B+树结构组织的索引
InnoDB存储引擎中的B+树索引。要介绍B+树索引,就不得不提二叉搜索树,平衡查找树和B树这三种数据结构。B+树就是从他们仨演化来的。
在这里插入图片描述
二叉查找树:
在这里插入图片描述
我们为user表(用户信息表)建立了一个二叉查找树的索引
二叉查找树的特点就是任何节点的左子节点的键值都小于当前节点的键值,右子节点的键值都大于当前节点的键值。顶端节点我们称为根节点,没有子节点的节点我们称之为叶节点。

如果我们需要查找id=12的用户信息,利用我们创建的二叉查找树索引,查找流程如下:
1.将根节点作为当前节点,把12与当前节点的键值10比较,12大于10,接下来我们把节点>10的右子节点作为当前节点。
2.继续把12和当前节点的键值13比较,发现12小于13,把当前节点的左子节点作为当前节点。
3.把12和当前节点的键值12对比,12等于12,满足条件,我们从当前节点中取出data,即id=12,name=xm。

平衡二叉树:
在这里插入图片描述
这个时候可以看到我们的二叉查找树变成了一个链表。如果我们需要查找id=17的用户信息,我们需要查找7次,也就相当于全表扫描了。导致这个现象的原因其实是二叉查找树变得不平衡了,就是高度太高了,从而导致查找效率的不稳定。
为了解决这个问题,我们需要保证二叉查找树一直保持平衡,就需要用到平衡二叉树了。平衡二叉树又称AVL树,在满足二叉查找树的特性的基础上,要求每个节点的左右子树的高度差不能超过1.
下面是平衡二叉树和非平衡二叉树的对比:
在这里插入图片描述
平衡二叉树保证了树的构造是平衡的,当我们插入或删除数据导致不满足平衡二叉树不平衡时,平衡二叉树会进行调整书上的节点来保持平衡。

B树:
因为内存的易失性。一般情况下,我们都会选择将user表中的数据和索引存储在磁盘这种外围设备中。但是和内存相比,从磁盘中读取数据的速度会慢上上百倍千倍甚至万倍,所以我们应当尽量减少从磁盘中读取数据的次数。
如果我们用树这种数据结构作为索引的数据结构,那我们每查找一次数据就需要从磁盘中读取一个节点,也就是我们说的一个磁盘块。我么都知道平衡二叉树可是每个节点只存储一个键值和数据的。那说明什么?说明每个磁盘块仅仅存储一个键值和数据!那如果我们要存储海量的数据呢?
可以想象到二叉树的节点会非常多,高度也会及其高,我们查找数据时也会进行很多次磁盘IO,我们查找数据的效率将会极低!
在这里插入图片描述
为了解决平衡二叉树这个弊端,我们因该寻找一种单个节点可以存储多个键值和数据的平衡树。也就是我们接下来要说的B树。B树(Balance Tree)即为平衡树的意思,下图即为一棵B树:
在这里插入图片描述
根节点的p1只想<17的节点,p2指向<17 <35节点,p3指向>35节点。
从上图可以看出,B树相对于平衡二叉树每个节点存储了更多的键值(key)和数据(data),并且每个节点拥有更多的子节点,子节点的个数一般称为阶,上述图中的B树为3阶B树,高度也会很低。基于这个特性,B树查找数据读取磁盘的次数将会很少,数据的查找也会比平衡二叉树高很多。

假如我们要查找 id=28 的用户信息,那么我们在上图 B 树中查找的流程如下:
1、先找到根节点也就是页1(磁盘加载到内存,此时发生一次IO),判断 28 在键值 17 和 35 之间,那么我们根据页1中的指针 p2 找到页3了
2、将 28 和页 3(磁盘加载到内存,此时发生一次IO) 中的键值相比较,28 在 26 和 30 之间,我们根据页3中的指针 p2 找到页 8(磁盘加载到内存,此时发生一次IO)。
3、将 28 和页 8 中的键值相比较,发现有匹配的键值 28,键值 28 对应的用户信息为(28,bv)
共只要进行三次IO就行。

B+树:
B+ 树是对 B 树的进一步优化。让我们先来看下 B+ 树的结构图:
B+树是一个平衡的多叉树,从根节点到每个叶子节点的高度差值不超过1,而且同层级的节点间有指针相互链接
在这里插入图片描述
真实的情况是,3层的b+树可以表示上百万的数据,如果上百万的数据查找只需要三次IO,性能提高将是巨大的IO,如果没有索引,每个数据项都要发生一次IO,那么总共需要百万次的IO,显然成本非常非常高。
根据上图我们来看下 B+ 树和 B 树有什么不同:
①B+ 树非叶子节点上是不存储数据的,仅存储键值,而 B 树节点中不仅存储键值,也会存储数据。
之所以这么做是因为在数据库中页的大小是固定的,InnoDB 中页的默认大小是 16KB。
如果不存储数据,那么就会存储更多的键值,相应的树的阶数(节点的子节点树)就会更大,树就会更矮更胖,如此一来我们査找数据进行磁盘的IO 次数又会再次减少,数据查询的效率也会更快。
假设每一页存数据可以存储100条,非叶子节点可以存储1000键值
如果B+树只有1层,也就是只有1个用于存放用户记录的节点,最多能存放100条记录。
如果B+树有2层,最多能存放 1000 x100 =100000 条记录:
如果B+树有3层,最多能存放 1000 x1000x100 =100000000 条记录。
如果B+树有4层,最多能存放 1000 x1000x1000x100 =1000,0000.0000 条记录。相当多的记录!!!
一般根节点是常驻内存的,所以一般我们查找1亿数据,只需要2次磁盘IO。
②因为 B+ 树索引的所有数据均存储在叶子节点,而且数据是按照顺序排列的,
通过上图可以看到,在 lnnoD8 中,我们通过数据页之间通过双向链表连接以及叶子节点中数据之间通过单向链表连接的方式可以找到表中所有的数据。

二又树
二分查找->二插排序树(斜树)->平衡二叉树->红黑树->B树(多插平衡树)->B+树
最终让这个树:更矮更胖,减少查找的次数(减少10次数),
因为查找的次数和树的高度是相关的,数据库表的索引是放到硬盘上的,如果树的高度太高那么IO次数就会变多。

哈希索引(Hash索引):
哈希索引就是采用一定的哈希算法,把键值换算成新的哈希值,检索时不需要类似B+树那样从根节点到叶子节点逐级査找,只需一次哈希算法即可立刻定位
到相应的位置,速度非常快。
散列表(Hash table,也叫哈希表)它通过把关键码值映射到表中一个位置来访问记录,以加快査找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表。
给定表M,存在函数f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数
f(key)为哈希(Hash)函数

通常用的处理冲突的方法:
链地址法:
将所有产生冲突的关键字所对应的数据全部存储在同一个线性链表中。
例如有一组关键字为{19,14,23,01,68,20,84,27,55,11,10,79},其哈希函数为:H(KeV)=Key MOD13(取余操作可以实现分组,将数据分成了13组),使
用链地址法所构建的哈希表如图 3 所示:
在这里插入图片描述
在这里插入图片描述
聚集索引 VS 非聚集索引:
在 MySQL中,B+ 树索引按照存储方式的不同分为聚集索引和非聚集索引。
**1.聚集索引(聚簇索引):以 InnoDB 作为存储引擎的表,表中的数据都会有一个主键,即使你不创建主键,系统也会帮你创建一个隐式的主键。*这是因为 InnoDB 是把数据存放在 B+ 树中的,而 B+ 树的键值就是主键,在 B+ 树的叶子节点中,存储了表中所有的教据。
这种以主键作为 B+ 树索引的键值而构建的 B+ 树索引,我们称之为聚集索引。
②非聚集索引(非聚簇索引):以主键以外的列值作为键值构建的 B+ 树索引,我们称之为非聚集索引。
覆盖索引(Covering Index),也可以称为索引覆盖:
就是select的数据列只需要从索引中就能够取得,不必从数据表中读取。换句话说查询列要被所建的索引覆盖。
建立了索引index(col1,col2,clo3),查询时候没有使用select
,也没有用select col1,col2,clo3,col4,col5,而是使用select col1,col2,co3,查询列要被所建的索引覆盖。
当一条查询语句符合覆盖索引条件时,sql只需要通过索引就可以返回査询所需要的数据,这样避免了査到索引后再返回数据表操作(回表),减少I/O提高效率。

在执行CREATE TABLE语句时可以创建索引,也可以单独用CREATE INDEX或ALTER TABLE来为表增加索引。
1.ALTER TABLE
ALTER TABLE用来创建普通索引、UNIQUE索引或PRIMARY KEY索引。

ALTER TABLE table_name ADD INDEX index_name (column_list)
ALTER TABLE table_name ADD UNIQUE (column_list)
ALTER TABLE table_name ADD PRIMARY KEY(column_list)

说明:其中table_name是要增加索引的表名,column_list指出对哪些列进行索引,多列时各列之间用逗号分隔。索引名index_name可选,缺省时,MySQL将根据第一个索引列赋一个名称,另外,ALTER TABLE允许在单个语句中更改多个表,因此可以在同时创建多个索引。

2.CREATE INDEX
CREATE INDEX可对表增加普通索引或UNIQUE索引

CREATE INDEX index_name ON table_name (column_list)
CREATE UNIQUE INDEX index_name ON table_name (column_list)

说明:table_name、inadex_name和column_list具有ALTER TABLE语句中相同的含义。另外,不能用CREATE INDEX语句创建PRIMARY KEY索引

3.删除索引
可利用ALTER TABLE或DROP INDEX语句来删除索引。类似于CREATE INDEX语句来删除索引。类似于CREATE INDEX语句,DROP INDEX可以在ALTER TABLE内部作为一条语句处理,语法如下。

DROP INDEX index_name ON table_name
ALTER TABLE table_name DROP INDEX index_name
ALTER TABLE table_name DROP PRIMARY KEY

其中,前两条语句是等价的,删除table_name中的索引index_name.
第三条语句只在删除PRIMARY KEY索引时使用,因为一个表只可能有一个PRIMARY KEY索引,因此不需要指定索引名。如果没有创建PRIMARY KEY索引,但表有一个或多个UNIQUE索引,则MySQL将删除第一个UNIQUE索引。
如果从表中删除了某列,则索引会受影响。对于多列组合的索引,如果删除其中的某列,则该列也会从索引中删除。如果删除组成索引的所有列,则整个列将被删除。

4.查看索引

mysql>show index from tblname
mysql>show keys from tblname

索引的使用场景 索引优化、sql优化

需要创建索引的情况
1、主键自动建立唯一索引 Primary Key = Unigue Key + Not Null
2、频繁作为査询条件的字段应该创建索引(银行系统的银行账号、电信系统的手机号、电商系統商品名字)
3、查询中与其它表关联的字段,外键关系建立索引
4、查询中排序的字段,排序字段若通过索引去访问将大大提高排序速度
5、直询中统计或者分组字段
6、单值/组合索引的选择问题:在高并发下倾向创建组合索 index(name,age,gender)

不需要创建索引的情况
1、表记录太少
经常增删改的表:提高了查询速度,同时却会降低更新表的速度,如对表进行INSERT、UPDATE和DELETE。因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件
3、频繁更新的字段不适合创建索引,因为每次更新不单单是更新了记录还会更新索引,加重了IO负担
4、Where条件里用不到的字段不创建索引,如果根据银行卡号查找就要建立索引
5、数据重复且分布平均的表字段(如果某个数据列包含许多重复的内容,为它建立索引就没有太大的实际效果)
举例:
大家的国籍都是中国,固定且唯一的值,建立索引就没有任何效果。
性别不是男就是女,数据的差异率不高,建立索引也没有太多意义
假如一个表有10万行记录,字段A只有T和F两种值,且每个值的分布概率大约为50%,那么对这种表A字段建索引一般不会提高数据库的查询速度。
索引的选择性是指索引列中不同值的数目与表中记录数的比。如果一个表中有2000条记录,表索引列有1980个不同的值,那么这个索引的选择性就是1980/2000=0.99。
个索引的选择性越接近于1,这个索引的效率就越高。

SQL中的逻辑刚除和物理删除
在实际开发中基本都会有删除数据的需求,删除又分为逻辑删除和物理删除。下面说下二者的区别:
一、所谓的逻辑删除其实并不是真正的删除,而是在表中将对应的是否删除标识(deleted)或者说是状态字段(status)做修改操作。比如0是删除,1是未删除。在逻辑上数据是被删除的,但数据本身依然存在库中。
对应的sql语句一般是这样的:update… set status/deleted=…
这样在做查询操作的时候,就可根据此字段进行查询,有删除标识的即可不显示
物理删除就是真正的从数据库中做删除操作了,对应的sql语句为 delete…where…做物理删除操作的数据将会不在库中了。
二、逻辑删除的目的:1、为了大数据分析,直接删除就没有数据了 2、删除后索引维护成本高

避免索引失效
1、尽量全值匹配
index(name,age,gender)组合索引, where name=‘zhansgan’ and age=23 and gender='男”,全值匹配,使用索引效率高,当建立了索引列后,能在where条件中使用索引的尽量使用
2、遵循最佳左前缀法则:如果组合索引,要遵守最左前缀法则。指的是查询从索引的最左前列开始并且不跳过索引中间列。
带头大哥不能死,中间兄弟不能断。
Index(name,aqe,gender)组合索引,where后面是name才会使用索引,否则都是全表扫猫,可以理解为有name这个火车头索引就不会失效,有了这个火车头火车就可以跑,没有火车头只有车厢就是全表扫描。
where name=‘zhangsan’ and age=23, where name=‘zhangsan’,name作为开头上面的索引是有效的
where age=23,gender=‘男’ name不作为开头索引无效,全表扫描
where name=‘zhansgan’ and gender=‘男’,中间兄弟不能断,只用了索引的一部分name
3、不在索引列上做任何操作(计算、函数、(自动or手动)类型转换),会导致索引失效而转向全表扫描
4、尽量使用覆盖索引(只访问索引的査询(索引列和査询列一致)),减少使用 select*,使用select name,age,gender
5、mysql 在使用不等于(!=或者<>)的时候无法使用索引会导致全表扫描
6、is null,is not null 也无法使用索引
7、like 如果以通配符开头(’%abc…’),会导致mysql索引失效,而变成全表扫描的操作
8、少用or,用它来连接时会索引失效

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/576703.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

fast_bev学习笔记

目录 一. 简述二. 输入输出三. github资源四. 复现推理过程4.1 cuda tensorrt 版 一. 简述 原文:Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline FAST BEV是一种高性能、快速推理和部署友好的解决方案&#xff0c;专为自动驾驶车载芯片设计。该框架主要包…

QT布局管理和空间提升为和空间间隔

QHBoxLayout&#xff1a;按照水平方向从左到右布局&#xff1b; QVBoxLayout&#xff1a;按照竖直方向从上到下布局&#xff1b; QGridLayout&#xff1a;在一个网格中进行布局&#xff0c;类似于HTML的table&#xff1b; 基本布局管理类包括&#xff1a;QBoxLayout、QGridL…

平台介绍-搭建赛事运营平台(3)

上文介绍了品牌隔离的基本原理&#xff0c;就是通过不同的前端和微服务来实现。但是确实很多功能是类似的&#xff0c;所以从编程角度还是有些管理手段的。 前端部分&#xff1a;前端部分没有什么特别手段&#xff0c;就是两个独立的项目工程&#xff0c;分别维护。相同的部分复…

IMU评估产后腹直肌分离康复训练

腹直肌分离&#xff08;Diastasis Recti Abdominis&#xff0c;DRA&#xff09;是由腹部纤维联结组织——腹白线的过度伸张所致&#xff0c;这项研究的目标是通过惯性测量单元&#xff08;IMU&#xff09;感应器信号来分析产后康复。传统的康复方式通常包括针对性的物理疗法&am…

位操作符

简介&#xff1a; &&#xff0c;|,^,~都是常见的位操作符&#xff0c;操作对象是二进制数&#xff0c;运算时须将原码转换成补码&#xff08;符号位为0&#xff0c;即正数时&#xff0c;补码与原码一致&#xff0c;不需要再转换&#xff09;&#xff0c;位数不一致时&#…

docker部署ubuntu

仓库&#xff1a; https://hub.docker.com/search?qUbuntu 拉一个Ubuntu镜像 docker pull ubuntu:18.04 查看本地镜像&#xff1a; docker images 运行容器 docker run -itd --name ubuntu-18-001 ubuntu:18.04 通过ps命令可以查看正在运行的容器信息 docker ps 进入容器 最…

CAN总线系列一:初识CAN总线

CAN协议简介 CAN是控制器局域网络(Controller Area Network)的简称&#xff0c;它是由研发和生产汽车电子产品著称的德国BOSCH公司开发的&#xff0c;并最终成为国际标准&#xff08;ISO11519&#xff09;&#xff0c;是国际上应用最广泛的现场总线之一。 一、总线特点&#…

排序大乱炖

目录 一&#xff1a;插入排序 1.1直接插入排序 1.2希尔排序 二&#xff1a;选择排序 2.1选择排序 2.2堆排序 三&#xff1a;交换排序 3.1冒泡排序 3.2快速排序 3.2.1Hoare版本 3.2.2双指针法 3.2.3非递归 一&#xff1a;插入排序 1.1直接插入排序 直接插入排序…

第P1周:实现mnist手写数字识别

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊 | 接辅导、项目定制](https://mtyjkh.blog.csdn.net/)** 目录 一、前言 二、我…

基于springboot实现网上超市管理系统项目【项目源码+论文说明】

基于springboot实现网上超市管理系统演示 摘要 网络技术和计算机技术发展至今&#xff0c;已经拥有了深厚的理论基础&#xff0c;并在现实中进行了充分运用&#xff0c;尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代&#xff0c;所以对于信息的…

从零开始的软件开发实战:互联网医院APP搭建详解

今天&#xff0c;笔者将以“从零开始的软件开发实战&#xff1a;互联网医院APP搭建详解”为主题&#xff0c;深入探讨互联网医院APP的开发过程和关键技术。 第一步&#xff1a;需求分析和规划 互联网医院APP的主要功能包括在线挂号、医生预约、医疗咨询、健康档案管理等。我们…

Java学习九—常用包(类)之java.util包

一、关于java.util包 1.1简介 java.util​ 包是Java标准类库中的一个非常重要的组成部分&#xff0c;它提供了一系列对程序开发非常有用的类和接口。这个包主要包含集合框架、日期时间类、事件模型、随机数生成器以及其他实用工具类。 1.2常用类及接口 集合框架 - 集合框架是…