MySQL数据库索引机制

文章目录

  • 一、MySQL缓冲区
  • 二、MySQL的page
    • 1.认识单个page
    • 2.认识多个页
    • 3.聚簇索引和非聚簇索引
  • 三、索引的操作
    • 1.创建主键索引
    • 2.创建唯一索引
    • 3.创建普通索引
    • 4.查询索引的方法
    • 5.删除索引的方法
    • 6.索引创建原则

一、MySQL缓冲区

MySQL是一款有客户端和服务端的网络应用,mysql是它的客户端,mysqld是它的服务端。服务端本质就是一个进程,它存在于内存当中。而我们存储在MySQL中的数据是保存在磁盘上的,当我们对MySQL中数据进行增删查改操作时,不可能是直接在磁盘上进行操作,而是将对应的数据加载到内存中,在内存中对数据进行操作,操作完毕之后再写回磁盘。

mysqld是MySQL的服务端,它存在于内存中,mysqld服务端启动起来以后会先向内存申请一段空间buffer pool,作为MySQL的数据缓冲区。MySQL是有着更高IO场景的应用软件,所以为了提高基本IO的效率,MySQL进行IO的基本单位是16KB。也就是说,磁盘这个硬件设备的基本单位是512字节,而MySQL InnoDB存储引擎使用16KB进行IO交互,即MySQL与磁盘进行数据交互的基本单位是16KB。这个基本数据单元,在MySQL这里叫做page(注意这里的page是MySQL的page,不是系统的page)。

当mysqld的buffer pool中充满大量page的时候,MySQL也要管理所有的page,管理的原则也是先描述再组织。MySQL会为每个page建立一个数据结构,该数据结构记录了每个page的详细信息,再通过特定的算法和数据结构将其组织起来。这里的组织方式就和MySQL的索引有关。

为什么MySQL和磁盘进行IO交互要采用page方案,而不是用多少加载多少呢?
如果我们向MySQL的一张表中插入五条数据,设其id值分别为1、2、3、4、5。如果MySQL要查找id=2的记录,第一次加载id=1,第二次加载id=2,一次一条记录,那么就需要2次IO。如果要找id=5的记录,那么就需要5次IO。但如果这五条数据一次性保存到MySQL的page中,只需要完成一次IO,下次再查询id=1、2、3、4、5时,完全不需要进行IO,直接是在内存中访问了,这样就会大大地减少了IO的次数。这种page方案其实是利用计算机的局部性原理实现的预加载策略。

二、MySQL的page

我们先来做一个实验,创建一张user表,表中将id设置为主键,它会默认生成主键索引。

create table if not exists user (
id int primary key,
age int not null,
name varchar(16) not null
);

然后我们向user表中依次插入以下数据,注意我们插入的时候id值是没有排序的,也就是乱序插入的。

mysql> insert into user (id, age, name) values(3, 18, '杨过');
Query OK, 1 row affected (0.01 sec)mysql> insert into user (id, age, name) values(4, 16, '小龙女');
Query OK, 1 row affected (0.00 sec)mysql> insert into user (id, age, name) values(2, 26, '黄蓉');
Query OK, 1 row affected (0.00 sec)mysql> insert into user (id, age, name) values(5, 36, '郭靖');
Query OK, 1 row affected (0.00 sec)mysql> insert into user (id, age, name) values(1, 56, '欧阳锋');
Query OK, 1 row affected (0.01 sec)

但当我们查看表中数据的时候,我们会发现,表中的数据自动按照id升序排序了。这是MySQL帮我们做的主键排序。MySQL为什么要帮我们做排序呢?这就需要理解MySQL单个page的内部结构了。

在这里插入图片描述

1.认识单个page

MySQL中要管理很多数据表文件,而要管理好这些文件,就需要先描述再组织。我们以上面创建的user表为例子,假设user表中的数据加载到MySQL的page中,呈现出来的是下图的形式:

在这里插入图片描述

不同的page在MySQL中,都是16KB,并且使用page_prev和page_next构成双向链表。而单个page内部的数据记录之间,也是通过单链表连接的。因为创建user表时我们添加了主键,所以MySQL会默认按照主键给我们的数据进行排序。排序的目的是为了优化查询的效率。在单个page内部存放数据的模块,实质上也是一个链表的结构,链表的特点就是增和删特别快,查询和修改比较慢,所以必须要优化查询效率,数据有序了是非常方便查询的,查询快了,修改也就快了。

除此之外,单个page内部还会引入页目录,就像一本书的目录一样,通过目录可以快速定位每一章每一节的起始页码。例如下图的例子,引入页目录以后,如果我们要查找id=4的记录,原本要线性遍历,查找4个节点才能找到。现在可以直接从页目录2开始查找,只需要查找2个节点就可以找到,这也是提高了查询的效率。但这必须建立在page内部数据是有序的基础上,所以MySQL对表内数据按主键排序也是为了更好地引入页目录。

在这里插入图片描述

2.认识多个页

MySQL每个页大小只有16KB,单个page大小固定,所以随着数据量的不断增大,16KB的单页不可能存下所有的数据,那么必定会有多个页来存储数据。

在这里插入图片描述

单个页内部通过目录可以快速定位到需要查找的数据记录,但这仅局限于单页内查找数据,如果我们的MySQL表数据很大,分布在多个page中,不仅要对单个page内部进行查询,还要在page之间进行查询,如果page之间查询还是按照链式查询的话,那么查询的效率依旧是很低的。

所以为了解决这个问题,MySQL为多个page之间也引入了目录结构。它会让几个page不存放任何数据记录,单独存放page的目录。每个目录对应每个page的第一个数据记录的地址,这样在多page之间查找的效率就得到了提高。

在这里插入图片描述

但是又有一个问题,如果顶层的用于保存目录的page很多了,我们查找目录不也是需要线性遍历吗?这样不就还是会导致查找效率低吗?所以为了解决这个问题,我们可以再加目录页,在最顶层再加一个目录页,用来保存下一层目录的目录,说起来可能很绕,其实就是通过这个新加的目录页,可以快速定位下一层的目录页。

在这里插入图片描述

上图中的结构其实就是一棵B+树,它通过层层的目录页可以快速定位下一层需要查找的位置,所以查找效率比线性遍历快很多。因此,MySQL的索引本质就是一种利于查找的数据结构。所以我们user表中创建的主键,MySQL就自动帮我们建立了主键索引。如果一张表中没有主键,MySQL也会自动形成隐藏主键。

3.聚簇索引和非聚簇索引

聚簇索引指的是B+树的叶子节点是将索引和数据存放在一起的,而非聚簇索引指的是B+树的叶子节点没有将索引和数据存放在一起。

MySQL的InnoDB存储引擎就是聚簇索引,它将用户的数据和索引数据保存在一起。而MySQL的MyISAM存储引擎是非聚簇索引,它将索引数据和用户数据分离,也就是说B+树的叶子节点没有数据,只有对应数据的地址。

我们可以通过建表查看聚簇索引和非聚簇索引的表现。我们创建一张user1表使用InnoDB存储引擎,创建一张user2表使用MyISAM存储引擎,在Linux下的/var/lib/mysql路径下查看刚刚创建的两张表,我们会发现user1表对应的只有两个文件,user2表对应的却有三个文件。

其中user1和user2都有一个.frm文件,这个文件保存的是表的结构信息。但user1除此之外只有一个.ibd文件,这个文件保存的就是表的数据信息和索引信息。而user2除此之外有两个文件,分别是.MYD文件和.MYI文件,其中.MYD文件对应的是数据信息,.MYI文件对应的是索引信息。因此从这里就可以看出来,InnoDB是聚簇索引,MyISAM是非聚簇索引。

在这里插入图片描述

当然,MySQL除了默认会建立主键索引之外,我们用户也有可能建立按照其它列信息建立的索引,一般这种索引称为辅助索引或者普通索引。对于MyISAM存储引擎,建立辅助索引和主键索引没有区别,无非就是主键不能重复,而非主键可以重复。但是InnoDB存储引擎的辅助索引和主键索引却不一样,InnoDB的辅助索引中叶子节点并没有数据,而只有列数据对应记录的主键值,所以在查找数据的时候,通过辅助索引找到目标记录的主键值,然后用主键值在主键索引中检索获得记录,这个过程称为回表的过程。所以如果是通过辅助索引来查找数据,需要查找两遍索引。

三、索引的操作

1.创建主键索引

第一种方式:
在建表的时候,直接在字段后面指定primary key,即给某一字段添加主键。

mysql> create table user1(-> id int primary key,-> name varchar(20) not null-> );
Query OK, 0 rows affected (0.05 sec)mysql> show index from user1\G
*************************** 1. row ***************************Table: user1Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
1 row in set (0.05 sec)

第二种方式:
在创建表的最后,指定某列或某几列为主键索引。

mysql> create table user2(-> id int,-> name varchar(20),-> primary key(id)-> );
Query OK, 0 rows affected (0.03 sec)mysql> show index from user2\G
*************************** 1. row ***************************Table: user2Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
1 row in set (0.00 sec)

第三种方式:
创建表以后再添加主键索引。

mysql> create table user3(-> id int,-> name varchar(20)-> );
Query OK, 0 rows affected (0.04 sec)mysql> alter table user3 add primary key(id);
Query OK, 0 rows affected (0.04 sec)
Records: 0  Duplicates: 0  Warnings: 0mysql> show index from user3\G
*************************** 1. row ***************************Table: user3Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
1 row in set (0.00 sec)

主键索引的特点

  1. 一个表中,最多有一个主键索引,当然也可以使用复合主键。
  2. 主键索引的效率高,因为主键不可重复。
  3. 创建主键索引的列,它的值不能为null,且不能重复。
  4. 主键索引的列基本上是int。

2.创建唯一索引

第一种方式:
在表定义时,直接在某列后直接指定unique唯一属性。

mysql> create table user4(-> id int primary key,-> name varchar(20) unique-> );
Query OK, 0 rows affected (0.03 sec)mysql> show index from user4\G
*************************** 1. row ***************************Table: user4Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user4Non_unique: 0Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方式:
创建表时,在表的后面指定某列或某几列为unique属性。

mysql> create table user5(-> id int primary key,-> name varchar(20),-> unique(name)-> );
Query OK, 0 rows affected (0.03 sec)mysql> show index from user5\G
*************************** 1. row ***************************Table: user5Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user5Non_unique: 0Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

第三种方式:
创建表之后再添加唯一索引。

mysql> create table user6(-> id int primary key,-> name varchar(20)-> );
Query OK, 0 rows affected (0.04 sec)mysql> alter table user6 add unique(name);
Query OK, 0 rows affected (0.06 sec)
Records: 0  Duplicates: 0  Warnings: 0mysql> show index from user6\G
*************************** 1. row ***************************Table: user6Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user6Non_unique: 0Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

唯一索引的特点

  1. 一个表中,可以有多个唯一索引。
  2. 唯一索引查询效率高。
  3. 如果在某一列上建立唯一索引,必须保证这列不能有重复数据。
  4. 如果一个唯一索引上指定not null,那么等价于主键索引。

3.创建普通索引

第一种方式:
在表定义的最后,指定某列为索引。

mysql> create table user7(-> id int primary key,-> name varchar(20),-> email varchar(20),-> index(name)-> );
Query OK, 0 rows affected (0.04 sec)mysql> show index from user7\G
*************************** 1. row ***************************Table: user7Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user7Non_unique: 1Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方式:
在创建完表之后,指定某列为普通索引。

mysql> create table user8(-> id int primary key,-> name varchar(20),-> email varchar(20)-> );
Query OK, 0 rows affected (0.04 sec)mysql> alter table user8 add index(name);
Query OK, 0 rows affected (0.03 sec)
Records: 0  Duplicates: 0  Warnings: 0mysql> show index from user8\G
*************************** 1. row ***************************Table: user8Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user8Non_unique: 1Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

第三种方式:
在表创建完之后,再创建一个指定索引名的索引。这种方法不建议使用,建议直接就用列名做索引名,因为列名本身就具有唯一性,额外维护新的索引名代价比较大。

mysql> create table user9(-> id int primary key,-> name varchar(20),-> email varchar(20)-> );
Query OK, 0 rows affected (0.06 sec)mysql> create index name_index on user9(name);
Query OK, 0 rows affected (0.04 sec)
Records: 0  Duplicates: 0  Warnings: 0mysql> show index from user9\G
*************************** 1. row ***************************Table: user9Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user9Non_unique: 1Key_name: name_indexSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

普通索引的特点

  1. 一个表中可以有多个普通索引,普通索引在实际开发中用的比较多。
  2. 如果某列需要创建索引,但是该列有重复的值,那么我们就应该使用普通索引。

4.查询索引的方法

第一种方法show keys from 表名

mysql> show keys from user9\G
*************************** 1. row ***************************Table: user9Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user9Non_unique: 1Key_name: name_indexSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.00 sec)

第二种方法show index from 表名

mysql> show index from user9\G
*************************** 1. row ***************************Table: user9Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment: 
Index_comment: 
*************************** 2. row ***************************Table: user9Non_unique: 1Key_name: name_indexSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: 
Index_comment: 
2 rows in set (0.01 sec)

第三种方法(信息比较简略)desc 表名

mysql> desc user9;
+-------+-------------+------+-----+---------+-------+
| Field | Type        | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id    | int(11)     | NO   | PRI | NULL    |       |
| name  | varchar(20) | YES  | MUL | NULL    |       |
| email | varchar(20) | YES  |     | NULL    |       |
+-------+-------------+------+-----+---------+-------+
3 rows in set (0.00 sec)

5.删除索引的方法

  1. 删除主键索引:alter table 表名 drop primary key;
  2. 删除其它索引:alter table 表名 drop index 索引名,索引名就是show keys from 表名中的key_name字段。
  3. 使用drop删除:drop index 索引名 on 表名;

6.索引创建原则

  • 比较频繁作为查询条件的字段应该创建索引。
  • 唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件。
  • 更新非常频繁的字段不适合创建索引。
  • 不会出现在where子句中的字段不该创建索引。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9559.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu学习笔记(一)——目录与路径

文章目录 前言一、相对路径与绝对路径1.绝对路径(absolute)2.相对路径(relative) 二、目录相关操作命令1.cd(change directory, 切换目录)2.pwd(print working directory, 显示目前所在的目录)3.mkdir(make directory, 建立新目录…

简单认识LVS-DR负载群集和部署实例

文章目录 一、LVS-DR负载群集简介1、DR模式数据包流向分析2、DR 模式的特点 二、DR模式 LVS负载均衡群集部署 一、LVS-DR负载群集简介 1、DR模式数据包流向分析 1、客户端发送请求到 Director Server(负载均衡器),请求的数据报文&#xff0…

jvm自带故障处理工具之jmap

jmap是java虚拟机自带的一种内存映像工具。 一般通过jmap可以生成堆的当前使用情况的快照,然后用它来分析或者调优JVM内存使用。 jmap -help jmap -histo:live pid 打印堆的直方图。对于每个Java类,将打印对象数,以字节为单位的内存大小以…

【深入浅出 Spring Security(七)】RememberMe的实现原理详讲

RememberMe 的实现原理 一、RememberMe 的基本使用二、RememberMeAuthenticationFilter 源码分析RememberMeServicesTokenBasedRememberMeServicesTokenBasedRememberMeServices 中对 processAutoLoginCookie 方法的实现总结原理图式 三、提高安全性PersistentTokenBasedRememb…

MySQL安装与部署

第一种方法:在线安装 配置一个安装yum源 Adding the MySQL Yum Repository 可以手动配置yum源,baseurl指向国内镜像源地址,比如清华、中科大。 Installing MySQL Starting the MySQL Server: 查询临时登录密码 修改数据库密码…

Linux内核代码中常用的数据结构

Linux内核代码中广泛使用了数据结构和算法,其中最常用的两个是链表和红黑树。 链表 Linux内核代码大量使用了链表这种数据结构。链表是在解决数组不能动态扩展这个缺陷而产生的一种数据结构。链表所包含的元素可以动态创建并插入和删除。 链表的每个元素都是离散…

eBPF内核技术在滴滴云原生的落地实践

将滴滴技术设为“星标⭐️” 第一时间收到文章更新 导读 eBPF是Linux内核革命性技术,能够安全高效地扩展内核能力,应用广泛,尤其是在云原生可观测性领域的应用已经成为行业热点。在滴滴云原生环境中,eBPF技术进行了业务实践和内源…

CesiumJS使用详细,在vue中使用Cesium.js(WebGIS中的Cesium地图可视化应用)

简述:Cesium是一种基于WebGL开源的虚拟地球技术,可以用于构建高性能、跨平台的三维地球应用程序,它支持多种数据格式和地图服务,可以实现地球表面的高精度渲染、地形分析、数据可视化等功能。Cesium还提供了丰富的API和插件&#…

青岛大学_王卓老师【数据结构与算法】Week04_05_双向链表的删除_学习笔记

本文是个人学习笔记,素材来自青岛大学王卓老师的教学视频。 一方面用于学习记录与分享,另一方面是想让更多的人看到这么好的《数据结构与算法》的学习视频。 如有侵权,请留言作删文处理。 课程视频链接: 数据结构与算法基础–…

2023年03月份青少年软件编程Python等级考试试卷三级真题(含答案)

2023-03 Python三级真题 分数:100 题数:38 测试时长:60min 一、单选题(共25题,共50分) 1.十进制数111转换成二进制数是?( )(2分) A.111 B.1111011 C.101111 D…

flask_测试数据平台

实现功能:Flask框架平台访问批量自动造测试数据 import osfrom flask import Flask, render_template, request, jsonify, url_for, redirect from werkzeug.urls import url_parsefrom HuiCai import InsertHuiCaiOrderapp Flask(__name__, template_folderE:/fl…

23西安电子科技大学通信工程学院811考研录取情况

01、通信工程学院各个方向 02、23通信工程学院一志愿考研录取情况总览、平均分 PS:通院23年院线相对于22年院线上涨5-15分,个别专业下降10分反应西电通院热度23年和22年基本一致。 PS:1、通院23年比较多的考生在本部学硕、专硕扎堆&#xff…