mysql 排序底层原理解析

前言

本章详细讲下排序,排序在我们业务开发非常常见,有对时间进行排序,又对城市进行排序的。不合适的排序,将对系统是灾难性的,这个不是危言耸听。可能有些人会想,对于排序mysql 是怎么实现的,它的底层原理是怎么样的,如果我加上分页,排序是不是就会快一些。关于这些问题,本章详细讲解。

有人经常问我,mysql 优化的规则,总是不假思索的说ESR,E 是 equal ,S是sort 。可见排序有多么重要,为了讲解方便,我先画个思维导图。

上图标的1,2 是mysql 配置文件可以配置的。可以通过 show variables like 'max_length_for_sort_data'; 可以具体的配置。从图上我们可以看到mysql 排序分为全字段排序,和 rowid 。这是两大类,里面又分为内存排序,文件排序,我将从这2大类4小类讲解。

全字段排序

由上图可以看出 Extra = Using filesort 就表示了排序,但此时还不能判断是文件排序还是内存排序

可以根据下面介绍的方法,来确定一个排序语句是否使用了临时文件

/* 打开optimizer_trace,只对本线程有效 */
SET optimizer_trace='enabled=on'; 
​
/* @a保存Innodb_rows_read的初始值 */
select VARIABLE_VALUE into @a from  performance_schema.session_status where variable_name = 'Innodb_rows_read';
​
/* 执行语句 */
select city, name,age from t where city='杭州' order by name limit 1000; 
​
/* 查看 OPTIMIZER_TRACE 输出 */
SELECT * FROM `information_schema`.`OPTIMIZER_TRACE`\G
​
/* @b保存Innodb_rows_read的当前值 */
select VARIABLE_VALUE into @b from performance_schema.session_status where variable_name = 'Innodb_rows_read';
​
/* 计算Innodb_rows_read差值 */
select @b-@a;
​
### 

Number_of_tmp_files>0 就表示文件排序,没有就表示是内存排序。sort_buffer_size 越小,那么 Number_of_tmp_files 就会越大,文件排序用的是归并排序,也就是把数据分给多个文件,每个文件排序后,最终合并一个文件。

上面sort_mode 可以看到,这是一个全字段排序,什么是全字段排序,就拿上面这个sql 语句来说,city ,name,age 都在文件里,对name 进行排序

这个排序的内部是这么实现的:

  1. 初始化 sort_buffer,确定放入 name、city、age 这三个字段;

  2. 从索引 city 找到第一个满足 city='杭州’ 条件的主键 id

  3. 到主键 id 索引取出整行,取 name、city、age 三个字段的值,存入 sort_buffer 中;

  4. 从索引 city 取下一个满足 city='杭州’ 的主键 id;

  5. 重复步骤 3、4 直到 city 的值不满足查询条件为止

  6. 对 sort_buffer 中的数据按照字段 name 做快速排序;

  7. 按照排序结果取前 1000 行返回给客户端。

由此我们发现,排序会对表的所有的记录进行排序,然后在取出1000条

rowid

如果 排序数据的长度超过了 max_length_for_sort_data 就是 rowid排序。排序数据的长度就是指拿上面这个例子说 name、city、age 这三个字段大于 max_length_for_sort_data 就是rowid 排序。为什么会这样的呢,mysql 会尽量用内存排序,字段越长,占用空间越大,未了提高排序效率,就会用rowid 排序。

rowid排序的步骤是这样的:

  1. 初始化 sort_buffer,确定放入两个字段,即 name 和 id;

  2. 从索引 city 找到第一个满足 city='杭州’条件的主键 id

  3. 到主键 id 索引取出整行,取 name、id 这两个字段,存入 sort_buffer 中;

  4. 从索引 city 取下一个记录的主键 id;

  5. 重复步骤 3、4 直到不满足 city='杭州’条件为止,

  6. 对 sort_buffer 中的数据按照字段 name 进行排序;

  7. 遍历排序结果,取前 1000 行,并按照 id 的值回到原表中取出 city、name 和 age 三个字段返回给客户端。

我们可以看到 rowid 会多访问一次表,在mysql 看来,排序的复杂度高于回表的复杂度,这也是一种取舍。

综上可以看出不管是内存排序还是文件排序,都是很繁琐的,那么有没有对于这个问题有没有优化点了,在前面我们已经讲过了,索引一定是有序的,如果我们对city,name 建一个联合索引,就不用mysql 重新排序,因为索引本身就是有序的。

就是如下所示:

alter table t add index city_user(city, name);

但是上面虽然不用mysql 用文件排序,但是还是要回表的,那还有没有进一步的优化呢,我们可以考虑用覆盖索引

如下所示:

alter table t add index city_user_age(city, name, age);

这样就不用回表了,用explain 来看 Extra using index

大家要综合考虑吧,索引越多,索引越大,会影响插入的速度的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/539254.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB画图:错误使用plot无效的颜色或线型...

指定绘图颜色 - MATLAB & Simulink (mathworks.com) 使用matlab画图,想要使用其他颜色时,如想要从上面的颜色类型修改为下面的颜色类型 只需要在后面修改color属性即可 s1 plot(C3, LineWidth,2); s1.Color [0.8500 0.3250 0.0980]; hold on s2 …

CVPR2024 | 大核卷积新高度101x101,美团提出PeLK

https://arxiv.org/pdf/2403.07589.pdf 本文概述 最近,一些大核卷积网络以吸引人的性能和效率进行了反击。然而,考虑到卷积的平方复杂度,扩大内核会带来大量的参数,而大量的参数会引发严重的优化问题。由于这些问题,当…

某夕夕商品数据抓取逆向之webpack扣取

逆向网址 aHR0cHM6Ly93d3cucGluZHVvZHVvLmNvbQ 逆向链接 aHR0cHM6Ly93d3cucGluZHVvZHVvLmNvbS9ob21lL2JveXNoaXJ0 逆向接口 aHR0cHM6Ly9hcGl2Mi5waW5kdW9kdW8uY29tL2FwaS9naW5kZXgvdGYvcXVlcnlfdGZfZ29vZHNfaW5mbw 逆向过程 请求方式:GET 参数构成 【anti_content】…

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:FolderStack)

FolderStack继承于Stack(层叠布局)控件,新增了折叠屏悬停能力,通过识别upperItems自动避让折叠屏折痕区后移到上半屏 说明: 该组件从API Version 11开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 子组件…

【QT】TCP简易聊天框

我们首先复习一下TCP通信的流程 基于linuxTCP客户端和服务器 QT下的TCP处理流程 服务器先启动(处于监听状态) 各函数的意义和使用 QTcpServer Class *QTcpServer*类提供了一个基于TCP的服务器。这个类可以接受传入的TCP连接。您可以指定端口或让QTcpS…

sqllab第十六关通关笔记

知识点: 布尔盲注时间盲注 布尔盲注 通过admin admin登录发现没有任何回显信息;但是使用的是成功登录的图片 随便输入一个用户和密码发现出现了错误登录的图片信息 构造usernamea# 感觉又是一个布尔注入 构造payload:usernameaor11# 发现登录失败的…

数据仓库为什么要分层建设?每一层的作用是什么?

在数字化时代,数据已成为企业最宝贵的资产之一。为了更好地管理和利用这些数据,许多企业都建立了数据仓库。然而,数据仓库并非简单的数据存储工具,而是一个复杂的数据处理和分析系统。其中,分层建设是数据仓库设计的重…

sqllab第二十关通关笔记

知识点: cookie注入 可以进行url解析错误注入传参位置 get请求post请求cookie传参 输入admin admin进行登录,抓取当前数据包 通过放包发现是一个302跳转的响应包,页面只有一个 I Love Cookies;没什么信息 通过点击页面上方的按钮…

SpringBoot异常:类文件具有错误的版本 61.0, 应为 52.0的解决办法

问题: java: 无法访问org.mybatis.spring.annotation.MapperScan 错误的类文件: /D:/Program Files/apache-maven-3.6.0/repository/org/mybatis/mybatis-spring/3.0.3/mybatis-spring-3.0.3.jar!/org/mybatis/spring/annotation/MapperScan.class 类文件具有错误的…

Redis 除了做缓存,还能做什么?

分布式锁:通过 Redis 来做分布式锁是一种比较常见的方式。通常情况下,我们都是基于 Redisson 来实现分布式锁。关于 Redis 实现分布式锁的详细介绍,可以看我写的这篇文章:分布式锁详解open in new window 。限流:一般是…

Grass推出Layer 2 Data Rollup

Grass推出Layer 2 Data Rollup Grass邀请链接最新资讯 Grass邀请链接 欢迎使用我的邀请码进行注册: 邀请链接 如果你还不知道注册流程:详见Grass: 出售闲置带宽实现被动收入 最新资讯 简讯:2024年3月13日,Grass宣布正在建立基于Solana的La…

基于单片机的车载酒精含量自检系统设计与实现

摘要:调查显示,大约50%的交通事故与酒后驾车有关,酒后驾车已成为车祸致死的首要原因。为从根本上杜绝酒后驾车,设计了一款基于STC89C52 单片机的车载酒精含量自检系统,该系统能很好地解决酒驾问题,控制简单、使用方便,具有很好的应用价值。 关键词:STC89C52 单片机;车…