MySQL亿级数据的查询优化-历史表该如何建-编程知识

MySQL亿级数据的查询优化-历史表该如何建

前端时间在知乎上看到一个问题，今天有空整理并测试了一下：

这个问题很具体，所以还是可以去尝试优化一下，我们基于InnoDB并使用自增主键来讲。

比较简单的做法是将历史数据存放到另一个表中，与最近的数据分开。那是不是历史表随便建就行了？其实这里的区别很大：

先讲一下优化思路：如果数据量太大（远远超过内存），对于批量查询来说单纯的添加索引作用不大，需要将数据按照查询重新组织降低查询需要的IO次数。

首先拿一组数据来分析一下，如果采用自增ID，数据按写入顺序存储在磁盘上，数据在磁盘上的分布情况大体如下：

如果把用户1的所有数据都查询出来，并且这些数据页都不在内存的情况下，需要执行3次IO。

但是，只要将数据整理一下，同一个用户的数据顺序存放，即数据的组织方式如下：

查询用户1的所有数据，并且这些数据页都不在内存的情况下，只需要执行1次IO即可。

在这个场景中，通常一次读取几百条到上千条积分变化数据，性能差异还是非常明显的。

现在的问题是：怎么让数据的组织是顺序的？其实很简单，只需要在转储时将一个用户的所有数据一起转储（也就是相邻写入，这样他们存储在磁盘上也是相邻的）。

附：这里我们设计一个场景分别测试一下这两种情况的性能差别。

使用下面的语句创建两个表：

CREATE TABLE t_score_log_1
(`id` bigint AUTO_INCREMENT,`user_id` int,`score` int,`log_time` datetime,PRIMARY KEY(`id`),KEY `idx_user_id`(`user_id`)
);CREATE TABLE t_score_log_2
(`id` bigint AUTO_INCREMENT,`user_id` int,`score` int,`log_time` datetime,PRIMARY KEY(`id`),KEY `idx_user_id`(`user_id`)
) ;

然后，创建两个存储过程用于向两个表中插入数据：

DELIMITER $
CREATE PROCEDURE insert_proc_1()
BEGINDECLARE i INT DEFAULT 0;DECLARE uid INT DEFAULT 0;WHILE i < 1000DOSET uid = 1;WHILE uid < 100001DOINSERT INTO t_score_log_1(`user_id`,`score`,`log_time`) VALUES(uid,  i % 100, DATE_ADD('2023-1-1',interval i second));SET uid = uid + 1;IF uid % 1000 = 0 THENCOMMIT;END IF;END WHILE;SET i = i + 1;COMMIT;END WHILE;
END $
DELIMITER ;DELIMITER $
CREATE PROCEDURE insert_proc_2()
BEGINDECLARE i INT DEFAULT 0;DECLARE uid INT DEFAULT 1;WHILE uid < 100001DOSET i = 0;WHILE i < 1000DOINSERT INTO t_score_log_2(`user_id`,`score`,`log_time`) VALUES(uid,  i % 100, DATE_ADD('2023-1-1',interval i second));SET i = i + 1;END WHILE;SET uid = uid + 1;COMMIT;END WHILE;
END $
DELIMITER ;

接着，调用这两个函数向两个表中写入数据：

call insert_proc_1();call insert_proc_2();

注意：为了更快的插入数据，关闭mysql的binlog并设置innodb_flush_log_at_trx_commit为0。

***************等待中****************

终于，数据插入完成，随机查询一些用户的历史数据比较一下耗时：

可以看到针对整理过后的数据（也就是表：t_score_log_2）查询性能远远高于未整理的表。

所以，针对历史数据特别大的场景，适当调整数据的分布情况可以极大的提升查询性能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/450429.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

MySQL亿级数据的查询优化-历史表该如何建

相关文章

参考数据集INRIA Holidays dataset

java05 数组

1895_分离进程的能力

绝世唐门：霍挂六个十万年魂环，一穿七灭团再现，淘汰赛顺利晋级

[Python] scikit-learn中数据集模块介绍和使用案例

数字巨轮航行大数据海洋：数据可视化引领时代潮流

1、安全开发-Python爬虫EDUSRC目标FOFA资产Web爬虫解析库

CentOS 8 下载

【第二十二课】最短路：多源最短路floyd算法(acwing-852 spfa判断是否存在负环 / acwing-854 / c++代码)

适用于 Windows 7/8/10/11电脑的 12 款顶级数据恢复软件

坚持刷题｜二叉树的前、中、后序遍历（递归迭代）

030 可变参数