MySQL查询执行（二）：order by工作原理

数据库内核

于 2024-07-27 17:31:21 发布

阅读量494

点赞数 24

文章标签： mysql 数据库

本文链接：https://blog.csdn.net/weixin_47156401/article/details/140738444

版权

假设你要查询城市是“杭州”的所有人名字，并且按照姓名排序返回前1000个人的姓名、年龄。

假设这个表的部分定义是这样的：

-- 创建表t
CREATE TABLE `t` (
 `id` int(11) NOT NULL,
 `city` varchar(16) NOT NULL,
 `name` varchar(16) NOT NULL,
 `age` int(11) NOT NULL,
  `addr` varchar(128) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `city` (`city`)) ENGINE=InnoDB;

这时，你的SQL语句可以这么写：

select city, name, age from t where city='杭州' order by name limit 1000;

全字段排序

为避免全表扫描，我们需要在city字段加上索引。在city字段上创建索引之后，我们用explain命令来看看这个语句的执行情况。

Extra这个字段中的“Using filesort”表示的就是需要排序， MySQL会给每个线程分配一块内存用于排序，称为sort_buffer。

为了说明这个SQL查询语句的执行过程，我们先来看一下city这个索引的示意图。

通常情况下，这个语句执行流程如下所示（即全字段排序流程）：

1）初始化sort_buffer，确定放入name、 city、 age这三个字段；

2）从索引city找到第一个满足city='杭州’条件的主键id，也就是图中的ID_X；

3）到主键id索引取出整行，取name、 city、 age三个字段的值，存入sort_buffer中；

4）从索引city取下一个记录的主键id；

5）重复步骤3、 4直到city的值不满足查询条件为止，对应的主键id也就是图中的ID_Y；

6）对sort_buffer中的数据按照字段name做快速排序；

7）按照排序结果取前1000行返回给客户端。

全字段排序示意图：

注：图中“按name排序”这个动作，可能在内存中完成，也可能需要使用外部排序，这取决于排序所需的内存和参数sort_buffer_size。

sort_buffer_size，就是MySQL为排序开辟的内存（sort_buffer）的大小。如果要排序的数据量小于sort_buffer_size，排序就在内存中完成。但如果排序数据量太大，内存放不下，则不得不利用磁盘临时文件辅助排序。

问1：什么是sort_buffer？

答：sort buffer是MySQL Server层的一种优化。

1）MySQL会给每个线程分配一块内存用于排序，称为sort_buffer。

2）sort_buffer_size：决定sort_buffer的大小，默认：256KB。

如果要排序的数据量小于sort_buffer_size，排序就在内存中完成。
如果排序数据量太大，内存放不下，则不得不利用磁盘临时文件辅助排序。

3）max_sort_length：决定了放入sort_buffer的一行数据的最大长度，默认：1KB。

4）判断策略：MySQL根据 sort_buffer_size / max_sort_length 估算出sort_buffer可容纳的行数；然后与实际待排序的行数比较，如果待排序行数小于该行数，则在内存排序。

5）可通过HINT显式指定一个语句的sort_buffer大小，比如：

select /*+ SET_VAR(sort_buffer_size = 10M)*/  host, user from mysql.user orderby user desc;

问2：sort_buffer和innodb_sort_buffer的区别是什么？

innodb_sort_buffer：是在执行DML语句时，执行数据更新时，对数据进行排序，然后写入磁盘，以此使得数据能够尽可能”按顺序”插入B+树，以提升性能。
innodb_sort_buffer_size：决定了innodb_sort_buffer的大小，默认：1MB。

问3：如何确定一个排序语句是否使用了临时文件？

答：

/* 打开optimizer_trace，只对本线程有效 */
SET optimizer_trace='enabled=on'; 

/* @a保存Innodb_rows_read的初始值 */
select VARIABLE_VALUE into @a from  performance_schema.session_status where variable_name = 'Innodb_rows_read';

/* 执行语句 */
select city, name, age from t where city='杭州' order by name limit 1000; 

/* 查看 OPTIMIZER_TRACE 输出 */
SELECT * FROM `information_schema`.`OPTIMIZER_TRACE`\G

/* @b保存Innodb_rows_read的当前值 */
select VARIABLE_VALUE into @b from performance_schema.session_status where variable_name = 'Innodb_rows_read';

/* 计算Innodb_rows_read差值 */
select @b-@a;

这个方法是通过查看 OPTIMIZER_TRACE 的结果来确认的，你可以从 number_of_tmp_files中看到是否使用了临时文件。

number_of_tmp_files表示的是，排序过程中使用的临时文件数。你一定奇怪，为什么需要12个文件？内存放不下时，就需要使用外部排序，外部排序一般使用归并排序算法。可以这么简单理解， MySQL将需要排序的数据分成12份，每一份单独排序后存在这些临时文件中。然后把这12个有序文件再合并成一个有序的大文件。

如果sort_buffer_size超过了需要排序的数据量的大小， number_of_tmp_files就是0，表示排序可以直接在内存中完成。否则就需要放在临时文件中排序。 sort_buffer_size越小，需要分成的份数越多， number_of_tmp_files的值就越大。

注1：当sort_buffer_size小于需要排序的数据量的大小时，排序流程为：

把待排序的数据读入sort_buffer，直到读满为止。
对sort_buffer中的数据进行排序，并把排好序的数据存在一个临时文件中（每一份单独排序后的数据存放到一个临时文件中）。
清空sort_buffer，继续往sort_buffer中读入剩余待排序数据。
跳转至步骤二（直至处理完所有数据）。
最后，对所有临时文件使用归并排序方法进行排序。

注2：对于InnoDB表来说，执行全字段排序会减少磁盘访问，因此会被优先选择。

rowid排序

全字段排序算法只对原表的数据读了一遍，剩下的操作都是在sort_buffer和临时文件中执行的。但这个算法有一个问题，就是如果查询要返回的字段很多的话，那么sort_buffer里面要放的字段数太多，这样内存里能够同时放下的行数很少，要分成很多个临时文件，排序的性能会很差。

问1：如果MySQL认为排序的单行长度太大会怎么做呢？

答：如果MySQL认为单行太大，它会换一个算法。什么时候换算法由参数max_length_for_sort_data决定。

max_length_for_sort_data，是MySQL中专门控制用于排序的行数据的长度的一个参数。它的意思是，如果单行的长度超过这个值， MySQL就认为单行太大，要换一个算法。

假设city、 name、 age这三个字段的定义总长度是36，我把max_length_for_sort_data设置为16（如下所示），我们再来看看计算过程有什么改变。

// 把用于排序的行数据长度设为16
SET max_length_for_sort_data = 16;

新算法放入sort_buffer的字段，只有要排序的列（即name字段）和主键id。

但这时，排序的结果就因为少了city和age字段的值，不能直接返回了，整个执行流程就变成如下所示的样子（rowid排序）：

1）初始化sort_buffer，确定放入两个字段，即name和id；

2）从索引city找到第一个满足city='杭州’条件的主键id，也就是图中的ID_X；

3）到主键id索引取出整行，取name、 id这两个字段，存入sort_buffer中；

4）从索引city取下一个记录的主键id；

5）重复步骤3、 4直到不满足city='杭州’条件为止，也就是图中的ID_Y；

6）对sort_buffer中的数据按照字段name进行排序；

7）遍历排序结果，取前1000行，并按照id的值回到原表中取出city、 name和age三个字段返回给客户端。

rowid排序示意图：

问2：根据这个说明过程和图示，你可以想一下，这个时候执行select @b-@a，结果会是多少呢？

rowid排序的OPTIMIZER_TRACE部分输出：

图中的examined_rows的值还是4000，表示用于排序的数据是4000行。但是select @b- @a这个语句的值变成5000了。因为排序后需要输出的1000行数据都需要回表操作，所以多了1000行。

注：

sort_mode变成了，表示参与排序的只有name和id这两个字段。
number_of_tmp_files变成10了，是因为这时候参与排序的行数虽然仍然是4000行，但是每一行都变小了，因此需要排序的总数据量就变小了，需要的临时文件也相应地变少了。

全字段排序 VS rowid排序

因为rowid排序涉及回表，因此在内存够用的情况下优先选择全字段排序。

这也是MySQL的一个设计思想：如果内存够用，就要多利用内存，尽量减少磁盘访问。

对于InnoDB表来说， rowid排序会要求回表多造成磁盘读，因此不会被优先选择。

由此得出MySQL做排序是一个成本比较高的操作。

问：是不是所有的order by都需要排序操作呢？

答：并不是所有的order by语句，都需要排序操作的。

从上面分析的执行过程，我们可以看到， MySQL之所以需要生成临时表，并且在临时表上做排序操作，其原因是原来的数据都是无序的。

如果能够保证从city这个索引上取出来的行，天然就是按照name递增排序的话，那么就不用再排序了。

利用索引减少排序

就前面的表t而言，可以在该表上创建一个city和name的联合索引，对应的SQL语句是：

alter table t add index city_user(city, name);

作为与city索引的对比，我们来看看这个索引的示意图。

在联合索引下，只要city的值是杭州， name的值就一定是有序的。

整个查询过程如下：

从索引(city, name)找到第一个满足city='杭州’条件的主键id。
到主键id索引取出整行，取name、 city、 age三个字段的值，作为结果集的一部分直接返回。
从索引(city, name)取下一个记录主键id。
重复步骤2、 3，直到查到第1000条记录，或者是不满足city='杭州’条件时循环结束。

联合索引查询示意图：

可以看到，这个查询过程不需要临时表，也不需要排序。接下来，我们用explain的结果来印证一下。

从图中可以看到， Extra字段中没有Using filesort了，也就是不需要排序了。而且由于(city,name)这个联合索引本身有序，所以这个查询也不用把4000行全都读一遍，只要找到满足条件的前1000条记录就可以退出了。也就是说，在我们这个例子里，只需要扫描1000次。

覆盖索引减少回表

虽然上述联合索引可以避免排序，但仍存在回表操作，仍会有磁盘IO消耗。

针对这个查询，我们可以创建一个city、 name和age的联合索引，对应的SQL语句就是：

alter table t add index city_user_age(city, name, age);

这时，对于city字段的值相同的行来说，还是按照name字段的值递增排序的，此时的查询语句也就不再需要排序了。

这样整个查询语句的执行流程就变成了：

从索引(city,name,age)找到第一个满足city='杭州’条件的记录，取出其中的city、 name和age这三个字段的值，作为结果集的一部分直接返回；
从索引(city,name,age)取下一个记录，同样取出这三个字段的值，作为结果集的一部分直接返回；
重复执行步骤2，直到查到第1000条记录，或者是不满足city='杭州’条件时循环结束。

覆盖索引查询执行示意图：

再来看看explain的结果

可以看到， Extra字段里面多了“Using index”，表示的就是使用了覆盖索引，性能上会快很多。

注：并不是说要为了每个查询能用上覆盖索引，就要把语句中涉及的字段都建上联合索引，毕竟索引还是有维护代价的。这是一个需要权衡的决定。

小结：思考题

假设你的表里面已经有了city_name(city, name)这个联合索引，然后你要查杭州和苏州两个城市中所有的市民的姓名，并且按名字排序，显示前100条记录。如果SQL查询语句是这么写的：

select * from t where city in ('杭州',"苏州") order by name limit 100;

思考1：这个语句执行的时候会有排序过程吗？

答：有排序。虽然有(city,name)联合索引，对于单个city内部， name是递增的。但是由于这条SQL语句不是要单独地查一个city的值，而是同时查了"杭州"和" 苏州 "两个城市，因此所有满足条件的name就不是递增的了。也就是说，这条SQL语句需要排序。

思考2：如何避免排序？

答：用到(city,name)联合索引的特性，把这一条语句拆成两条语句（将结果集在业务端排序，取前100条），执行流程如下：

1）执行select * from t where city=“杭州” order byname limit 100; 这个语句是不需要排序的，客户端用一个长度为100的内存数组A保存结果。

2）执行select * from t where city=“苏州” order byname limit 100; 用相同的方法，假设结果被存进了内存数组B。

3）现在A和B是两个有序数组，然后你可以用归并排序的思想，得到name最小的前100值，就是我们需要的结果了。

思考3：如果有分页需求，要显示第101页，即语句最后要改成 “limit 10000,100”，如何实现？

分别执行如下两条语句，将结果集在业务端排序，取前100条；

select * from t where city in ('杭州') order by name limit 10100;
select * from t where city in ("苏州") order by name limit 10100;

这时候数据量较大，可以同时起两个连接一行行读结果，用归并排序算法拿到这两个结果集里，按顺序取第10001~10100的name值，就是需要的结果了。

当然这个方案有一个明显的损失，就是从数据库返回给客户端的数据量变大了。所以，如果数据的单行比较大的话，可以考虑把这两条SQL语句改成下面这种写法：

select id, name from t where city="杭州" order by name limit 10100;
select id, name from t where city="苏州" order by name limit 10100;

然后，再用归并排序的方法取得按name顺序第10001~10100的name、 id的值，然后拿着这100个id到数据库中去查出所有记录。

上面这些方法，需要你根据性能需求和开发的复杂度做出权衡。

思考4：无条件的order by语句是否走索引？

场景1）只有order by create_time，即便create_time上有索引，也不走。

因为优化器认为走二级索引再去回表成本比全表扫描排序更高。所以选择走全表扫描,然后根据前述两种排序方式选择一种来排序。

场景2）order by create_time limit m，如果m值较小，可以走索引。

因为优化器认为根据索引有序性去回表查数据，然后得到m条数据，就可以终止循环，那么成本比全表扫描小，则选择走二级索引。

即便没有二级索引，mysql针对order by limit也做了优化，采用堆排序。

注：说白了都是基于CBO的考量。

思考5：使用group by语句是否走索引？

场景1）如果是group by a，a上不能使用索引，则走rowid排序。

场景2）如果是group by limit，不能使用索引，则走堆排序。

场景3）如果是只有group by a，a上有索引，则根据选取值不同，索引的扫描方式不同：

select * from t group by a -- 走索引全扫描。
select a from t group by a --走的是索引松散扫描，也就说只需要扫描每组的第一行数据即可，不用扫描每一行的值。

思考6：bigint/int类型，在其后加数字是否影响其占用空间大小？

答：不影响，bigint(1)和bigint(19)都能存储2^64-1范围内的值，int是2^32-1。只是有些前端会根据括号里来截取显示而已。

数据库内核

关注

24
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
MySQL查询执行（二）：order by工作原理

假设你要查询城市是“杭州”的所有人名字，并且按照姓名排序返回前1000个人的姓名、年龄。
复制链接

扫一扫