MySQL DQL详解：从基础到底层原理-CSDN博客

本文链接：https://blog.csdn.net/weixin_51786043/article/details/147373190

MySQL DQL详解：从基础到底层原理

什么是DQL？

DQL（Data Query Language）是SQL语言的一个子集，专门用于数据查询。在MySQL中，DQL主要就是SELECT语句及其各种变体。作为数据库操作中最常用的部分，DQL的性能和效率直接影响着整个应用的表现。

基础SELECT语句

最基本的SELECT语句格式如下：

SELECT 列名 FROM 表名 WHERE 条件;

例如：

SELECT id, name FROM employees WHERE department = 'IT' AND salary > 5000;

这个查询会从employees表中找出所有部门为IT且薪水大于5000的员工的id和name。

SELECT执行流程

让我们用mermaid图展示MySQL执行SELECT语句的基本流程：

连接器：验证客户端连接权限
查询缓存：检查是否已有缓存结果（MySQL 8.0已移除此功能）
分析器：进行词法和语法分析
优化器：生成执行计划，选择索引等
执行器：调用存储引擎接口获取数据
存储引擎：实际读取数据（InnoDB、MyISAM等）

SELECT语句的完整语法

完整的SELECT语法远比基础形式复杂：

SELECT
    [ALL | DISTINCT | DISTINCTROW]
    select_expr [, select_expr ...]
    [FROM table_references
    [WHERE where_condition]
    [GROUP BY {col_name | expr | position}
      [ASC | DESC], ... [WITH ROLLUP]]
    [HAVING where_condition]
    [ORDER BY {col_name | expr | position}
      [ASC | DESC], ...]
    [LIMIT {[offset,] row_count | row_count OFFSET offset}]
    [FOR UPDATE | LOCK IN SHARE MODE]]

WHERE子句详解

WHERE子句是DQL中最关键的部分之一，它决定了哪些行会被返回。

条件表达式

MySQL支持多种条件表达式：

比较运算符：=, <>, !=, <, <=, >, >=
BETWEEN…AND…
IN (value,…)
IS NULL, IS NOT NULL
LIKE (支持%和_通配符)
REGEXP/RLIKE (正则表达式)

-- 多个条件组合
SELECT * FROM products 
WHERE price BETWEEN 10 AND 100
AND category_id IN (1, 5, 7)
AND product_name LIKE '%Pro%'
AND stock IS NOT NULL;

索引与WHERE条件

WHERE条件的设计直接影响查询是否能用上索引：

假设我们在products表上有以下索引：

主键索引：id
普通索引：category_id
复合索引：(price, stock)

那么以下查询会利用不同的索引：

-- 使用主键索引
SELECT * FROM products WHERE id = 100;

-- 使用category_id索引
SELECT * FROM products WHERE category_id = 5;

-- 使用复合索引(price, stock)
SELECT * FROM products WHERE price > 50 AND stock > 0;

-- 不会使用索引（不符合最左前缀原则）
SELECT * FROM products WHERE stock > 0;

JOIN操作

JOIN是DQL中另一个重要概念，MySQL支持多种JOIN类型：

INNER JOIN

只返回两表中匹配的行：

SELECT e.name, d.department_name 
FROM employees e
INNER JOIN departments d ON e.department_id = d.id;

LEFT/RIGHT JOIN

返回左表/右表所有行，即使另一表没有匹配：

-- 左连接：返回所有员工，即使没有部门
SELECT e.name, d.department_name 
FROM employees e
LEFT JOIN departments d ON e.department_id = d.id;

JOIN的实现原理

MySQL使用以下算法实现JOIN：

Nested-Loop Join（嵌套循环连接）：
Block Nested-Loop Join（块嵌套循环连接）：
- 将外表数据分块加载到join buffer
- 然后与内表数据比较
Hash Join（MySQL 8.0+）：
- 对小表建立哈希表
- 扫描大表并在哈希表中查找匹配

GROUP BY与聚合函数

GROUP BY将数据分组，通常与聚合函数一起使用：

SELECT department_id, COUNT(*) as emp_count, AVG(salary) as avg_salary
FROM employees
GROUP BY department_id
HAVING avg_salary > 5000;

GROUP BY的工作原理

创建临时表存储分组结果
对于每行数据：
- 计算GROUP BY列的值
- 在临时表中查找对应分组
- 如果找到，更新聚合值；否则创建新分组
应用HAVING条件过滤分组

优化技巧

尽量在GROUP BY中使用索引列
考虑使用松散索引扫描（当GROUP BY列是索引的最左前缀时）
对于大表GROUP BY，适当增加tmp_table_size

子查询

子查询是嵌套在另一个查询中的SELECT语句：

-- 找出薪水高于部门平均薪水的员工
SELECT e.name, e.salary
FROM employees e
WHERE salary > (
    SELECT AVG(salary) 
    FROM employees 
    WHERE department_id = e.department_id
);

子查询的执行方式

MySQL处理子查询主要有三种方式：

物化（Materialization）：
- 将子查询结果存储在临时表中
- 适合不相关子查询
EXISTS策略：
- 将子查询转换为EXISTS判断
- 适合相关子查询
合并（Merge）：
- 将子查询合并到外部查询
- 适用于简单子查询

排序（ORDER BY）

ORDER BY子句对结果集进行排序：

SELECT * FROM products
WHERE category_id = 5
ORDER BY price DESC, stock ASC
LIMIT 10;

排序实现方式

MySQL有两种排序方式：

文件排序（filesort）：
- 当不能使用索引排序时
- 可能在内存或磁盘上进行
索引排序：
- 当ORDER BY列与索引顺序一致时
- 直接从索引读取已排序数据

优化建议

为常用排序条件创建索引
增加sort_buffer_size以减少磁盘排序
避免SELECT *，只选择需要的列

LIMIT分页

LIMIT用于限制返回的行数：

-- 获取第6-15条记录
SELECT * FROM products ORDER BY id LIMIT 5, 10;

分页的性能问题

常见的大偏移量分页性能问题：

-- 低效的分页（偏移量很大时）
SELECT * FROM products ORDER BY id LIMIT 100000, 20;

优化方案：

使用索引覆盖扫描：

SELECT * FROM products 
WHERE id >= (SELECT id FROM products ORDER BY id LIMIT 100000, 1)
LIMIT 20;

记录上次查询的最大ID：

-- 假设上次查询的最大ID是12345
SELECT * FROM products WHERE id > 12345 ORDER BY id LIMIT 20;

EXPLAIN分析执行计划

要深入理解DQL的执行细节，必须掌握EXPLAIN：

EXPLAIN SELECT e.name, d.department_name 
FROM employees e
JOIN departments d ON e.department_id = d.id
WHERE e.salary > 5000
ORDER BY e.join_date;

EXPLAIN结果中的关键列：

type：访问类型（const, ref, range, index, ALL）
key：实际使用的索引
rows：预估需要检查的行数
Extra：额外信息（Using index, Using filesort等）

索引与查询优化

索引类型

B-Tree索引：最常用，适合全值、范围、前缀查找
哈希索引：精确匹配快，不支持范围查询
全文索引：用于文本搜索
空间索引：用于地理数据

索引选择原则

高选择性的列适合建索引（区分度高）
常用在WHERE、JOIN、ORDER BY中的列
避免过度索引（影响写入性能）
考虑复合索引的最左前缀原则

索引失效的常见情况

对索引列使用函数或表达式：

-- 不会使用create_time索引
SELECT * FROM orders WHERE DATE(create_time) = '2023-01-01';

隐式类型转换：

-- user_id是varchar类型，但传入数字
SELECT * FROM users WHERE user_id = 123;

使用OR条件：

-- 如果name或age中有一个没索引，整个查询可能不使用索引
SELECT * FROM users WHERE name = 'John' OR age = 30;

高级查询技巧

窗口函数（MySQL 8.0+）

-- 计算每个部门的薪水排名
SELECT 
    name, 
    department_id, 
    salary,
    RANK() OVER (PARTITION BY department_id ORDER BY salary DESC) as dept_rank
FROM employees;

Common Table Expressions (CTE)

WITH dept_stats AS (
    SELECT 
        department_id,
        AVG(salary) as avg_salary
    FROM employees
    GROUP BY department_id
)
SELECT e.name, e.salary, ds.avg_salary
FROM employees e
JOIN dept_stats ds ON e.department_id = ds.department_id
WHERE e.salary > ds.avg_salary;