MYSQL优化(2)
提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
第一章 MYSQL优化(1)——架构介绍
第二章 MYSQL优化(2)——SQL的优化1
第三章 MYSQL优化(3)——SQL的优化2
第四章 MYSQL优化(4)——锁的机制
第五章 MYSQL优化(5)——主从配置
提示:以下是本篇文章正文内容,下面案例可供参考
一、mysql优化从哪入手?
1.1数据库设计:
这是从大的方面,架构方面来设计数据库,设计得有病的数据库,后面的优化也没得救
主要设计数据库设计的 3大范式,以及根据实际,适度进行反范式(效率--空间)
1.2.sql语句优化:
sql语句优化,其实通常是select查询优化,那么索引一定不能避免了
**所以这一节的重点就是如何正确高效的使用索引,以及如何查看和分析sql语句的效率**
1.3.数据库参数配置:
默认的MySQL考虑的是一般机器的通用性,所以有可能没有真正发挥MySQL最大的性能,
这时候就可以根据电脑的配置来设置,让MySQL发挥最大威力。
1.4.恰当的硬件资源和操作系统:
这个是实际使用中息息相关的
这一章节我们主要对1.2sql语句优化进行详细的说明,其余的放在其他章节进行分享。
二、慢 SQL分析
- 查询语句写的烂
- 索引失效:
: 单值索引:在user表中给name属性建个索引,create index idx_user_name on user(name)
: 复合索引:在user表中给name、email属性建个索引,create index idx_user_nameEmail on user(name,email) - 关联查询太多join(设计缺陷或不得已的需求)
三、SQL实际的执行顺序
mysql 执行的顺序:随着 Mysql 版本的更新换代, 其优化器也在不断的升级, 优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序。下表是常见的读取方式。
MYSQL数据库SQL解析的步骤如下图所示:
四、关于常用的JOIN关联
对于常用的join关联这边做一个详细的说明,主要包含7中关联,如下图所示:
4.1.建表语句
CREATE TABLE tbl_dept(
id INT(11) NOT NULL AUTO_INCREMENT,
deptName VARCHAR(30) DEFAULT NULL,
locAdd VARCHAR(40) DEFAULT NULL,
PRIMARY KEY(id)
)ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
CREATE TABLE tbl_emp (
id INT(11) NOT NULL AUTO_INCREMENT,
NAME VARCHAR(20) DEFAULT NULL,
deptId INT(11) DEFAULT NULL,
PRIMARY KEY (id),
KEY fk_dept_Id (deptId)
#CONSTRAINT 'fk_dept_Id' foreign key ('deptId') references 'tbl_dept'('Id')
)ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
INSERT INTO tbl_dept(deptName,locAdd) VALUES('RD',11);
INSERT INTO tbl_dept(deptName,locAdd) VALUES('HR',12);
INSERT INTO tbl_dept(deptName,locAdd) VALUES('MK',13);
INSERT INTO tbl_dept(deptName,locAdd) VALUES('MIS',14);
INSERT INTO tbl_dept(deptName,locAdd) VALUES('FD',15);
INSERT INTO tbl_emp(NAME,deptId) VALUES('z3',1);
INSERT INTO tbl_emp(NAME,deptId) VALUES('z4',1);
INSERT INTO tbl_emp(NAME,deptId) VALUES('z5',1);
INSERT INTO tbl_emp(NAME,deptId) VALUES('w5',2);
INSERT INTO tbl_emp(NAME,deptId) VALUES('w6',2);
INSERT INTO tbl_emp(NAME,deptId) VALUES('s7',3);
INSERT INTO tbl_emp(NAME,deptId) VALUES('s8',4);
INSERT INTO tbl_emp(NAME,deptId) VALUES('s9',51);
4.2.笛卡尔积
SQL命令:
select * from tbl_emp, tbl_dept;
说明:
tbl_emp 表和 tbl_dept 表的笛卡尔乘积;其结果集的个数为:5 * 8 = 40
4.3.inner join 关系
SQL命令:
select * from tbl_emp e inner join tbl_dept d on e.deptId = d.id;
说明:
tbl_emp 表和 tbl_dept 的交集部分(公共部分)
4.4.left join 关系
SQL命令:
select * from tbl_emp e left join tbl_dept d on e.deptId = d.id;
说明:
tbl_emp 与 tbl_dept 的公共部分 + tbl_emp 表的独有部分;left join:取左表独有部分 + 两表公共部分
4.5.right join 关系
SQL命令:
select * from tbl_emp e right join tbl_dept d on e.deptId = d.id;
说明:
tbl_emp 与 tbl_dept 的公共部分 + tbl_dept表的独有部分;right join:取右表独有部分 + 两表公共部分
4.6.left join without common part 关系
SQL命令:
select * from tbl_emp e left join tbl_dept d on e.deptId = d.id where d.id is null;
说明:
tbl_emp 表的独有部分:将 left join 结果集中的两表公共部分去掉即可:where d.id is null
4.7.right join without common part 关系
SQL命令:
select * from tbl_emp e right join tbl_dept d on e.deptId = d.id where e.id is null;
说明:
tbl_dept表的独有部分:将 right join 结果集中的两表公共部分去掉即可:where e.id is null
4.8.full join关系
SQL命令:
select * from tbl_emp e left join tbl_dept d on e.deptId = d.id union select * from tbl_emp e right join tbl_dept d on e.deptId = d.id;
说明:
1.mysql 不支持 full join ,但是我们可以通过骚操作实现 full join ,union 关键字用于连接结果集,并且自动去重
2.tbl_emp 与 tbl_dept 的公共部分 + tbl_emp 表的独有部分 + tbl_dept表的独有部分:将 left join 的结果集和 right join 的结果集使用 union 合并即可
4.9.full join without common part关系
SQL命令:
select * from tbl_emp e left join tbl_dept d on e.deptId = d.id where d.id is null union select * from tbl_emp e right join tbl_dept d on e.deptId = d.id where e.id is null;
说明:
tbl_emp 表的独有部分 + tbl_dept表的独有部分
五、索引的说明
5.1.啥是索引
- MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。可以得到索引的本质:索引是数据结构
- 你可以简单理解为"排好序的快速查找数据结构",即索引 = 排序 + 查找
- 一般来说索引本身占用内存空间也很大,不可能全部存储在内存中,因此索引往往以文件形式存储在硬盘上
- 我们平时所说的索引,如果没有特别指明,都是指B树(多路搜索树,并不一定是二叉树)结构组织的索引。
- 聚集索引,次要索引,覆盖索引,复合索引,前缀索引,唯一索引默认都是使用B+树索引,统称索引。当然,除了B+树这种类型的索引之外,还有哈希索引(hash index)等。
总结:1索引时数据结构;2用于排序+查询;3一般存在硬盘上;4常用的是B+树的类型。
5.2.索引原理
- 在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。
- 下图就是一种可能的索引方式示例:
说明:左边是数据表,一共有两列七条记录,最左边的十六进制数字是数据记录的物理地址
为了加快col2的查找,可以维护一个右边所示的二叉查找树,每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针,这样就可以运用二叉查找在一定的复杂度内获取到相应数据,从而快速的检索出符合条件的记录。
总结:1在维护数据表的同时维护着另一个数据结构,用于快速定位到表行信息的位置。类似于java中Map的hash值。
5.3.索引优劣势
优势:查询+排序
1.查询上:提高数据检索效率,降低数据库的IO成本
2.排序上:通过索引列对数据进行排序,降低数据排序成本,降低了CPU的消耗
劣势:
1.占用空间的----实际上索引也是一张表,该表保存了主键和索引字段,并指向实体表的记录
2.降低更新表的速度----对表INSERT,UPDATE和DELETE。因为更新表时,MySQL不仅要不存数据,还要保存一下索引文件每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息
3.花时间研究建立优秀的索引,或优化查询语句----索引只是提高效率的一个因素,如果你的MySQL有大数据量的表,就需要花时间研究建立优秀的索引,或优化查询语句
5.4.MySQL 索引分类
参考资料:https://www.cnblogs.com/luyucheng/p/6289714.html
1.普通索引:是最基本的索引,它没有任何限制,即一个索引只包含单个列,一个表可以有多个单列索引;建议一张表索引不要超过5个,优先考虑复合索引
2.唯一索引:与前面的普通索引类似,不同的就是:索引列的值必须唯一,但允许有空值。如果是组合索引,则列值的组合必须唯一
3.主键索引:是一种特殊的唯一索引,一个表只能有一个主键,不允许有空值。一般是在建表的时候同时创建主键索引:
4.复合索引:指多个字段上创建的索引,只有在查询条件中使用了创建索引时的第一个字段,索引才会被使用。使用组合索引时遵循最左前缀集合
5.全文索引:主要用来查找文本中的关键字,而不是直接与索引中的值相比较。fulltext索引跟其它索引大不相同,它更像是一个搜索引擎,而不是简单的where语句的参数匹配
5.5.MySQL 索引语法
创建索引:
SQL语句:
CREATE [UNIQUE] INDEX indexName ON mytable(columnname(length));
’ or ’
ALTER mytable ADD [UNIQUE] INDEX [indexName] ON(columnname(length));
SQL说明:
1.如果是CHAR和VARCHAR类型,length可以小于字段实际长度;
2.如果是BLOB和TEXT类型,必须指定length。
删除索引:
SQL语句:
DROP INDEX [indexName] ON mytable;
查看索引(\G表示将查询到的横向表格纵向输出,方便阅读):
SQL语句:
SHOW INDEX FROM table_name\G。
使用 ALTER 命令,有四种方式来添加数据表的索引:
SQL语句:
> 1.ALTER TABLE tbl_name ADD PRIMARY KEY(column_list):
该语句添加一个主键,这意味着索引值必须是唯一的,且不能为NULL。
2.ALTER TABLE tbl_name ADD UNIQUE index_name(column_list):
这条语句创建索引的值必须是唯一的(除了NULL外,NULL可能会出现多次)。
3.ALTER TABLE tbl_name ADD INDEX index_name(column_list):.
添加普通索引,索引值可出现多次。
4.ALTER TABLE tbl_name ADD FULLTEXT index_name(column_list):
该语句指定了索引为FULLTEXT,用于全文索引。
5.6.MySQL 索引结构
5.6.1、Btree 索引
【初始化介绍】
- 一颗 b 树, 浅蓝色的块我们称之为一个磁盘块, 可以看到每个磁盘块包含几个数据项(深蓝色所示) 和指针(黄色所示)
- 如磁盘块 1 包含数据项 17 和 35, 包含指针 P1、 P2、 P3
- P1 表示小于 17 的磁盘块, P2 表示在 17 和 35 之间的磁盘块, P3 表示大于 35 的磁盘块
- 真实的数据存在于叶子节点和非叶子节点中
【查找过程】
- 如果要查找数据项 29, 那么首先会把磁盘块 1 由磁盘加载到内存, 此时发生一次 IO, 在内存中用二分查找确定 29在 17 和 35 之间, 锁定磁盘块 1 的 P2 指针, 内存时间因为非常短(相比磁盘的 IO) 可以忽略不计
- 通过磁盘块 1的 P2 指针的磁盘地址把磁盘块 3 由磁盘加载到内存, 发生第二次 IO, 29 在 26 和 30 之间, 锁定磁盘块 3 的 P2 指针
- 通过指针加载磁盘块 8 到内存, 发生第三次 IO, 同时内存中做二分查找找到 29, 结束查询, 总计三次 IO。
5.6.2、B+tree 索引
【B+Tree 与 BTree 的查找过程】
- 在 B 树中, 越靠近根节点的记录查找时间越快, 只要找到关键字即可确定记录的存在; 而 B+ 树中每个记录的查找时间基本是一样的, 都需要从根节点走到叶子节点, 而且在叶子节点中还要再比较关键字。
- 从这个角度看 B 树的性能好像要比 B+ 树好, 而在实际应用中却是 B+ 树的性能要好些。 因为 B+ 树的非叶子节点不存放实际的数据,这样每个节点可容纳的元素个数比 B 树多, 树高比 B 树小, 这样带来的好处是减少磁盘访问次数。
- 尽管 B+ 树找到一个记录所需的比较次数要比 B 树多, 但是一次磁盘访问的时间相当于成百上千次内存比较的时间, 因此实际中B+ 树的性能可能还会好些, 而且 B+树的叶子节点使用指针连接在一起, 方便顺序遍历(范围搜索), 这也是很多数据库和文件系统使用 B+树的缘故。
总结:Btree 索引与B+tree 索引 区别
1.Btree索引数据与关键词是绑定的,即找到关键词就找到数据即找到数据,问题是占用空间大,一次读取不了很多数据,就会增加IO读取的次数,影响查询性能;但b+tree索引,则关键词与数据是分离的,只做了映射关系,一次读取到内容多,会减少IO读取的次数。
2.B+树的查询效率更加稳定:由于非终结点并不是最终指向文件内容的结点, 而只是叶子结点中关键字的索引。 所以任何关键字的查找必须走一条从根结点到叶子结点的路。 所有关键字查询的路径长度相同, 导致每一个数据的查询效率相当。
5.7.何时需要建索引
哪些情况下适合建立索引
- 主键自动建立唯一索引
- 频繁作为查询的条件的字段应该创建索引
- 查询中与其他表关联的字段,外键关系建立索引
- 查询中排序的字段,排序字段若通过索引去访问将大大提高排序的速度
- 查询中统计或者分组字段
哪些情况下不适合建立索引
- 频繁更新的字段不适合创建索引
- Where 条件里用不到的字段不创建索引
- 表记录太少
- 经常增删改的表
- 数据重复且分布平均的表字段,因此应该只为经常查询和经常排序的数据列建立索引。注意,如果某个数据列包含许多重复的内容,为它建立索引就没有太大的实际效果。
注:单间/组合索引的选择问题(在高并发下倾向创建组合索引)
5.7.性能分析
5.7.1.概述
MySQL 常见瓶颈
- CPU 瓶颈:CPU在饱和的时候一般发生在数据装入在内存或从磁盘上读取数据时候
- IO 瓶颈:磁盘I/O瓶颈发生在装入数据远大于内存容量时
- 服务器硬件的性能瓶颈:top、free、iostat和vmstat来查看系统的性能状态
MySQL Query Optimizer 的作用-----对sql的执行计划进行优化
- MySQL 中有专门负责优化SELECT语句的优化器模块,主要功能:通过计算分析系统中收集到的统计信息,为客户端请求的Query提供他认为最优的执行计划(MySQL认为最优的数据检索方式,但不见得是DBA认为是最优的,这部分最耗费时间)
- 当客户端向MySQL 请求一条Query,命令解析器模块完成请求分类,区别出是SELECT并转发给MySQL Query Optimizer时,MySQL Query Optimizer 首先会对整条Query进行优化,处理掉一些常量表达式的预算,直接换算成常量值。并对Query中的查询条件进行简化和转换,如去掉一些无用或显而易见的条件、结构调整等。然后分析 Query中的Hint信息(如果有),看显示Hint信息是否可以完全确定该Query的执行计划。如果没有Hint 或Hint 信息还不足以完全确定执行计划,则会读取所涉及对象的统计信息,根据Query进行写相应的计算分析,然后再得出最后的执行计划。
实现准备:
CREATE TABLE t1(id INT(10) AUTO_INCREMENT,content VARCHAR(100) NULL , PRIMARY KEY (id));
CREATE TABLE t2(id INT(10) AUTO_INCREMENT,content VARCHAR(100) NULL , PRIMARY KEY (id));
CREATE TABLE t3(id INT(10) AUTO_INCREMENT,content VARCHAR(100) NULL , PRIMARY KEY (id));
CREATE TABLE t4(id INT(10) AUTO_INCREMENT,content VARCHAR(100) NULL , PRIMARY KEY (id));
INSERT INTO t1(content) VALUES(CONCAT(‘t1_’,FLOOR(1+RAND()*1000)));
INSERT INTO t2(content) VALUES(CONCAT(‘t2_’,FLOOR(1+RAND()*1000)));
INSERT INTO t3(content) VALUES(CONCAT(‘t3_’,FLOOR(1+RAND()*1000)));
INSERT INTO t4(content) VALUES(CONCAT(‘t4_’,FLOOR(1+RAND()*1000)));
5.7.2.Explain 说明
- 使用EXPLAIN关键字可以模拟优化器执行SQL语句,从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是结构的性能瓶颈。
- 官网地址:https://dev.mysql.com/doc/refman/8.0/en/explain-output.html
- 实际案例操作:Explain + SQL语句 ------ explain select * from tbl_emp;
5.7.3.Explain 详解
主要参数列表:主要关注-----id+table+type+key+ref
- id:select查询的序列号,包含一组数字,表示查询中执行select子句或操作表的顺序
- select_type:查询的类型,主要用于区别普通查询、联合查询、子查询等复杂查询
- table:显示这一行的数据是关于哪张表的
- type:访问类型排列,显示查询使用了何种类型
- possible_keys:A.显示可能应用在这张表中的索引,一个或多个;B.若查询涉及的字段上存在索引,则该索引将被列出,但不一定被查询实际使用
- key:A实际使用的索引,如果为null,则没有使用索引;B若查询中使用了覆盖索引,则该索引仅出现在key列表中
- key_len:A.表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度。在不损失精确性的情况下,长度越短越好;B.key_len显示的值为索引最大可能长度,并非实际使用长度,即key_len是根据表定义计算而得,不是通过表内检索出的
- ref:A显示索引哪一列被使用了,如果可能的话,最好是一个常数。哪些列或常量被用于查找索引列上的值;B由key_len可知t1表的索引idx_col1_col2被充分使用,t1表的col1匹配t2表的col1,t1表的col2匹配了一个常量,即’ac’
- rows:根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数
- Extra:包含不适合在其他列中显示但十分重要的额外信息
5.7.3.1.id: select查询的序列号,包含一组数字,表示查询中执行select子句或操作表的顺序
id存在3中情况:
A.id相同,执行顺序由上至下
B.id不同,如果是子查询,id的序号会递增,id值越大优先级越高,越先被执行
C.id相同不同,同时存在:id如果相同,可以认为是一组,从上往下顺序执行;在所有组中,id值越大,优先级越高,越先执行;衍生=DERIVED\
A.反映id相同情况------explain select * from t1,t2,t3 where t1.id=t2.id and t2.id=t3.id
B.反映id不同情况------explain select t2.* from t2 where id =(select id from t1 where id =(select t3.id from t3 where t3.content=’’))
5.7.3.2.select_type:查询的类型,主要用于区别普通查询、联合查询、子查询等复杂查询
类型 | 说明 |
---|---|
SIMPLE | 简单的select查询,查询中不包含子查询或者UNION |
PRIMARY | 查询中若包含任何复杂的子部分,最外层查询则被标记为PRIMARY |
SUBQUERY | 在SELECT或者WHERE列表中包含了子查询 |
DERIVED | 在FROM列表中包含的子查询被标记为DERIVED(衍生)MySQL会递归执行这些子查询,把结果放在临时表里 |
UNION | 在SELECT或者WHERE列表中包含了子查询 |
SUBQUERY | 若第二个SELECT出现在UNION之后,则被标记为UNION;若UNION包含在FROM子句的子查询中,外层SELECT将被标记为:DERIVED |
UNION RESULT | 从UNION表获取结果的SELECT |
案例说明:EXPLAIN SELECT * FROM tbl_emp e LEFT JOIN tbl_dept d ON e.deptId = d.id UNION SELECT * FROM tbl_emp e RIGHT JOIN tbl_dept d ON e.deptId = d.id;
5.7.3.3.table:显示这一行的数据是关于哪张表的,就不做解释了
5.7.3.4.type:访问类型排列,显示查询使用了何种类型
- type显示的是访问类型,是较为重要的一个指标,结果值从最好到最坏依次是:system>const>eq_ref>ref>fultext>ref_or_null>index_merge>unique_subquery>index_subquery>range>index>ALL
- 挑重要的来说:system>const>eq_ref>ref>range>index>ALL,一般来说,得保证查询至少达到range级别,最好能达到ref。
类型 | 说明 |
---|---|
system | 表只有一行记录(等于系统表),这是const类型的特例,平时不会出现,这个也可以忽略不计 |
const | 表示通过索引一次就找到了,const用于比较primary key或者unique索引。因为只匹配一行数据,所以很快。如将主键置于where列表中,MySQL就能将该查询转换为一个常量 |
eq_ref | 唯一性索引,对于每个索引键,表中只有一条记录与之匹配,常见于主键或唯一索引扫描 |
ref | 非唯一索引扫描,返回匹配某个单独值的所有行。本质上也是一种索引访问,它返回所有匹配某个单独值的行,然而,它可能会找到多个符合条件的行,所以他应该属于查找和扫描的混合体 |
range | 只检索给定范围的行,使用一个索引来选择行。key列显示使用了哪个索引一般就是在你的where语句中出现了between、<、>、in等的查询这种范围扫描索引扫描比全表扫描要好,因为他只需要开始索引的某一点,而结束于另一点,不用扫描全部索引 |
index | Full Index Scan,index与ALL区别为index类型只遍历索引树。这通常比ALL快,因为索引文件通常比数据文件小。(也就是说虽然all和index都是读全表,但index是从索引中读取的,而all是从硬盘数据库文件中读的) |
all | FullTable Scan,将遍历全表以找到匹配的行(全表扫描) |
举例说明:
A.const SQL语句:
EXPLAIN SELECT * FROM (select * from t1 where id =1) d1
B.eq_ref SQL语句:
EXPLAIN SELECT * FROM t1,t2 where t1.id =t2.id
C.ref SQL语句:
EXPLAIN SELECT * FROM t1 where content =‘t1_852’
D.range SQL语句
EXPLAIN SELECT * FROM t1 where id between 30 and 50
E.index SQL语句:
EXPLAIN SELECT * FROM t1 where id
F.all SQL语句:
EXPLAIN SELECT * FROM t1
备注:一般来说,得保证查询只是达到range级别,最好达到ref
5.7.3.5.possible_keys
- 显示可能应用在这张表中的索引,一个或多个
- 若查询涉及的字段上存在索引,则该索引将被列出,但不一定被查询实际使用
5.7.3.6. key
- 实际使用的索引,如果为null,则没有使用索引
- 若查询中使用了覆盖索引,则该索引仅出现在key列表中
5.7.3.6. key_len
- 表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度。在不损失精确性的情况下,长度越短越好
- key_len显示的值为索引最大可能长度,并非实际使用长度,即key_len是根据表定义计算而得,不是通过表内检索出的
5.7.3.7. ref
- 显示索引哪一列被使用了,如果可能的话,最好是一个常数。哪些列或常量被用于查找索引列上的值
- 由key_len可知t1表的索引idx_col1_col2被充分使用,t1表的col1匹配t2表的col1,t1表的col2匹配了一个常量,即’ac’
5.7.3.7. rows
- 根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数
5.7.3.7. Extra
- Using filesort(文件排序):
- MySQL中无法利用索引完成排序操作成为“文件排序”
- 说明mysql会对数据使用一个外部的索引排序,而不是按照表内的索引顺序进行读取
- 出现 Using filesort 不好(九死一生),需要尽快优化 SQL
- 示例中第一个查询只使用了 col1 和 col3,原有索引派不上用场,所以进行了外部文件排序
- 示例中第二个查询使用了 col1、col2 和 col3,原有索引派上用场,无需进行文件排序
- Using temporary(创建临时表):
1.使用了临时表保存中间结果,MySQL在对查询结果排序时使用临时表。常见于排序 order by 和分组查询 group by
2.出现 Using temporary 超级不好(十死无生),需要立即优化 SQL
3.示例中第一个查询只使用了 col1,原有索引派不上用场,所以创建了临时表进行分组
4.示例中第二个查询使用了 col1、col2,原有索引派上用场,无需创建临时表
- Using index(覆盖索引):
1.表示相应的select操作中使用了覆盖索引(Coveing Index),避免访问了表的数据行,效率不错!
2如果同时出现using where,表明索引被用来执行索引键值的查找
3.如果没有同时出现using where,表明索引用来读取数据而非执行查找动作
- Using index(覆盖索引):**
1.表示相应的select操作中使用了覆盖索引(Coveing Index),避免访问了表的数据行,效率不错!理解方式一:就是select的数据列只用从索引中就能够取得,不必读取数据行,MySQL可以利用索引返回select列表中的字段,而不必根据索引再次读取数据文件,换句话说查询列要被所建的索引覆盖。
2.理解方式二:索引是高效找到行的一个方法,但是一般数据库也能使用索引找到一个列的数据,因此它不必读取整个行。毕竟索引叶子节点存储了它们索引的数据;当能通过读取索引就可以得到想要的数据,那就不需要读取行了。一个索引包含了(或覆盖了)满足查询结果的数据就叫做覆盖索引。
注意:如果要使用覆盖索引,一定要注意select列表中只取出需要的列,不可select * ,因为如果将所有字段一起做索引会导致索引文件过大,查询性能下降 - Using where:表明使用了where过滤**
- Using join buffer:表明使用了连接缓存**
- impossible where:where子句的值总是false,不能用来获取任何元组**
- distinct:优化distinct,在找到第一匹配的元组后即停止找同样值的工作
5.8.索引优化
5.8.1.单表索引优化
1.案例建表 SQL
CREATE TABLE IF NOT EXISTS article(
id INT(10) UNSIGNED NOT NULL PRIMARY KEY AUTO_INCREMENT,
author_id INT(10) UNSIGNED NOT NULL,
category_id INT(10) UNSIGNED NOT NULL,
views INT(10) UNSIGNED NOT NULL,
comments INT(10) UNSIGNED NOT NULL,
title VARCHAR(255) NOT NULL,
content TEXT NOT NULL
);
INSERT INTO article(author_id,category_id,views,comments,title,content)
VALUES
(1,1,1,1,'1','1'),
(2,2,2,2,'2','2'),
(1,1,3,3,'3','3');
2.查询案例:查询category_id为1且comments 大于1的情况下,views最多的article_id。
SQL语句为:SELECT id, author_id FROM article WHERE category_id = 1 AND comments > 1 ORDER BY views DESC LIMIT 1;
思考:对于单表大数据量的优化点:
1.是否创建索引? 2如何创建索引? 3如何保持索引不失效?
3.查看目前该表的索引有哪些:
使用SQL :SHOW INDEX FROM article;
如下图所示:目前只有主键id一个主键索引。
4.使用 explain 分析 SQL 语句的执行效率:
EXPLAIN SELECT id, author_id FROM article WHERE category_id = 1 AND comments > 1 ORDER BY views DESC LIMIT 1;
结果:必须优化
1.type是ALL,即最坏的情况。
2.Extra 里还出现了Using filesort,也是最坏的情况。
5.优化一:为这可以经历逐步优化,我们先创建一个3个字段的复合索引。选其中一个语句一或二即可。
语句一:ALTER TABLE article ADD INDEX idx_article_ccv(‘category_id’, ‘comments’, ‘views’);
语句二:create index idx_article_ccv on article(category_id, comments, views);
语句三:SHOW INDEX FROM article; 如图所示:已创建成功
执行上述4的分析语句:发现 type变为range,第一步已经完成,但是仍旧有Using filesort。
思考为什么呢?
5.1但是我们已经建立了索引,为啥没用呢?
5.2这是因为按照B+Tree索引的工作原理,先排序 category_id,如果遇到相同的 category_id 则再排序comments,如果遇到相同的 comments 则再排序 views。
5.3当comments字段在联合索引里处于中间位置时,因为comments>1条件是一个范围值(所谓 range),MySQL 无法利用索引再对后面的views部分进行检索,即 range 类型查询字段后面的索引无效。
将查询条件中的 comments > 1 改为 comments = 1 ,发现 Use filesort 神奇地消失了,从这点可以验证:范围后的索引会导致索引失效。
5.优化二:由于 range 后(comments > 1)的索引会失效,这次我们建立索引时,直接抛弃 comments 列,先利用 category_id 和 views 的联合索引查询所需要的数据,再从其中取出 comments > 1 的数据。开干!删除原索引:DROP INDEX idx_article_ccv ON article;
创建新索引:create index idx_article_ccv on article(category_id, views);
执行上述4的分析语句:type为ref,extra中Using filesort消失,此次优化O。
5.8.2.两表索引优化
1.案例建表 SQL
CREATE TABLE IF NOT EXISTS class(
id INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
card INT(10) UNSIGNED NOT NULL,
PRIMARY KEY(id)
);
CREATE TABLE IF NOT EXISTS book(
bookid INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
card INT(10) UNSIGNED NOT NULL,
PRIMARY KEY(bookid)
);
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO class(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO book(card) VALUES(FLOOR(1+(RAND()*20)));
2.查询案例:实现两表的连接,连接条件是 class.card = book.card
SQL语句为: SELECT * FROM class LEFT JOIN book ON class.card = book.card;
3.使用 explain 分析 SQL 语句的性能,可以看到:驱动表是左表 class 表
结论:
type 有 All ,rows 为表中数据总行数,说明 class 和 book 进行了全表检索
即每次 class 表对 book 表进行左外连接时,都需要在 book 表中进行一次全表检索
4.添加索引:在右表添加索引
语句一:ALTER TABLE ‘book’ ADD INDEX Y (‘card’);
分析如图所示:可以看到第二行的type变为了ref,rows也变成了优化比较明显。
总结:
1.这是由左连接特性决定的。LEFT JOIN条件用于确定如何从右表搜索行,左边一定都有,所以右边是我们的关键点,一定需要建立索引。
2.左表连接右表,则需要拿着左表的数据去右表里面查,索引需要在右表中建立索引
5.8.3.三表索引优化
1.案例建表 SQL
CREATE TABLE IF NOT EXISTS phone(
phoneid INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
card INT(10) UNSIGNED NOT NULL,
PRIMARY KEY(phoneid)
)ENGINE=INNODB;
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
INSERT INTO phone(card) VALUES(FLOOR(1+(RAND()*20)));
2.查询案例:实现三表的连接查询:
SQL语句为:SELECT * FROM class LEFT JOIN book ON class.card = book.card LEFT JOIN phone ON book.card = phone.card;
结论:
type 有All ,rows 为表数据总行数,说明 class、 book 和 phone 表都进行了全表检索
Extra 中 Using join buffer ,表明连接过程中使用了 join 缓冲区
3.优化:创建索引的 SQL 语句
ALTER TABLE book ADD INDEX Y (card);
ALTER TABLE phone ADD INDEX Z (card);
4.Join 语句优化的结论
将 left join 看作是两层嵌套 for 循环
A尽可能减少Join语句中的NestedLoop的循环总次数;
B永远用小结果集驱动大的结果集(在大结果集中建立索引,在小结果集中遍历全表);
C优先优化NestedLoop的内层循环;
D保证Join语句中被驱动表上Join条件字段已经被索引;
E当无法保证被驱动表的Join条件字段被索引且内存资源充足的前提下,不要太吝惜JoinBuffer的设置;
5.总结:
A使用小表驱动大表,这就相当于外层 for 循环的次数少,内层 for 循环的次数多
B然后我们在大表中建立了索引,这样内层 for 循环的效率明显提高
<C综上,使用小表驱动大表,在大表中建立了索引
5.9.避免索引失效
案例:建表 SQL语句
CREATE TABLE staffs(
id INT PRIMARY KEY AUTO_INCREMENT,
`name` VARCHAR(24)NOT NULL DEFAULT'' COMMENT'姓名',
`age` INT NOT NULL DEFAULT 0 COMMENT'年龄',
`pos` VARCHAR(20) NOT NULL DEFAULT'' COMMENT'职位',
`add_time` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT'入职时间'
)CHARSET utf8 COMMENT'员工记录表';
INSERT INTO staffs(`name`,`age`,`pos`,`add_time`) VALUES('z3',22,'manager',NOW());
INSERT INTO staffs(`name`,`age`,`pos`,`add_time`) VALUES('July',23,'dev',NOW());
INSERT INTO staffs(`name`,`age`,`pos`,`add_time`) VALUES('2000',23,'dev',NOW());
ALTER TABLE staffs ADD INDEX index_staffs_nameAgePos(`name`,`age`,`pos`);
5.9.1索引失效判断准则
1.全值匹配我最爱
2.最佳左前缀法则:如果索引了多例,要遵守最左前缀法则。指的是查询从索引的最左前列开始并且不跳过索引中的列。
3.不在索引列上做任何操作(计算、函数、(自动or手动)类型转换),会导致索引失效而转向全表扫描
4.存储引擎不能使用索引中范围条件右边的列
5.尽量使用覆盖索引(只访问索引的查询(索引列和查询列一致)),减少select *
6.mysql在使用不等于(!=或者<>)的时候无法使用索引会导致全表扫描
7.is null,is not null 也无法使用索引(早期版本不能走索引,后续版本应该优化过,可以走索引)
8.like以通配符开头(’%abc…’)mysql索引失效会变成全表扫描操作
9.字符串不加单引号索引失效
10.少用or,用它连接时会索引失效
最佳左匹配法则:带头大哥不能死,中间兄弟不能断
-
1.只有带头大哥 name 时
- SQL语句: EXPLAIN SELECT * FROM staffs WHERE name = ‘July’;
- key = index_staffs_nameAgePos 表明索引生效
- ref = const :这个常量就是查询时的 ‘July’ 字符串常量
-
2.带头大哥 name 带上小弟 age
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND age = 23;
-
key = index_staffs_nameAgePos 表明索引生效
ref = const,const:两个常量分别为 ‘July’ 和 23
-
3.带头大哥 name 带上小弟 age ,小弟 age 带上小弟 pos
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND age = 23 AND pos = ‘dev’;
-
key = index_staffs_nameAgePos 表明索引生效
ref = const,const,const :三个常量分别为 ‘July’、23 和 ‘dev’
-
4.若带头大哥 name 挂了
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE age = 23 AND pos = ‘dev’;
-
key = NULL 说明索引失效
ref = null 表示 ref 也失效
5.若带头大哥 name 没挂,小弟 age 跑了
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND pos = ‘dev’;
-
key = index_staffs_nameAgePos 说明索引没有失效
ref = const 表明只使用了一个常量,即第二个常量(pos = ‘dev’)没有生效
5.若带头大哥 name 没挂,小弟 age 跑了
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND pos = ‘dev’;
-
key = index_staffs_nameAgePos 说明索引没有失效
ref = const 表明只使用了一个常量,即第二个常量(pos = ‘dev’)没有生效
在索引列上进行计算,会导致索引失效,进而转向全表扫描
-
1.不对带头大哥 name 进行任何操作:key = index_staffs_nameAgePos 表明索引生效
-
SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = ‘July’;
2.对带头大哥 name 进行操作:使用 LEFT 函数截取子串
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE LEFT(name,4) = ‘July’;
- key = NULL 表明索引生效
-
type = ALL 表明进行了全表扫描
范围之后全失效
-
1.精确匹配
- SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND age = 23 AND pos = ‘dev’;
- type = ref 表示非唯一索引扫描,SQL 语句将返回匹配某个单独值的所有行。
- key_len = 140 表明表示索引中使用的字节数
-
2.将 age 改为范围匹配
-
SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND age > 23 AND pos = ‘dev’;
:type = range 表示范围扫描
:key = index_staffs_nameAgePos 表示索引并没有失效
:key_len = 78 ,ref = NULL 均表明范围搜索使其后面的索引均失效
**尽量使用覆盖索引(只访问索引的查询(索引列和查询列一致)),减少 select ***
-
1.使用select * 的操作
-
SQL语句:EXPLAIN SELECT * FROM staffs WHERE name = 'July’AND age > 23 AND pos = ‘dev’;
2.使用覆盖索引的写法
-
SQL语句:EXPLAIN SELECT name, age, pos FROM staffs WHERE name = 'July’AND age > 23 AND pos = ‘dev’;
结论:
1 Extra = Using where; Using index ,Using index 表示使用索引列进行查询,将大大提高查询的效率
2.覆盖索引中包含 range 条件:type = ref 并且 Extra = Using where; Using index ,虽然在查询条件中使用了 范围搜索,但是由于我们只需要查找索引列,所以无需进行全表扫描
mysql在使用不等于(!=或者<>)的时候无法使用索引会导致全表扫描
-
1.使用<> != 的操作
-
SQL语句:EXPLAIN SELECT * FROM staffs WHERE name != ‘July’;
结论:
在使用 != 会 <> 时会导致索引失效:
key = null 表示索引失效
rows = 3 表示进行了全表扫描
is null,is not null 也无法使用索引
-
1.使用is null,is not null 会导致索引失效:key = null 表示索引失效
- SQL语句一:EXPLAIN SELECT * FROM staffs WHERE name is null;
-
SQL语句二:EXPLAIN SELECT * FROM staffs WHERE name is not null;
like % 写最右
1.like 模糊查询在右边,则索引不失效
2.like 模糊查询在左边,则索引失效
3.like在左边失效问题的解决方案:使用覆盖索引
-
1.使用like 模糊查询在右边,则索引不失效
-
SQL语句一:EXPLAIN SELECT * FROM staffs WHERE name like ‘July%’;
2.like 模糊查询在左边,则索引失效
-
SQL语句一:EXPLAIN SELECT * FROM staffs WHERE name like ‘%July’;
SQL语句二:EXPLAIN SELECT * FROM staffs WHERE name like ‘%July%’;
3.like在左边失效问题的解决方案:使用覆盖索引
- 3.1建表SQL语句:
- 3.2索引语句:CREATE INDEX idx_user_nameAge ON tbl_user(name, age);
- 3.3测试语句:
- 3.3.1EXPLAIN SELECT name, age FROM tbl_user WHERE NAME LIKE ‘%aa%’;
- 3.3.2EXPLAIN SELECT name FROM tbl_user WHERE NAME LIKE ‘%aa%’;
- 3.3.3EXPLAIN SELECT age FROM tbl_user WHERE NAME LIKE ‘%aa%’;
- 3.3.4EXPLAIN SELECT id FROM tbl_user WHERE NAME LIKE ‘%aa%’;
- 3.3.5EXPLAIN SELECT id, name FROM tbl_user WHERE NAME LIKE ‘%aa%’;
- 3.3.6EXPLAIN SELECT id, age FROM tbl_user WHERE NAME LIKE ‘%aa%’;
-
3.3.7EXPLAIN SELECT id, name, age FROM tbl_user WHERE NAME LIKE ‘%aa%’;
3.4注:如下 SQL 的索引均会失效:但凡有多余字段,覆盖索引就会失效
3.4.1EXPLAIN SELECT * FROM tbl_user WHERE NAME LIKE ‘%aa%’;
3.4.2EXPLAIN SELECT id, name, age, email FROM tbl_user WHERE NAME LIKE ‘%aa%’;
案例:建表 SQL语句
<font color=#999AAA >
```c
CREATE TABLE staffs(
id INT PRIMARY KEY AUTO_INCREMENT,
`name` VARCHAR(24)NOT NULL DEFAULT'' COMMENT'姓名',
`age` INT NOT NULL DEFAULT 0 COMMENT'年龄',
`pos` VARCHAR(20) NOT NULL DEFAULT'' COMMENT'职位',
`add_time` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT'入职时间'
)CHARSET utf8 COMMENT'员工记录表';
INSERT INTO staffs(`name`,`age`,`pos`,`add_time`) VALUES('z3',22,'manager',NOW());
INSERT INTO staffs(`name`,`age`,`pos`,`add_time`) VALUES('July',23,'dev',NOW());
INSERT INTO staffs(`name`,`age`,`pos`,`add_time`) VALUES('2000',23,'dev',NOW());
ALTER TABLE staffs ADD INDEX index_staffs_nameAgePos(`name`,`age`,`pos`);
字符串不加单引号索引失效;
SQL语句:explain select * from staffs where name=2000;
展示形式:如果字符串忘记写 ‘’ ,那么 mysql 会为我们进行隐式的类型转换,但凡进行了类型转换,索引都会失效
原因:在MYSQL内部做了一次类型转换
少用or,用它连接时会索引失效
SQL语句:explain select * from staffs where name=‘z3’ or name = ‘July’;
5.9.2索引失效总结
一般性建议
- 对于单键索引,尽量选择针对当前query过滤性更好的索引
- 在选择组合索引的时候,当前query中过滤性最好的字段在索引字段顺序中,位置越靠左越好。
- 在选择组合索引的时候,尽量选择可以能包含当前query中的where子句中更多字段的索引
- 尽可能通过分析统计信息和调整query的写法来达到选择合适索引的目的
索引优化的总结
全值匹配我最爱, 最左前缀要遵守;
带头大哥不能死, 中间兄弟不能断;
索引列上少计算, 范围之后全失效;
LIKE 百分写最右, 覆盖索引不写 ;
不等空值还有 OR, 索引影响要注意;
VAR 引号不可丢, SQL 优化有诀窍。