MySQL复习-万字总结

SQL

  • DDL:数据定义语言,用来定义数据库对象(数据库,表,字段)
  • DML:数据操作语言,用来对数据库表中的数据进行增删改
  • DQL:数据查询语言,用来查询数据库中表的记录
  • DCL:数据控制语言,用来创建数据库用户,控制数据库的访问权限

DDL

库操作
show databases; //查看所有数据库
create database 数据库名; //创建数据库
use 数据库名; //选中数据库
select database(); //查看当前属于哪一个数据库
drop database 数据库名; //删除数据库
表操作
show tables; //查看数据库中的所有表信息
create table 表名 (字段 字段类型,字段 字段类型); // 创建表
desc 表名; // 查看表结构
show create table 表名; //查看创建表的sql语句
alter table 表名 add/modify/change/drop/rename to ...  ; //表字段的增改删,表重命名
drop table 表名; // 删除表
truncate table 表名; // 表内容格式化
创建表
create table employee(
	id int comment '编号',
    workno varchar(10) comment '员工工号',
    name varchar(10) comment '员工姓名',
    gender char(1) comment '性别',
    age tinyint unsigned comment '年龄',
    idcard char(18) comment '身份证号',
 	entrydate date comment '入职时间'
)comment '员工表';
添加字段
alter table 表名 add 字段名 类型(长度) [comment 注释] [约束];
修改数据类型
alter table 表名 modify 字段名 新数据类型(长度);
修改字段名和数据类型
alter table 表名 change 旧字段名 新字段名 类型(长度) [comment 注释] [约束];
删除字段
alter table 表名 drop 字段名;
修改表名
alter table 表名 rename to 新表名;
删除表
drop table [if exists] 表名;
删除指定表,并重新创建该表(表数据格式化)
truncate table 表名;

DML

添加数据(insert)
添加记录
insert into 表名(字段名1,字段名2,...) values(1,2,...);
给全部字段添加数据
insert into 表名 values(1,2,...);
批量添加数据
insert into 表名(字段名1,字段名2,...) values(1,2,...),(1,2,...),(1,2,...);
修改数据(update)
update 表名 set 字段名1=1,字段名2=2,... [where 条件];
删除数据(delete)
delete from 表名 [where 条件];

DQL

语法顺序

select
	字段列表
from
	表名列表
where
	条件列表
group by
	分组字段列表
having
	分组后条件列表
order by
	排序字段列表
limit
	分页参数

执行顺序

  1. from
  2. where
  3. group by
  4. having
  5. select
  6. order by
  7. limit
单表查询
聚合函数

将一列数据作为一个整体,进行纵向运算。

函数功能
count统计数量
max最大值
min最小值
avg平均值
sum求和
select 聚合函数(字段列表) from 表名;
注意:所有的null值不参与聚合函数的运算。
eg:
select count(*) from employee; 
select avg(age) from employee;
select max(age) from employee;
select min(age) from employee;
select sum(age) from employee where name='西安';
模糊查询
like关键字,占位符'_'表示包含一位,占位符'%'表示包含大于等于0位
eg:
select * from employee where name like '__'; //表示查询表中员工名字是两位的有哪些
select * from employee where idcard like '%X'; // 表示查询员工身份证号最后一位是X的所有员工信息
group by && having
select 字段列表 from 表名 [where 条件] group by 分组字段名 [having 分组后过滤条件]
where和having的区别
  • 执行的时机不同:where是分组之前进行过滤,不满足where条件,不参与分组;而having是分组之后对结果进行过滤。

  • 判断的条件不同:where不能对聚合函数进行判断,而having可以。

注意:

执行顺序:where优先;聚合函数次之;having最后。

分组之后,查询的字段一般为聚合函数和分组字段,查询其他字段无任何意义。

#根据性别进行分组,统计男性员工 和 女性员工的数量
select gender,count(*) from employee group by gender;
#根据性别分组,统计男性员工 和 女性员工的平均年龄
select gender,avg(age) from employee group by gender;
#查询年龄小于45的员工,并根据工作地址分组,获取员工数量大于等于3的工作地址
select workaddress,count(*) from employee where age < 45 group by workaddress having count(*) >= 3;
或者识别别名
select workaddress,count(*) address_count from employee where age < 45 group by workaddress having address_count >= 3;
order by
select 字段列表 from 表名 order by 字段1 排序方式1,字段2 排序方式2;

排序方式:

  • ASC:升序(默认值)
  • DESC:降序

注意:如果多字段排序,只有当第一个字段值相同时,才会根据第二个字段进行排序。

#根据年龄对公司的员工进行升序排序
select * from employee order by age asc;
#根据入职时间,对员工进行降序排序
select * from employee order by entrydate desc;
#根据年龄对公司的员工进行升序排序,年龄相同,再按照入职时间进行降序排列
select * from employee order by age asc,entrydate desc;
limit

分页查询:limit 起始索引,查询记录数;

select 字段列表 from 表名 limit 起始索引,查询记录数;

注意:

  • 起始索引从0开始,起始索引 = ( 查询页码 - 1 ) * 每页显示的记录数
  • 分页查询时数据库的方言,不同的数据库有不同的实现,Mysql中是limit
  • 如果查询的是第一页的数据,起始索引可以省略,直接简写为limit 10
#查询第1页员工数据,每页显示10条数据
select * from employee limit 0,10; //起始索引 = (1-1)*10
#查询第2页员工数据,每页展示10条数据 
select * from employee limit 10,10; //起始索引 = (2-1)*10
牛刀小试
#查询年龄为20,21,22,23岁的员工信息
select * from employee where age in(20,21,22,23);
select * from employee where age between 20 and 23;
#查询性别为男,并且年龄在20~40岁(含)以内的姓名为三个字的员工
select * from employee where gender = '男' and age>=20 and age <=40 and name like '___';
select * from employee where gender = '男' and age between 20 and 40 and name like '___';
#统计员工表中,年龄小于60岁的,男性员工和女性员工的人数
select gender,count(*) from employee where age < 60 group by gender;
#查询所有年龄小于等于35岁员工的姓名和年龄,并对查询结果按年龄升序排序,如果年龄相同按入职时间降序排序
select name,age from employee where age <= 35 order by age asc,entrydate desc;
#查询性别为男,且年龄在20~40岁(含)以内的前5个员工的信息,对查询的结果按年龄升序排序,年龄相同按入职时间升序排列
select * from employee where gender = '男' and age between 20 and 40 order by age asc,entrydate asc limit 0,5;
多表查询

见后面介绍

DCL

Data Control Language(数据控制语言),用来管理数据库用户,控制数据库的访问权限。

DCL-用户管理
查询用户
use mysql;
select * from user;
创建用户
create user '用户名'@'主机名' identified by '密码';

注意:

  • 主机名可以使用%通配。
  • 这类SQL开发人员操作的比较少,主要是DBA(Database Administrator 数据库管理员)使用。
修改用户密码
alter user '用户名'@'主机名' identified with mysql_native_password by '新密码';
删除用户
drop user '用户名'@'主机名';
DCL-权限控制
权限说明
ALL,ALL PRIVILEGES所有权限
SELECT查询数据
INSERT插入数据
UPDATE修改数据
DELETE删除数据
ALTER修改表
DROP删除数据库/表/视图
CREATE创建数据库/表
查询权限
show grants for '用户名'@'主机名'; 
授予权限
grant 权限列表 on 数据库名.表名 to '用户名'@'主机名';
撤销权限
revoke 权限列表 on 数据库名.表名 from '用户名'@'主机名';

注意:

  • 多个权限之间,使用逗号分割开。
  • 授权时,数据库名和表名可以使用*进行统配,代表所有。

函数

函数,指的是一段可以直接被另一段程序调用的程序或者代码。

字符串函数
函数功能
concat(s1,s2,…,sn)字符串拼接,将s1,s2,…,sn拼接成一个字符串
lower(str)将字符串str全部转换为小写
upper(str)将字符串str全部转换为大写
LPAD(str,n,pad)左填充,用字符串pad对str的左边进行填充,达到n个字符串的长度
RPAD(str,n,pad)右填充,用字符串pad对str的右边进行填充,达到n个字符串的长度
trim(str)去掉字符串头部和尾部的空格
substring(str,start,len)返回从字符串str从start位置起的len个长度的字符串(注意:索引值从1开始)
#将所有员工的工号设置为5位,不够5位的用0向左填充到5位
update employee set workno = lpad(workno,5,'0');
数值函数
函数功能
ceil(x)向上取整
floor(x)向下取整
mod(x,y)返回x/y的模
rand()返回0~1内的随机数
round(x,y)求参数x的四舍五入的值,保留y位小数
power(x,y)求x的y次幂
#通过数据库函数,生成一个六位数的随机验证码
select round(rand()*power(10,6),0);
#上面这个是存在bug的,例如当小数是0.012345,则最终结果就是12345,解决方法填充
select lpad(round(rand()*power(10,6),0),6,'0'); #0.006312 -> 006312
日期函数
函数功能
curdate()返回当前日期
curtime()返回当前时间
now()返回当前日期和时间
year(date)获取指定date的年份
month(date)获取指定date的月份
day(date)获取指定date的日期
date_add(date,interval expr type)返回一个日期/时间值加上一个时间间隔expr后的时间值
datediff(date1,date2)返回起始时间date1和结束时间date2之间的天数
select curdate(); //2024-02-26
select curtime(); //19:09:02
select now(); //2024-02-26 19:09:13
select year('2024-02-26'); //2024
select month('2024-02-26'); //2
select day('2024-02-26'); //26
select date_add('2024-02-26',interval 366 day); //2025-02-26 第三个参数的取值:day,month,year
select date_add(now(),interval 366 day); //2025-02-26 19:17:10 第三个参数的取值:day,month,year
select datediff('2025-02-26','2024-02-26'); //366
select datediff('2024-02-26','2025-02-26'); //-366
#查询所有员工的入职天数,并根据入职天数倒序排序
select workno,name,datediff(now(),entrydate) as 'entrydays' from employee order by entrydays desc;
流程控制函数
函数功能
if(value,t,f)如果value为true,则返回t,否则返回f
ifnull(value1,value2)如果value1不为空,返回value1,否则返回value2
case when [val1] then [res1] … else [default] end如果val1为true,返回res1,…否则返回default默认值
case [expr] when [val1] then [res1] …else [default] end如果expr的值等于val1,返回res1,…否则返回default的默认值
select if(1,'真','假'); //真
select if(0,'真','假'); //假
select ifnull('Ok','Default'); // Ok
select ifnull('','Default'); //'' 返回的是空串
select ifnull(null,'Default'); //Default
select ifnull(null,null); //NULL
#统计班级各个学员的数学,英语,语文各门成绩等级,展示的规则如下
	>=85,展示优秀
	>=60,展示及格
	否则,展示不及格
select
	id,
	name,
	( case math when math >= 85 then '优秀' when math >= 60 then '及格' else '不及格' end ) as '数学',
	( case english when english >= 85 then '优秀' when english >= 60 then '及格' else '不及格' end ) as '英语',
	( case chinese when chinese >= 85 then '优秀' when chinese >= 60 then '及格' else '不及格' end ) as '语文'
from score;
#查询员工表的员工姓名和工作地址,并且显示(北京/上海 -> 一线城市 ,其他 -> 二线城市)
select 
	name,
	( case workaddress when '北京' then '一线城市' when '上海' then '一线城市' else '二线城市' end ) as '工作地址'
from employee;

约束

约束是作用于表中字段上的规则,用于限制存储在表中的数据。

目的是为了保证数据库中数据的正确,有效性和完整性。

分类
约束描述关键字
非空约束限制该字段的数据不能为nullnot null
唯一约束保证该字段的所有数据都是唯一,不重复的unique
主键约束主键是一行数据的唯一标识,要求非空且唯一primary key
默认约束保存数据时,如果未指定该字段的值,则采用默认值default
检查约束(8.0.16版本之后)保证字段值满足某一个条件check
外键约束用来让两张表的数据之间建立连接,保证数据的一致性和完整性foreign key
自增约束用来让该字段默认自增auto_increment
create table user(
    id int  primary key auto_increment comment '主键',
    name varchar(10) not null unique comment '姓名',
    age int check ( age > 0 and age <= 120 ) comment '年龄',
    status char(1) default '1' comment '状态',
    gender char(1) comment '性别',
    dept_id int comment '部门ID'
)comment '用户表';
create table depart(
   id int primary key auto_increment comment '部门id',
   name varchar(25) not null comment '部门名称',
)comment '部门表';
添加外键
添加外键
第一种:
create table 表名(
    字段名 数据类型,
    ...
    [constraint] [外键名称] foreign key(外键字段名) references 主表(主表列名)
);
第二种:
alter table 表名 add constraint 外键名称 foreign key (外键字段名) references 主表(主表列名);
alter table user add constraint fk_dept_id foreign key (dept_id) references depart(id);
删除外键
alter table 表名 drop foreign key 外键名称;
外键约束
删除/更新行为
行为说明
no action当在父表中删除/更新记录时,首先检查改记录是否有对应外键,如果有,则不允许删除/更新。(与restrict一致)
restrict当在父表中删除/更新记录时,首先检查改记录是否有对应外键,如果有,则不允许删除/更新。(与restrict一致)
cascade当在父表中删除/更新数据时,首先检查该记录是否有对应外键,如果有,则也删除/更新外键在子表中的记录。
set null当在父表中删除数据时,首先检查该记录是否有对应的外键,如果有,则设置子表中该外键值为null(这就要求该外键允许取null值)。
set default当父表有变更时,子表将外键列设置成一个默认的值(Innodb不支持)
alter table 表名 add constraint 外键名称 foreign key (外键字段) references 主表名(主表字段名) on update cascade on delete cascade;
alter table 表名 add constraint 外键名称 foreign key (外键字段) references 主表名(主表字段名) on update set null on delete set null;

多表查询

多表关系

项目开发中,在进行数据库表结构设计时,会根据业务需求及业务模块之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在着各种关系,基本是分为三种:

  • 一对多(多对一),在多的一方建立外键,指向一的一方的主键(员工-部门)
  • 多对多,需要建立第三张中间表,中间表至少包含两个外键,分别是关联两方的主键(学生-课程)
  • 一对一,多用于单表拆分,将一张表的基础字段放在一张表中,其他详情字段放在另外一张表中,已提升操作效率(用户-用户详情),在任意一方加入外键,关联另外一方的主键,并且设置外键为唯一的(unique)
多表查询概述

在多个数据库表之间查询数据

内连接

相当于查询A、B交集部分数据

  • 隐式内连接
select 字段列表 from1,2 where 条件...;
  • 显式内连接
select 字段列表 from1 [inner] join2 on 连接条件...;
外连接
  • 左外连接:查询左表所有数据,以及两张表交集部分数据
select 字段列表 from1 left [outer] join2 on 条件...;
  • 右外连接:查询右表所有数据,以及两张表交集部分数据
select 字段列表 from1 right [outer] join2 on 条件...;
自连接

当前表与自身的连接查询,自连接必须使用别名

select 字段列表 from 表A 别名A join 表A 别名B on 条件...;
#查询所有员工employee 及其领导的名字employee,如果员工没有领导,也需要查询出来
select a.name '员工', b.name '领导' from employee a left join employee b on a.managerid = b.id;
联合查询-union,union all

对于union查询,就是把多次查询的结果合并起来,形成一个新的查询结果集。

select 字段列表 from 表A ...
union [all]
select 字段列表 from 表B ...;

注意:

  • union all,是将两次查询的结果直接合并。
  • union,是将两次查询的结果合并加去重。
  • 对于联合查询的多张表的列数必须保持一致,字段类型也需要保持一致。
#将薪资低于5000的员工 和 年龄大于50岁的员工 全部查询出来
select * from employee where salary < 5000
union all
select * from employee where age > 50;
#去重,保证查询出的数据记录不出现两次
select * from employee where salary < 5000
union
select * from employee where age > 50;
子查询

SQL语句中嵌套select语句,称为嵌套查询,又称子查询。

select * from t1 where column1 = (select column1 from t2);

子查询外部的语句可以是insert/update/delete/select的任何一个。

子查询位置
  • where之后
  • from之后
  • select之后
标量子查询

子查询结果为单个值(数字、字符串、日期等),最简单的形式,这种子查询称为标量子查询

常用的操作符:= <> > >= < <=

#查询 销售部的所有员工信息
select employee.* from employee,depart where employee.dept_id = depart.id and depart.name = '销售部';

#第二种
select * from employee where dept_id = (select id from depart where name = '销售部');

#查询在“方东白”入职之后的员工信息
select * from employee where entrydate > (select entrydate from employee where name = '方东白');
列子查询

子查询结果为一列(可以是多行),这种子查询称为列子查询。

常用的操作符:in 、not in、any、some、all

操作符描述
in在指定的集合范围之内,多选一
not in不在指定的集合范围之内
any子查询返回列表中,有任意一个满足即可
some与any等同,使用some的地方都可以使用any
all子查询返回列表的所有值都必须满足
#查询 销售部 和 市场部 的所有员工信息
select * from employee where dept_id in (select id from depart where name = '销售部' or name = '市场部');

#查询比财务部所有人 工资都高的员工信息
select * from employee where salary > all ( select salary from employee where dept_id = (select * from depart where name = '财务部') ) ; 

#查询比研发部其中任意一人 工资高的员工信息
select * from employee where salary > any ( select salary from employee where dept_id = (select id from depart where name = '研发部') );
或者使用some
select * from employee where salary > some ( select salary from employee where dept_id = (select id from depart where name = '研发部') );
行子查询

子查询结果为一行(可以是多列),这种子查询称为行子查询。

常用的操作符:= 、<> 、in 、not in

#查询与 张无忌 的薪资及其直属领导相同的员工信息
select * from employee where ( salary,managerid ) = ( select salary,managerid from employee where name = '张无忌' );
表子查询

子查询结果为多行多列,这种子查询称为表子查询。

常用的操作符:in

#查询与 鹿杖客,宋远桥 的职位和薪资相同的员工信息
select * from employee where (job,salary) in (select job,salary where name = '鹿杖客' or name = '宋远桥');

#查询入职日期是 2006-01-01 之后的员工信息,及其部门信息
select * from employee where entrydate > '2006-01-01';

select e.*,d.* from ( select * from employee where entrydate > '2006-01-01' ) e left join depart d on e.dept_id = d.id;
多表查询案例
#查询员工的姓名、年龄、职位、部门信息
select e.name,e.age,e.job,d.name from employee e ,depart d where e.dept_id = d.id;

#查询年龄小于30岁的员工姓名、年龄、职务、部门信息
select e.name,e.age,e.job,d.name from employee e inner join depart d on e.dept_id = d.id where e.age < 30; 

#查询拥有员工的部门ID、部门名称
#(distinct 去重关键字)
select distinct d.id,d.name from employee e,depart d where e.dept_id = d.id;

#查询所有年龄大于40岁的员工,及其归属的部门名称;如果员工没有分配部门,也需要展示出来
select e.*,d.name from employee e left join depart d on e.dept_id = d.id where e.age > 40;

#查询所有员工的工资等级
select e.*,s.grade from employee e,salgrade s where e.salary between s.losal and s.hisal;

#查询研发部 所有员工的信息及工资等级
select * from employee where dept_id = ( select id from depart where name = '研发部' ;
#第一种                                       
select e.*,s.grade from ( select * from employee where dept_id = ( select id from depart where name = '研发部' ) ) e ,salagrade s where e.salary between s.losal and s.hisal;
#第二种
select e.*,s.grade from employee e,depart d,salgrade s where e.dept_id = d.id and d.name = '研发部' and ( e.salary between s.losal and s.hisal );

#查询研发部员工的平均工资
select avg(salary) from employee where dept_id = ( select id from depart where name = '研发部' );
                                        
select avg(e.salary)  from employee e,depart d where e.dept_id = d.id and d.name = '研发部';

#查询工资比 灭绝 高的员工信息
select * from employee where salary > ( select salary from employee where name = '灭绝' );

#查询比平均薪资高的员工信息
select * from employee where salary > ( select avg(salary) from employee );

#查询低于本部门平均工资的员工信息
select * from employee e2 where e2.salary < ( select avg(salary) from employee e1 where e1.dept_id = e2.dept_id );

#查询所有的部门信息,并统计部门的员工人数
select d.id,d.name,( select count(*) from employee e where e.dept_id = d.id ) '人数' from depart d;
                                        
#查询所有学生的选课情况,展示出学生名称,学号,课程名称
select s.name,s,no,c.name 
from student s,course c,student_course sc 
where s.id = sc.studentid and c.courseid = sc.courseid;

事务

事务简介

事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撤销请求,即这些操作要么同时成功,要么同时失败。(例子:银行转账)

事务操作
#1、查询张三账户余额
select money from account where name = '张三';

#2、将张三账户金额-1000
update account set money = money - 1000 where name = '张三';

#3、将李四的账户金额+1000
update account set money = money + 1000 where name = '李四';

上面是转账的案例,存在bug,应该使用事务控制。

查看/设置事务提交的方式
select @@autocommit;
set @@autocommit = 0; //如果为1就是自动提交,如果为0就是手动提交
提交事务
commit;
回滚事务
rollback;

重新修改案例:方式一

#1、查询提交事务的方式
select @@autocommit;

#2、设置提交事务的方式为手动提交
set @@autocommit = 0;

#3、查询张三账户余额
select money from account where name = '张三';

#4、将张三账户金额-1000
update account set money = money - 1000 where name = '张三';

#5、将李四的账户金额+1000
update account set money = money + 1000 where name = '李四';

#6、提交事务(如果未出现异常)
commit;

#7、事务回滚(如果出现异常)
rollback;
事务操作方式二
#开启事务
start transactionbegin;

#提交事务
commit;

#回滚事务
rollback;

重新修改案例:方式二

#1、开启事务
start transaction;

#2、查询张三账户余额
select money from account where name = '张三';

#3、将张三账户金额-1000
update account set money = money - 1000 where name = '张三';

#4、将李四的账户金额+1000
update account set money = money + 1000 where name = '李四';

#5、提交事务(如果未出现异常)
commit;

#6、事务回滚(如果出现异常)
rollback;
事务四大特性-ACID
原子性(Atomicity):事务是不可分割的最小操作单位,要么全部成功,要么全部失败。
一致性(Consistency):事务完成时,必须使所有的数据都保持一致状态。
隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立环境下运行。
持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。
并发事务问题
问题描述
脏读一个事务读到另外一个事务还没有提交的数据。
不可重复度一个事务先后读取同一条记录,但两次读取的数据不同,称之为不可重复读。
幻读一个事务按照条件查询数据时,没有对应的数据行,但是在插入数据时,又发现这行数据已经存在,好像出现了“幻影”。
事务隔离级别
隔离级别脏读不可重复读幻读
read uncommitted
read committed×
repeatable read(默认)××
Serializable(串行化,只有当一个事务提交或回滚完,另外一个事务才能进行,但性能比较差)×××
#查看事务隔离级别
select @@transaction_isolation;

#设置事务隔离级别
set [session | global] transaction isolation level [read uncommitted | read committed | repeatable read | serializable]

存储引擎

MySQL体系架构

在这里插入图片描述

连接层

最上层是一些客户端和链接服务,主要完成一些类似于连接处理、授权认证、及相关的安全方案。服务器也会为安全接入的每个用户端验证它所具有的操作权限。

服务层

第二层架构主要完成大多数的核心服务功能,如SQL接口,并完成缓存的查询,SQL的分析和优化,部分内置函数的执行。所有跨存储引擎的功能也在这一层实现,如过程、函数等。

引擎层

存储引擎真正的负责了MySQL中数据的存储和提取,服务器通过API和存储引擎进行通信。不同的存储引擎具有不同的功能,这样我们可以根据自己的需要,来选取合适的存储引擎。

存储层

主要是将数据存储在文件系统之上,并完成与存储引擎的交互。

存储引擎

存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也可以被称为表类型。

默认存储引擎:InnoDB

#创建表时,指定存储引擎
create table 表名(
	字段1 字段1类型 [comment 字段1注释]
    ...,
    字段n 字段n类型 [comment 字段n注释],
)engine=InnoDB [comment 表注释];
#查看当前数据库的存储引擎
show engines;
InnoDB

InnoDB是一种兼顾高可靠性和高性能的通用存储引擎,在MySQL 5.5之后,InnoDB是默认的MySQL存储引擎。三大特性:事务、外键、行级锁。

特点
  • DML操作遵循ACID模型,支持事务
  • 支持外键foreign key约束,保证数据的完整性和正确性。
  • 行级锁,提高并发访问性能;
文件

xxx.ibd:xxx代表的是表名,innoDB引擎的每张表都会对应这样一个表空间文件,存储该表的表结构(frm:、sdi:数据字典)、数据和索引。

参数:innodb_file_per_table (默认true)

#查看表空间参数
show variables like 'innodb_file_per_table';
#阅读本地的idb文件命令(前提是mysql是8.0以上版本)
cmd:
ibd2sdi xxx.idb
逻辑存储结构
  • Tablespace:表空间
  • Segment:段
  • Extent:区(大小固定:一个区1M,包含64个页)
  • Page:页(大小固定:一个页16K)
  • Row:行

在这里插入图片描述

MyISAM

MyISAM是MySQL早期的默认存储引擎。

特点
  • 不支持事务,不支持外键;
  • 支持表锁,不支持行锁;
  • 访问速度快。
文件

xxx.sdi:存储表结构信息

xxx.MYD:存储数据

xxx.MYI:存储索引

Memory

Memory引擎的表数据存储在内存中的,由于受到硬件问题、或断电问题的影响,只能将这些表作为临时表或缓存使用。

特点
  • 内存存放,访问速度快;
  • hash索引(默认)。
文件

xxx.sdi:存储表结构信息

区别
特点InnoDBMyISAMMemory
存储限制64TB
事务安全支持--
锁机制行锁表锁表锁
B+tree索引支持支持支持
Hash索引--支持
全文索引支持(5.6版本之后)支持-
空间使用N/A
内存使用中等
批量插入速度
支持外键支持--
存储引擎的选择

在选择存储引擎时,应该根据应用系统的特点选择合适的存储引擎。对于复杂的应用环境,还可以根据实际情况选择多种存储引擎进行组合。

  • InnoDB:是MySQL的默认存储引擎,支持事务、外键,如果应用对事务的完整性有比较高的需求,在并发条件下要求数据的一致性,数据操作除了插入和查询之外,还包含很多的更新、删除操作,那么InnoDB存储引擎是比较合适的选择;
  • MyISAM:如果应用是以读操作和插入操作为主,只有很少的更新和删除操作,并且对事务的完整性、并发性要求不是很高,那么选择这个存储引擎是非常合适的;(日志,电商评论、足迹相关数据等等)(目前被MongoDB取代)
  • Memory:将所有数据保存在内存中,访问速度快,通常用于临时表及缓存。Memory的缺陷就是对表的大小有限制,太大的表无法在内存中,而且无法保障数据的安全性。(通常用来作缓存)(目前被Redis取代)

索引

索引概述

索引(index) 是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。

优缺点
优势劣势
提高数据库检索的效率,降低数据库的IO成本。索引列也是要占用空间的。
通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗。索引大大提高了查询效率,同时却也降低更新表的速度,如对表进行insert、update、delete时,效率降低。
索引结构

MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的结构,主要包含一下几种:

索引结构描述
B+Tree索引最常见的索引类型,大部分引擎都支持B+树索引
Hash索引底层数据结构是用哈希表实现的,只有精确匹配索引列的查询才有效,不支持范围查询
R-tree(空间索引)空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少
Full-text(全文索引)是一种通过简历倒排索引,快速匹配文档的方式。类似于Lucene,Solr,ES
索引InnoDBMyISAMMemory
B+Tree索引支持支持支持
Hash索引不支持不支持支持
R-tree索引不支持支持不支持
Full-text5.6版本之后支持支持不支持

二叉树:左子树节点的值 < 根节点的值 < 右子树节点上的值

缺点:顺序插入时,会形成一个链表,查询性能大大降低。大数据量情况下,层级较深,检索速度慢。

优化:红黑树,是自平衡的二叉树,缺点:大数据量情况下,层级较深,检索速度慢。

B-Tree(多路平衡查找树)

以一颗最大度数(max-degree)为5(5阶)的B-tree为例(每一个节点最多存储4个key,5个指针)

注意:树的度数指的是一个节点的子节点的个数。

在这里插入图片描述

B+Tree
  • 所有的数据都会出现在叶子节点
  • 叶子节点形成一个单向列表

以一颗最大度数(max-degree)为4(4阶)的B+Tree为例:

在这里插入图片描述

与B-Tree的主要区别,是所有的数值都将会出现在叶子节点(并且有序),非叶子节点主要作用是起保存索引的作用。

MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点的链表指针,就形成带有顺序指针的B+Tree,提高区间访问的性能。

在这里插入图片描述

Hash索引

哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。

如果两个(或多个)键值,映射到一个相同的槽位上,他们就产生了hash冲突(也称为hash碰撞),可以通过链表来解决。

在这里插入图片描述

特点:

  • hash索引只能用于对等比较(=,in),不支持范围查询(between,>,<,…);
  • 无法利用索引完成排序操作;
  • 查询效率高,通常只需要一次检索就可以了,效率要高于B+Tree索引。

注意:在MySQL中,支持hash索引的是Memory引擎,而InnoDB中具有自适应的hash功能,hash索引是存储引擎根据B+Tree索引在指定条件下自动构建的。

面试题:为什么InnoDB存储引擎选择使用B+Tree索引?

#我认为:

  • 二叉树,当插入的是顺序数据时,会导致树的层次结构变深,搜索效率变慢;
  • 红黑树,虽然是自平衡的二叉树,但是当数据量较大时,随着层次结构的加深,搜索效率还是太慢;
  • B-Tree,它的叶子节点和非叶子节点都会存放数据,这样导致一页中存储的键值减少,而B+Tree,非叶子节点只存放索引,叶子节点形成一个带有顺序指针的链表,相同数据量的情况下,B-Tree的层级将会较多,区间访问的速度将会较慢;
  • Hash索引,仅支持等值操作,不支持范围查询和排序操作;
  • B+Tree,是在原有的B+Tree经典数据结构基础上进行优化,在相邻的叶子节点之间加入链表指针,这样就形成了带有顺序指针的B+Tree,提高了区间访问的效率。

#参考:

  • 相对于二叉树,层级更少,搜索效率高;
  • 对于B-Tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低;
  • 相对Hash索引,B+Tree支持范围匹配即排序操作,而hash索引只支持等值操作,不支持范围查询和排序操作。
索引分类
分类含义特点关键字
主键索引针对于表中主键创建的索引默认自动创建,只能有一个primary
唯一索引避免同一个表中某数据列中的值重复可以有多个unique
常规索引快速定位特定数据可以有多个
全文索引全文索引查找的是文本中的关键词,而不是比较索引中的值可以有多个fulltext

在InnoDB存储引擎中,根据索引的存储格式,又可以分为以下两种:

分类含义特点
聚集索引(Clustered index)将数据存储与索引放到了一块,索引结构的叶子节点保存了行数据必须有,而且只有一个
二级索引(Secondary index)将数据与索引分开存储,索引结构的叶子节点关联的是对应的主键可以存在多个
聚集索引
  • 如果存在主键,主键索引就是聚集索引;
  • 如果不存在主键,将使用第一个唯一(Unique)索引作为聚集索引;
  • 如果没有主键,或没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引。

在这里插入图片描述

回表索引:根据二级索引查找到对应的id值,再根据id值查询到对应的行数据。

面试题:InnoDB主键索引的B+tree高度为多高?

假设:

一行数据大小为1K,一页中可以存储16行这样的数据。InnoDB的指针占用6个字节的空间,主键即使为bigint,占用字节数为8。

高度为2:

n*8 + (n+1)*6 = 16 * 1024 //n ≈ 1170
(1170+1) * 16 = 18736 //记录量

高度为3:

1171 * 1171 * 16 = 21939856 //记录数

可以看出,即使记录数达到2200万左右,B+tree的高度才只有3。

索引语法
创建索引
create [unique | fulltext] index index_name on table_name(index_col_name,...);
查看索引
show index from table_name;
删除索引
drop index index_name on table_name;
#name字段为姓名字段,该字段的值可能会重复,为该字段创建索引
create index idx_user_name on tb_user(name);

#phone手机号字段的值,是非空,且唯一的,为该字段创建唯一索引
create unique index idx_user_phone on tb_user(phone);

#为profession、age、status创建联合索引
create index idx_user_pro_age_sta on tb_user(profession,age,status);

#为email建立合适的索引来提升查询效率
create index idx_user_email on tb_user(email);
SQL性能分析
SQL执行频率

MySQL客户端连接成功后,通过show [session|global] status 命令可以提供服务器状态信息。通过如下指令,可以查看当前数据库的insert、update、delete、select的访问频次。

show global status like 'Com_______'; #七个下划线代表七个字符
慢查询日志

慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒)的所有SQL语句的日志。MySQL的慢查询日志默认没有开启,需要在MySQL的配置文件(/etc/my_cnf)中配置如下信息:

#查看MySQL的慢查询日志参数开关控制
show variables like 'slow_query_log';

#开启MySQL慢日志查询开关,打开/etc/my_cnf目录(虚拟机环境)
slow_query_log = 1
#设置慢日志的时间为2秒,SQL语句执行时间超过2秒,就会视为慢查询,记录慢日志查询
long_query_time = 2

配置完毕后,通过以下指令重新启动MySQL服务器进行测试,查看慢日志文件中记录的信息 /var/lib/mysql/localhost-slow.log

systemctl restart mysqld;
profile详情

show profiles 能够在做SQL优化时帮助我们了解时间都耗费到哪去了。通过have_profiling参数,能够看到当前MySQL是否支持profile操作。

select @@have_profiling;

默认profiling是关闭的,可以通过set语句在session/global级别开启profiling;

select @@profiling; //默认是0
set profiling = 1;

执行一系列的SQL操作,然后通过如下指令查看指令的执行耗时:

#查看每一条SQL的耗时基本情况
show profiles;

#查看指定query_id的SQL语句各个阶段的耗时情况
show profile for query query_id;

#查看指定query_id的SQL语句CPU的使用情况
show profile cpu for query query_id;
explain执行计划

explain或者desc命令获取MySQL如何执行Select语句的信息,包括在Select语句执行过程中表如何连接和连接的顺序。

语法:

#直接在Select语句之前加上关键字explain/desc
explain select 字段列表 from 表名 where 条件;
或者
desc select 字段列表 from 表名 where 条件;

explain执行计划各字段含义:

  • id:select查询的序列号,表示查询中执行select子句或者是操作表的顺序(id相同,执行顺序从上到下;id不同,值越大,越先执行)。
  • select_type:表示select的类型,常见的取值有simple(简单表,即不使用表连接或者子查询),primary(主查询,即外层的查询),union(union中的第二个或者后面的查询语句)、subquery(select/where之后包含了子查询)等。
  • type:表示连接的类型,性能由好到差的连接类型为Null、system、const、eq_ref、ref、range、index、all。
  • possible_key:显示可能应用在这张表上的索引,一个或多个。
  • key:实际使用的索引,如果为Null,则没有使用索引。
  • key_len: 表示索引中使用的字节数,该值为索引字段最大可能长度,并非实际使用长度,在不损失精确性的前提下,长度越短越好。
  • rows:MySQL认为必须要执行查询的行数,在InnoDB引擎表中,是一个估计值,可能并不总是精确的。
  • filtered:表示返回结果的行数占需读取行数的百分比,filtered的值越大越好。
索引使用
最左前缀法则

如果索引引入了多列(联合索引),要遵守最左前缀索引。最左前缀索引则指的是查询从索引的最左列开始,并且不跳过索引中的列。

如果跳跃某一列,索引将部分失效(后面的字段索引失效)

idx_user_profession_age_status :这个是通过profession、age、status(顺序)三个字段建立的联合索引。

注意:字段参与了联合索引的创建,不代表字段本身自己有索引,比如age参与构建联合索引,但自己本身没有索引。

#这个满足索引的最左前缀法则(包含profession),查询会使用索引
explain select * from tb_user where profession = '软件工程' and age = 31 and status = '0'; 

#这个满足索引的最左前缀法则(包含profession),查询会使用索引
explain select * from tb_user where profession = '软件工程' and age = 31;

#这个满足索引的最左前缀法则(包含profession),查询会使用索引
explain select * from tb_user where profession = '软件工程' and status = '0';

#这个不满足索引的最左前缀法则(不包含profession),查询不会使用索引,会全表扫描
explain select * from tb_user where age = 31 and status = '0';

#这个不满足索引的最左前缀法则(不包含profession),查询不会使用索引,会全表扫描
explain select * from tb_user where status = '0';

#这个满足索引的最左前缀法则(包含profession,跟放的位置无关),查询会使用索引
explain select * from tb_user where age = 31 and status = '0' and profession = '软件工程' ;
范围查询

联合索引中,出现范围查询(>,<),范围查询右侧的列索引失效。

#查询的索引使用了profession和age,未使用status
explain select * from tb_user where profession = '软件工程' and age > 30 and status = '0';

#修改方法是,把>换成>=,查询的索引使用了profession和age和status
explain select * from tb_user where profession = '软件工程' and age >= 31 and status = '0';
索引列运算

不要在索引列上进行运算操作,索引将失效。

idx_user_phone:是通过phone字段建立的唯一索引。

#查询没有使用索引进行了全表扫描,因为对phone字段进行了函数运算
explain select * from tb_user where substring(phone,10,2) = '15';
字符串不加引号

字符串类型字段使用时,不加引号,索引将失效。

#phone字段未加''号,索引失效
explain select * from tb_user where phone = 17799990015;
模糊查询

如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配,索引失效。

#尾部模糊匹配,索引不会失效
explain select * from tb_user where profession = '软件%';

#头部模糊匹配,索引失效
explain select * from tb_user where profession = '%工程';

#头部包含模糊匹配,索引失效
explain select * from tb_user where profession = '%工%';
or连接的条件

用or分割开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引都不会用到。

数据分布影响

如果MySQL评估使用索引比全表更慢,则不使用索引。

SQL提示

SQL提示,是优化数据库的一个重要手段,简单来说,就是在SQL语句中加入一些认为的提示来达到优化操作的目的。

  • use index:建议数据库使用哪个索引;
  • ignore index:告诉数据库不使用哪个索引;
  • force index:告诉数据库必须使用哪个索引。
explain select * from tb_user use index(idx_user_pro) where profession = '软件工程';

explain select * from tb_user ignore index(idx_user_pro) where profession = '软件工程';

explain select * from tb_user force index(idx_user_pro) where profession = '软件工程';
覆盖索引

尽量使用覆盖索引(查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到),减少select *。

explain select id,profession from tb_user where profession = '软件工程' and age = 31 and status = '0';

explain select id,profession,age,status from tb_user where profession = '软件工程' and age = 31 and status = '0';

expalin select id,profession,age,status,name from tb_user where profession = '软件工程' and age = 31 and status = '0';

expalin select * from tb_user where profession = '软件工程' and age = 31 and status = '0';

注意Extra字段出现下面:

  • using index condition:查找使用了索引,但是需要回表查询数据;
  • using where;using idex:查找使用了索引,但是需要的数据都在索引列中能找到,所以不需要回表查询数据。(高效)

覆盖索引图示例

在这里插入图片描述

回表查询图示例

在这里插入图片描述

面试题

一张表有四个字段(id,username,password,status)由于数据量大,需要对以下SQL语句进行优化,该如何进行才是最优方案:

select id,username,password from tb_user where username = 'itcast';

优化方案,建立索引

create index idx_user_id on tb_user(id); //这个应该是默认的一个索引可以不写
create index idx_user_uname_pwd on tb_user(username,password);
索引使用
前缀索引

当字段类型为字符串(varchar,text等)时,有时候需要索引很长的字符串,这会让索引变得很大,查询时,浪费大量的磁盘IO,影响查询效率。此时可以只将字符串的一部分前缀,建立索引,这样就可以大大节约索引空间,从而提高索引效率。

语法:

create index idx_xxx on table_name(column(n)); //n表示提取字符串的前n个字符

前缀长度:

可以根据索引的选择性来决定,而选择性是指不重复的索引值(基数)和数据表的记录总数的比值,索引选择性越高则查询效率越高,唯一索引的选择性是1,这是最好的索引选择性,性能也是最好的。

select count(distinct email) / count(*) from tb_user;

select count(distinct substring(email,1,5)) / count(*) from tb_user;
create index idx_user_email_5 on tb_user(email(5));
前缀索引的结构

在这里插入图片描述

单列索引和联合索引

单列索引:即一个索引只包含单个列。

联合索引:即一个索引包含了多个列。

在业务场景中,如果存在多个查询条件,考虑针对于查询字段建立索引时,建议建立联合索引,而非单列索引。

另外,多条件联合查询时,MySQL优化器会评估那个字段的索引效率会更高,会选择该索引完成本次查询。

联合索引的查询情况:

在这里插入图片描述

索引的设计原则
  • 针对于数据量较大(超过100多万条数据),且查询比较频繁的表建立索引;
  • 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引;
  • 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高;
  • 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引;
  • 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率;
  • 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增删改的效率;
  • 如果索引列不能存储NULL值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时,它可以更好地确定哪个索引最有效地用于查询。

SQL优化

insert优化
  • 批量插入;
  • 手动提交事务;
  • 主键顺序插入。
大批量插入数据

如果一次性需要插入大批量数据,使用insert语句插入性能较低,此时可以使用MySQL数据库提供的load指令进行插入。操作如下:

#客户端连接服务器端时,加上参数 --local-infile
mysql --local-infile -u root -p

#查看local_infile的值
select @@local_infile; //0关,1开

#设置全局参数local_infile为1,开启从本地加载文件导入数据库的开关
set global local_infile = 1;

#执行load指令将准备好的数据,加载到表结构中
load data local infile '/root/sql1.sql' into table 表名 fields terminated by ',' lines terminated by '\n';

load指令插入大量数据的时候,建议使用主键顺序插入,因为这样性能最高。

主键优化
数据组织方式

在InnoDB存储引擎中,表数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表(index organized table 简称:IOT)。

页分裂

页可以为空,也可以填充一半,也可以填充100%。每个页包含了2-N行数据(如果一行数据多大,会行溢出),根据主键排列。

主键顺序插入

在这里插入图片描述

主键乱序插入

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

页和并

当删除一行记录时,实际上记录并没有被物理清除,只是记录被标记(flaged)为删除并且它的空间变得允许被其他记录声明使用。

当页中删除的记录达到Merge_Threshold(默认为页的50%),InnoDB会开始寻找最靠近的页(前或后)看看是否可以将两个页合并以优化空间使用。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

注意:

Merge_Threshold:合并页的阈值,可以自己设置,在创建表或者创建索引时指定。

主键设计原则
  • 满足业务需求的情况下,尽量降低主键的长度;
  • 插入数据时,尽量选择顺序插入,选择使用Auto_Increment自增主键;
  • 尽量不要使用UUID做主键或者其他自然主键,如身份证号;
  • 业务操作时,避免对主键的修改。
order by优化
  • 根据排序字段建立合适的索引,多字段排序时,页遵循最左前缀法则;
  • 尽量使用覆盖索引;
  • 多字段排序,一个升序一个降序,此时需要注意联合索引在创建时的规则(ASC/DESC);
  • 如果不可避免的出现filesort,大数据量排序时,可以适当增大排序缓冲区大小sort_buffer_size(默认256k);
  • using index:直接通过索引返回数据,性能高;
  • using filesort:需要将返回的结果在排序缓存区中排序。
#根据age,phone进行一个升序,一个降序
explain select id,age,phone from tb_user order by age asc,phone desc;

#创建索引
create index idx_user_age_phone on tb_user(age asc,phone desc);

#根据age,phone进行一个升序,一个降序
explain select id,age,phone from tb_user order by age asc,phone desc;
group by 优化
  • 在分组操作时,可以通过索引来提高效率;
  • 分组操作时,索引的使用也是满足最左前缀法则的。
#删除掉目前的联合索引idx_user_pro_age_sta
drop index idx_user_pro_age_sta on tb_user;

#执行分组操作,根据profession字段
explain select profession,count(*) from tb_user group by profession;

#创建索引
create index idx_user_pro_age_sta on tb_user(profession,age,status);

#执行分组操作,根据profession字段分组
explain select profession,count(*) from tb_user group by profession;

#执行分组操作,根据profession,age字段分组
explain select profession,count(*) from tb_user group by profession,age;

#执行分组操作,根据profession='软件工程'对age字段分组
explain select profession,count(*) from tb_user where profession = '软件工程' group by age;
limit优化

一个常见又非常头痛的问题就是limit 2000000,10,此时需要MySQL排序前2000010记录,仅仅返回2000000-2000010的记录,其他记录丢弃,查询排序的代价非常大。

优化思路:一般分页查询时,通过创建覆盖索引能够比较好地提高性能,可以通过覆盖索引加子查询形式进行优化。覆盖索引 + 子查询

explain select t.* from tb_sku t,(select id from tb_sku order by id limit 200000,10) a where t.id = a.id;
count优化
  • 在MyISAM引擎把一个表的总行数存在了磁盘上,因此执行count(*)的时候会直接返回这个数,效率很高(前提是后面没有where条件);
  • InnoDB引擎就麻烦了,它执行count(*)的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。

优化思路:自己计数。

count的几种用法:

  • count()是一个聚合函数,对于返回的结果集,一行一行地判断,如果count函数的参数不是NULL,累计值就加1,否则不加,最后返回累计值;

  • 用法:count(*)、count(主键)、count(字段)、count(1)

  • count(主键):InnoDB引擎会遍历整张表,把每一行的主键id值都取出来,返回给服务层。服务层拿到主键后,直接按行进行累加(主键不可能为null);

  • count(字段):

    ​ 没有not null约束:InnoDB引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,服务层判断是否为null,不为null,计数累加。

    ​ 有not null约束:InnoDB引擎会遍历每张表把每一行的字段值都取出来,返回给服务层,直接按行进行累加。

  • count(1):InnoDB引擎会遍历整张表,但不取值。服务层对于返回的每一行,放一个数字”1“进去,直接按行进行累加。

  • count(*):InnoDB引擎并不会把全部字段取出来,而是专门做了优化,不取值,服务层直接按行进行累加。

按照效率排序的话:count(字段) < count(主键id) <count(1)<count(),所以尽量使用count()。

update优化

下面是两个事务的操作,每一个事务包含一个update操作,并name没有建立索引;

update student set no = '2000100100' where id = 1;
update student set no = '2000100105' where name = '韦一笑';

InnoDB的行锁是针对索引加的锁,不是针对记录加的锁,并且该索引不能失效,否则会从行锁升级为表锁。

当上面第一个事务执行完没有commit,第二个事务也回车执行的时候,却一直没有反应,原因是由于name没有建立索引,InnoDB会把行级锁升级为表锁,把整张表锁了起来,只有第一个事务执行完commit之后,第二个事务才会有响应。

因此,当使用update字段操作数据库时,应该选择有索引的字段,这样就只有行级锁,没有表锁,提高并发的性能。

概述

锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中,除传统的计算资源(CPU、RAM、I/O)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤其重要,也更加复杂。

分类

MySQL中的锁,按照锁的粒度分,分为以下三类:

  • 全局锁:锁定数据库中的所有表;
  • 表级锁:每次操作锁住整张表;
  • 行级锁:每次操作锁住对应的行数据。
全局锁

全局锁就是对整个数据库实例加锁,加锁后整个实例就处于只读状态,后续的DML的写语句,DDL语句,已经更新操作的事务提交语句都将被阻塞。

其典型的使用场景是做全库的逻辑备份,对所有的表进行锁定,从而获取一致性视图,保证数据的完整性。

当数据库加上全局锁后,使用mysqldump指令进行数据库备份,此时客户端DML、DDL将会被阻塞(可以查询但是不可以写),但备份完成生成xxx.sql后,全局锁释放,才可以执行DML、DDL进行写操作。这样就保证了数据库的一致性和完整性。

#加全局锁
flush tables with read lock;

#执行数据备份(cmd windows终端执行)
mysqldump -uroot -p密码 数据库名称 > 数据库备份文件名称.sql
#备份远端的数据库
mysqldump -h192.168.200.202 -uroot -p密码 数据库名称 > 数据库备份文件名称.sql

#解锁
unlock tables;
特点

数据库中加全局锁,是一个比较重的操作,存在以下问题:

  1. 如果在主库上备份,那么在备份期间都不能执行更新,业务基本上就得停摆;
  2. 如果从库上备份,那么在备份期间从库不能执行主库同步过来的二进制日志(binlog),会导致主从延迟。

解决:不加全局锁执行备份操作:

在InnoDB引擎中,我们可以在备份时加上参数–single-transaction 参数来完成不加锁的一致性数据备份。

mysqldump --single-transaction -uroot -p密码 数据库名称 > 数据库备份文件名称.sql
表级锁

表级锁,每次操作锁住整张表。锁定粒度大,发生表冲突的概率最高,并发性最低。应用在MyISAM、InnoDB、BDB等存储引擎中。

分类
  1. 表锁
  2. 元数据锁(meta data lock,MDL)
  3. 意向锁
表锁

表锁分为两类:

  • 表共享读锁(read lock)
  • 表独占写锁(write lock)

语法:

#加锁
lock tables 表名... read/write;

#释放锁
unlock tables(或者客户端断开连接);

当前客户端给表加上读锁后,当前客户端和其他客户端只能进行查询DDL操作,不能执行DML/DDL写操作,当当前客户端给表锁释放后,所有客户端才可以执行写操作;

当前客户端给表加上写锁后,当前客户端可以进行DQL/DDL/DML操作,而其他客户端是不可以进行DQL/DDL/DML操作,当当前客户端给表锁释放后,其他客户端才可以执行读写操作。

读锁不会阻塞其他客户端的读,但是会阻塞写。写锁既会阻塞其他客户端的读,又会阻塞其他客户端的写。

元数据锁(meta data lock,MDL)

MDL加锁过程是系统自动控制,无需显示使用,在访问一张表的时候会自动加上。MDL锁主要作用是维护

表元数据一致性,在表上有活动事务的时候,不可以对元数据进行写入操作。作用:是为了避免DML与DDL冲突,保证读写的正确性。

在MySQL5.5中引入了MDL,当对一张表进行增删改查的时候,加MDL读锁(共享);当对表结构进行变更操作的时候,加MDL写锁(排他)。

对应SQL锁类型说明
lock tables xxx read/write;shared_read_only/shared_no_read_write
select、select … lock in share modeshared_read与shared_read、shared_write兼容、与exclusive互斥
insert、update、delete、select … for updateshared_write与shared_read、shared_write兼容,与exclusive
alter table …exclusive与其他的MDL都互斥

示例:

首先在一个客户端开启事务,执行一个查询操作,再在另外一个客户端进行查询,修改操作,没有受影响。

首先在一个客户端开启事务,执行一个查询操作,再在另外一个客户端进行修改表结构,将会受影响。

查看元数据锁的语法:

select object_type,object_schema,object_name,lock_type,lock_duration from performance_schema.metadata_locks;
意向锁

当线程A根据id执行更新操作时,会给这一行数据加上行级锁,当线程B执行给这张表加上一个表锁时,此时需要检查表中的每一行数据是否加锁,耗时。
在这里插入图片描述

为了避免DML在执行时,加的行锁与表锁冲突,在InnoDB中引入了意向锁,使得表锁不用检查每一行数据是否加锁,使用意向锁来减少表锁的检查。

过程:

当线程A根据id执行更新操作时,会给这一行数据加上行级锁并给表加上意向锁,当线程B执行给这张表加上一个表锁时,需要判断当前锁与意向锁是否兼容,如果兼容则执行;如果不兼容则阻塞,当线程A执行完commit后,此时线程B加锁才会执行并加上意向锁。

意向锁分为两种:

  1. 意向共享锁(IS):由语句select … lock in share mode 添加;
  2. 意向排他锁(IX):由insert、update、delete、select … for update 添加。
  • 意向共享锁(IS):与表锁共享锁(read)兼容,与表锁排他锁(write)互斥;
  • 意向排他锁(IX):与表锁共享锁(read)及排他锁(write)都互斥。意向锁之间不会互斥。

可以通过以下SQL,查看意向锁及行锁的加锁情况:

select object_schema,object_name,index_name,lock_type,lock_mode,lock_data from performance_schema.data_locks;
行级锁

行级锁,每次操作锁住对应的行数据。锁定粒度最小,发生锁冲突的概率最低,并发度最高。应用在InnoDB存储引擎中。

InnoDB的数据是基于索引组织的,行锁是通过对索引上的索引项加锁来实现的,而不是对记录加的锁。对于行级锁,主要分为以下三类:

  • 行锁(Record Lock):锁定单个行记录的锁,防止其他事务对此进行update和delete。在RC、RR隔离级别下都支持;
  • 间隙锁(Gap Lock):锁定索引记录间隙(不含该记录),确保索引记录间隙不变,防止其他事务在这个间隙进行insert,产生幻读。在RR隔离级别上都支持。
  • 临键锁(Next-Key Lock):行锁和间隙锁组合,同时锁住记录,并锁住记录前面的间隙Gap。在RR隔离级别下支持。
行锁

InnoDB实现了以下两种类型的行锁:

  1. 共享锁(S):允许一个事务去读一行,阻止其他事务获得相同的数据集的排他锁。(共享锁与共享锁是兼容的,共享锁与排他锁是互斥的。)

  2. 排他锁(X):允许获取排他锁的事务更新数据,阻止其他事务获得相同数据集的共享锁和排他锁。(如果一个事务获取到这行记录的排他锁,那么其他事务就不能再获取这行记录的共享锁和排他锁。)

    当前锁类型 | 请求锁类型S(共享锁)X(排他锁)
    S(共享锁)兼容冲突
    X(排他锁)冲突冲突
SQL行锁类型说明
insert …排他锁自动加锁
update …排他锁自动加锁
delete …排他锁自动加锁
select(正常)不加任何锁
select … lock in share mode共享锁需要手动在select之后加lock in share mode
select … for update排他锁需要手动在select之后加for update

默认情况下,InnoDB在Repeatable Read事务隔离级别运行,InnoDB使用next-key锁进行搜索和索引扫描,以防止幻读。

  1. 针对唯一索引进行检索时,对已存在的记录进行等值匹配时,将会自动优化为行锁;
  2. InnoDB的行锁是针对于索引加的锁,不通过索引条件检索数据,那么InnoDB将对表中的所有记录加锁,此时就会升级为表锁

可以通过以下SQL,查看意向锁及行锁的加锁情况:

select object_schema,object_name,index_name,lock_type,lock_mode,lock_data from performance_schema.data_locks;
间隙锁/临键锁

默认情况下,InnoDB在Repeatable Read事务隔离级别运行,InnoDB使用next-key锁进行搜索和索引扫描,以防止幻读。

  1. 索引上的等值查询(唯一索引),给不存在的记录加锁时,优化为间隙锁;
  2. 索引上的等值查询(普通索引),向右遍历时最后一个值不满足查询需求时,next-key lock退化为间隙锁;
  3. 索引上的范围查询(唯一索引),会访问到不满足条件的第一个值为止。

注意:间隙锁唯一目的是防止其他事务插入间隙。间隙锁可以共存,一个事务采用的间隙锁不会阻止另一个事务在同一间隙上采用间隙锁。

可以通过以下SQL,查看意向锁及行锁的加锁情况:

select object_schema,object_name,index_name,lock_type,lock_mode,lock_data from performance_schema.data_locks;
总结
锁
概述
	--在并发访问时,解决数据访问的一致性、有效性问题;
	--全局锁、表级锁、行级锁。
全局锁
	--对整个数据库实例加锁,加锁后整个实例就处于只读状态;
	--性能较差,数据逻辑备份时使用。
表级锁
	--操作锁住整张表,锁定粒度大,发送锁冲突的概率高;
	--表锁、元数据锁、意向锁。
行级锁
	--操作锁住对应的行数据,锁定粒度最小,发生锁冲突的概率最低;
	--行锁、间隙锁、临键锁。

InnoDB引擎

逻辑存储结构

在这里插入图片描述

表空间(ibd文件),一个MySQL实例可以对应多个表空间,用于存储记录、索引等数据。

,分为数据段(leaf node segment)、索引段(non-leaf node segment)、回滚段(roll back segment),InnoDB是索引组织表,数据段就是B+树的叶子节点,索引段即为B+树的非叶子节点。段用来管理多个extent(区)。

,表空间的单元结构,每个区的大小为1M。默认情况下,InnoDB存储引擎页大小为16K,即一个区中一共有64个连续的页。

,是InnoDB存储引擎磁盘管理的最小单元,每个页的大小默认为16KB。为了保证页的连续性,InnoDB存储引擎每次从磁盘申请4-5个区。

,InnoDB存储引擎数据是按行进行存放的。其中Trx_id:每次对某条记录进行改动时,都会把对应的事务id赋值给Trx_id隐藏列。Roll_pointer:每次对某条记录进行改动时,都会把旧的版本写入到undo日志中,然后这个隐藏列相当于一个指针,可以通过它来找到该记录修改前的信息。

架构

MySQL5.5版本开始,默认使用InnoDB存储引擎,它擅长事务处理,具有崩溃恢复特性,在日常开发中使用非常广泛。下面是InnoDB架构图,左侧为内存结构,右侧为磁盘结构。

在这里插入图片描述

内存结构

Buffer Pool:缓冲池是主内存中的一个区域,里面可以缓存磁盘上经常操作的真实数据,在执行增删改查操作时,先操作缓冲池中的数据(若缓冲池没有数据,则从磁盘加载并缓存),然后再以一定频率刷新到磁盘,从而减少磁盘IO,加快处理数据。

缓冲池以page页为单位,底层采用链表结构管理page,根据状态,将page分为三种类型:

  • free page:空闲page,未被使用。
  • clean page:被使用page,数据没有被修改过。
  • dirty page:脏页,被使用page,数据被修改过,页中数据与磁盘的数据产生不了一致。

Change Buffer:更改缓冲区(针对于非唯一二级索引页),在执行DML语句时,如果这些数据page没有在Buffer Pool中,不会直接操作磁盘,而会将数据变更存在更改缓冲区Change Buffer中,在未来数据被读取时,再将数据合并恢复到Buffer Pool中,再将合并后的数据刷新到磁盘中。

Change Buffer的意义是什么?

与聚集索引不同,二级索引通常是非唯一的,并且以相对随机的顺序插入二级索引。同样,删除和更新可能会影响索引树中不相邻的二级索引页,如果每一次都操作磁盘,会造成大量的磁盘IO。有了Change Buffer之后,我们可以再缓冲池中进行合并处理,减少磁盘IO。

Adaptive Hash Index:自适应hash索引,用于优化对Buffer Pool数据的查询。InnoDB存储引擎会监控对表上各索引页的查询,如果观察到hash索引可以提升速度,则建立hash索引,称之为自适应hash索引。(InnoDB不支持hash索引,但支持自适应哈希索引)

自适应哈希索引,无需人工干预,是系统根据情况自动完成。

参数:adaptive_hash_index

show variables 'adaptive_hash_index'; //默认on

Log Buffer:日志缓冲区,用来保存要写入到磁盘中的log日志数据(redo log、undo log),默认大小为16MB,日志缓冲区的日志会定期刷新到磁盘中。如果需要更新、插入或删除许多行的事务,增加日志缓冲区的大小可以节省磁盘I/O。

参数:

innodb_log_buffer_size:缓冲区大小

innodb_flush_log_at_trx_commit:日志刷新时机,1:日志在每次事务提交时写入并刷新到磁盘;0:每秒将日志写入刷新到磁盘一次;2:日志在每次事务提交后写入,并每秒刷新到磁盘一次。

磁盘结构

System Tablespace:系统表空间是更改缓冲区的存储区域。如果表是在系统表空间而不是每个表文件或通用表空间中创建的。它也可能包含表和索引数据。(在MySQL5.x版本中还包含InnoDB数据字典、undolog等)

参数:innodb_data_file_path

File-Per-Tablespaces:每个表的文件表空间包含单个InnoDB表的数据和索引,并存储在文件系统上的单个数据文件中。

参数:innodb_file_per_table

General Tablespaces:通用表空间,需要通过create tablespace语法创建通用表空间。在创建表时,可以指定该表空间。

#创建表空间
create tablespace ts_name(可修改) add datafile 'file_name'(可修改) engine = engine_name(可修改);

#将表创建到指定的表空间中
create table xxx ... tablespace ts_name;

Undo Tablespaces:撤销表空间,MySQL示例在初始化时会自动创建两个默认的undo表空间(初始大小16M),用于存储undo log日志。

Temporary Tablespaces:临时表空间,InnoDB使用会话临时表空间和全局临时表空间。存储用户创建的临时表等数据。

Doublewrite Buffer Files:双写缓冲区,InnoDB引擎将数据页从Buffer Pool刷新到磁盘前,先将数据页写入双写缓冲区文件中,便于系统异常时恢复数据。(文件名以.dblwr结尾)

Redo Log:重做日志,是用来实现事务的持久性。该日志文件由两部分组成:重做日志缓冲(redo log buffer)以及重做日志文件(redo log),前者是在内存中,后者在磁盘中。当事务提交之后会把所有修改信息都会存到该日志中,用于在刷新脏页到磁盘时,发生错误时,进行数据恢复使用。以循环方式写入重做日志文件,涉及两个文件:ib_logfile0 和 ib_logfile1。

后台线程

后台线程的作用是将InnoDB存储引擎缓冲池中的数据在合适的时机刷新到磁盘文件中。分为四类:

  1. Master Thread:核心后台线程,负责调度其他线程,还负责将缓冲池中的数据异步刷新到磁盘文件中,保持数据的一致性,还包括脏页的刷新、合并插入缓存、undo页的回收。

  2. IO Thread:在InnoDB存储引擎中大量使用了AIO来处理IO请求,这样可以极大地提高数据库的性能,而IO Thread主要负责这些IO请求的回调。

    #查看InnoDB引擎的状态信息,可以查看相关的IO Thread配置信息(File I/O模块)
    show engine innodb status;
    
    线程类型默认个数职责
    read thread4负责读操作
    write thread4负责写操作
    log thread1负责将日志缓冲区刷新到磁盘
    insert buffer thread1负责将写缓存区内容刷新到磁盘
  3. Purge Thread:主要用于回收事务已经提交了的undo log,在事务提交之后,undo log可能不用了,就用它来回收。

  4. Page Cleaner Thread:协助Master Thread刷新脏页到磁盘的线程,它可以减轻Master Thread的工作压力,减少阻塞。

事务原理

回顾一下:

事务

事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。

特性-ACID
  • 原子性(Atomicity):事务是不可分割的最小操作单位,要么全部成功,要么全部失败。
  • 一致性(Consistency):事务完成时,必须使所有的数据都保持一致状态。
  • 隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立环境下运行。
  • 持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。
管理

在这里插入图片描述

redo log

重做日志,记录的是事务提交时数据页的物理修改,是用来实现事务的持久性

该日志文件是有两部分组成:重做日志缓冲(redo log buffer)以及重做日志文件(redo log file),前者是在内存中,后者是在磁盘中。当事务提交之后会把所有修改信息都存到该日志文件中,用于在刷新脏页到磁盘,发送错误时,进行数据恢复使用。(WAL,Write -Ahead-Logging,先写入redo log buffer,后刷新到磁盘结构中)

在这里插入图片描述

undo log

回滚日志,用于记录数据被修改前的数据,作用包含两个:提供回滚和MVVC(多版本并发控制)

undo log和redo log记录物理日志不一样,它是逻辑日志。可以认为当delete一条记录时,undo log中会记录

一条对应的insert记录,反之亦然,当update一条记录时,它记录一条对应相反的update记录。当执行rollback时,就可以从undo log中的逻辑记录读取到相应的内容并进行回滚。

Undo log销毁:undo log在事务执行时产生,事务提交时,并不会立即删除undo log,因为这些日志可能还用于MVCC。

Undo log存储:undo log采用段的方式进行管理和记录,存放在前面介绍的rollback segment回滚段中,内部包含1024个undo log segment。

MVCC-多版本并发控制
基本概念
当前读

读取的是记录的最新版本,读取时还要保证其他并发事务不能修改当前记录,会对读取的记录进行加锁。对于我们日常的操作,如:select … lock in share mode(共享锁)、select … for update、update、insert、delete(排他锁)都是一种当前读。

快照读

简单的select(不加锁)就是快照读,快照读,读取的是记录数据的可见版本,有可能是历史数据,不加锁,是非阻塞读。

  • Read Committd:每次select,都生成一个快照读。
  • Repeatable Read:开启事务后第一个select语句才是快照读的地方。
  • Serializable:快照读会退化为当前读。
MVCC

全称Multi-Version Concurrency Control,多版本并发控制。指维护一个数据的多个版本,使得读写操作没有冲突,快照读为MySQL实现MVCC提供了一个非阻塞功能。MVCC的具体实现,还需要依赖于数据库记录中的三个隐藏字段undo log日志readView

作用:在快照读的时候要通过MVCC来查找对应的历史版本。

记录当中的隐藏字段

在这里插入图片描述

隐藏字段含义
DB_TRX_ID最近修改事务ID,记录插入这条记录或最后一次修改记录的事务ID。
DB_ROLL_PTR回滚指针,指向这条记录的上一个版本,用于配合undo log ,指向上一个版本。
DB_ROW_ID隐藏主键,如果表结构没有指定主键,将会生成该隐藏字段。

查看InnoDB表空间文件xxx.ibd文件的指令:(MySQL 8.0 版本及以上才支持ibd2sdi指令)

ibd2sdi xxx.ibd
Undo Log日志

回滚日志,在insert、update、delete的时候产生的便于数据回滚的日志。

当insert的时候,产生的undo log日志只在回滚时需要,在事务提交后,可被立即删除

而update、delete的时候,产生的undo log日志不仅在回滚时需要,在快照读时也需要,不会立即被删除
在这里插入图片描述

不同事务或相同事务对同一条记录进行修改,会导致该记录的undo log生成一条记录版本链表,链表的头部是最新的旧记录,链表的尾部是最早的旧记录。

ReadView

ReadView(读视图)是快照读SQL执行时MVCC提取数据的依据,记录并维护系统当前活跃的事务(未提交的)id。

ReadView中包含四个核心字段:

字段含义
m_ids当前活跃的事务ID集合
min_trx_id最小活跃事务ID
max_trx_id预分配事务ID、当前最大事务ID+1(因为事务ID是自增的)
creator_trx_idReadView创建者的事务ID

版本链数据访问规则

trx_id:代表是当前事务的ID。

  1. trx_id == creator_trx_id ? 可以访问该版本 -> 成立,说明数据是当前这个事务更改的
  2. trx_id < min_trx_id ? 可以访问该版本 -> 成立,说明数据已经提交了
  3. trx_id > max_trx_id ? 不可以访问该版本 -> 成立,说明该事务是在ReadView生成后才开启
  4. min_trx_id <= trx_id <= max_trx_id ? 如果trx_id不在m_ids中是可以访问该版本的 -> 成立,说明数据已经提交

不同的隔离级别,生成ReadView的时机也不同:

  • Read Committed:在事务中每一次执行快照读时生成ReadView。
  • Repeatable Read:仅在事务中第一次执行快照读时生成ReadView,后续复用该ReadView。
RC隔离级别下

RC隔离级别下,在事务中每一次执行快照读时生成ReadView。

在这里插入图片描述

在这里插入图片描述

第一个ReadView对应的数据是指针0x00002对应的数据;

第二个ReadView对应的数据是指针0x00003对应的数据。

RR隔离级别下

RR隔离级别下,仅在事务中第一次执行快照读时生成ReadView,后续复用该ReadView。

在这里插入图片描述

同理,根据版本链访问规则可以知道,这两个ReadView对应的数据是一样的,即指针0x00002对应的数据。

总结

在这里插入图片描述

1、逻辑存储结构
	--表空间、段、区、页、行
2、架构
	--内存结构
	--磁盘结构
3、事务原理
	--原子性- undo log
	--持久性- redo log
	--一致性- undo log + redo log
	--隔离性- 锁 + MVCC
4、MVCC
	--作用:在快照读的时候要通过MVCC来查找对应的历史版本
	--记录隐藏字段、undo log版本链、readView
  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值