MySQL数据库for面试

最新推荐文章于 2024-07-16 13:36:52 发布

zl_StepByStep

最新推荐文章于 2024-07-16 13:36:52 发布

阅读量905

点赞数 1

分类专栏：计算机基础（OS、计算机网络、DB）面试文章标签： MySQL引擎基本表/视图/游标索引 MySQL语句优化 MySQL复制原理

本文链接：https://blog.csdn.net/zl_StepByStep/article/details/82857549

版权

计算机基础（OS、计算机网络、DB）面试专栏收录该内容

6 篇文章 3 订阅

订阅专栏

本篇涉及到的问题：MySQL引擎；什么是基本表、视图、游标； char和varchar的区别及使用场景； MySQL中，索引、主键、唯一索引、联合索引的区别，对数据库的读写性能的影响；为数据库表建立索引的原则、目的及对DBS的负面影响； MySQL语句优化；MySQL执行计划分析；MySQL复制原理。

MySQL引擎

什么是基本表、视图、游标

char和varchar的区别及使用场景

MySQL中，索引、主键、唯一索引、联合索引的区别，对数据库的读写性能的影响

为数据库表建立索引的原则、目的及对DBS的负面影响

select Count (*)和Select Count(1)以及Select Count(column)区别：

索引列上计算引起的索引失效及优化措施以及注意事项：

怎么样执行计划分析？

MySQL复制原理：

MySQL引擎

MySQL的核心就是存储引擎。 MySQL的存储引擎是针对表进行设置的，一个数据库中不同的表可以设置成不同的存储引擎，以适用不同领域的数据库应用需要。主要的数据库引擎如下：

MyISAM：5.5之前默认的MySQL插件式存储引擎，不支持事务，不支持外键，只支持表级锁，内存和硬盘占用率低，优势是访问速度快，对事物完整性没有要求，以select、insert为主的应用基本上都可以使用这个引擎；使用场景：存日志、大批量数据导入和初始化。
InnoDB：5.5之后默认的存储引擎，提供了具有提交、回滚、崩溃恢复能力的事务安全，支持外键并提供了行级锁，其劣势在于写的处理效率相对较低，并且会占用更多的磁盘空间以保留数据和索引。
Memory（基于内存）：使用存于内存中的内容来创建表，MEMORY类型的表数据存于内存，访问非常的快，默认使用Hash索引，一旦数据库服务重启或关闭，表中的数据就会丢失。
Merge：Merge存储的是一组MyISAM表组合，这些MyISAM表结构完全相同。Merge表本身没有数据，对Merge表的CRUD操作都是通过内部的MyISAM表进行的。类似于视图。
BDB：可替代InnoDB的事务引擎，支持COMMIT、ROLLBACK和其他事务特性。
Archive：为大量很少引用的历史、归档、或安全审计信息的存储和检索提供了完美的解决方案。
Federated：能够将多个分离的MySQL服务器链接起来，从多个物理服务器创建一个逻辑数据库。十分适合于分布式环境或数据集市环境。
Cluster/NDB：MySQL的簇式数据库引擎，尤其适合于具有高性能查找要求的应用程序，这类查找需求还要求具有最高的正常工作时间和可用性。
Other：其他存储引擎包括CSV（引用由逗号隔开的用作数据库表的文件），Blackhole（用于临时禁止对数据库的应用程序输入），以及Example引擎（可为快速创建定制的插件式存储引擎提供帮助）。

对于整个服务器或方案，并不一定要使用相同的存储引擎，可以为方案中的每个表使用不同的存储引擎。

下面详细介绍InnoDB引擎和MyISAM引擎：

Innodb引擎提供了对数据库ACID事务的支持，并且实现了SQL标准的四种隔离级别。该引擎还提供了行级锁和外键约束，它的设计目标是处理大容量数据库系统，它本身其实就是基于MySQL后台的完整数据库系统，MySQL运行时InnoDB会在内存中建立缓冲池，用于缓冲数据和索引。但是该引擎不支持FULLTEXT类型的索引，而且它没有保存表的行数，当SELECT COUNT(*) FROM TABLE时需要扫描全表。当需要使用数据库事务时，该引擎当然是首选。由于锁的粒度更小，写操作不会锁定全表，所以在并发较高时，使用Innodb引擎会提升效率。但是使用行级锁也不是绝对的，如果在执行一个SQL语句时MySQL不能确定要扫描的范围，InnoDB表同样会锁全表。

MyIASM引擎是MySQL默认的引擎，但是它没有提供对数据库事务的支持，也不支持行级锁和外键，因此当INSERT(插入)或UPDATE(更新)数据时即写操作需要锁定整个表，效率便会低一些。不过和InnoDB不同，MyIASM中存储了表的行数，于是SELECT COUNT(*) FROM TABLE时只需要直接读取已经保存好的值而不需要进行全表扫描。如果表的读操作远远多于写操作且不需要数据库事务的支持，那么MyIASM也是很好的选择。

两者主要区别：

1、MyIASM是非事务安全的，而InnoDB是事务安全的

2、MyIASM锁的粒度是表级的，而InnoDB支持行级锁

3、MyIASM支持全文类型索引，而InnoDB不支持全文索引

4、MyIASM相对简单，效率上要优于InnoDB，小型应用可以考虑使用MyIASM

5、MyIASM表保存成文件形式，跨平台使用更加方便

应用场景：

1、MyIASM管理非事务表，提供高速存储和检索以及全文搜索能力，如果再应用中执行大量select操作，应该选择MyIASM。

2、InnoDB用于事务处理，具有ACID事务支持等特性，如果在应用中执行大量insert和update操作，应该选择InnoDB。

两种引擎所使用的索引的数据结构（都是B+树）：

MyIASM引擎，B+树的数据结构中存储的内容实际上是实际数据的地址值。也就是说它的索引和实际数据是分开的，只不过使用索引指向了实际数据。这种索引的模式被称为非聚集索引。

Innodb引擎的索引的数据结构也是B+树，只不过数据结构中存储的都是实际的数据，这种索引有被称为聚集索引。

什么是基本表、视图、游标

基本表是本身独立存在的表，在 SQL 中一个关系就对应一个表。是一个虚表

视图是从一个或几个基本表导出的表。视图本身不独立存储在数据库中，所以视图是一种虚表。而具有和物理表相同的功能，可以对视图进行增，改，查，操作。另外，对视图的修改不影响基本表，相比多表查询，它使得我们获取数据更容易。

游标是对查询出来的结果集作为一个单元来有效的处理。游标可以定在该单元中的特定行，从结果集的当前行检索一行或多行。可以对结果集当前行做修改。一般不使用游标，但是需要逐条处理数据的时候，游标显得十分重要。

char和varchar的区别及使用场景

char是一种固定长度的类型，varchar则是一种可变长度的类型，它们的区别是：

char(M)类型的数据列里，每个值都占用M个字节，如果某个长度小于M，MySQL就会在它的右边用空格字符补足（在检索操作中那些填补出来的空格字符将被去掉）。在varchar(M)类型的数据列里，每个值只占用刚好够用的字节再加上一个用来记录其长度的字节（即总长度为L+1字节）。

varchar得适用场景：

☆字符串列得最大长度比平均长度大很多 ☆字符串很少被更新，容易产生存储碎片 ☆使用多字节字符集存储字符串。

char的使用场景：

☆存储具有近似得长度（md5值，身份证，手机号） ☆长度比较短小得字符串（因为varchar需要额外空间记录字符串长度）

☆更适合经常更新的字符串，更新时不会出现页分裂得情况，避免出现存储碎片，获得更好的io性能。

MySQL中，索引、主键、唯一索引、联合索引的区别，对数据库的读写性能的影响

索引是一种特殊的文件（InnoDB数据库表上的索引是表空间的一个组成部分），它们包含着数据库表里所有记录的引用指针。

普通索引的唯一任务是加快对数据的访问速度，有KEY或INDEX关键字定义。普通索引允许被索引的数据列包含重复的值，如果能确定某个数据列将只包含彼此各不相同的值，在为这个数据列创建索引的时候就应该用关键字UNIQUE把它定义成一个唯一索引，唯一索引保证数据记录的唯一性。

主键是一种特殊的唯一索引，在一张表中只能定义一个主键索引，主键用于唯一标识一条记录，使用关键字PRIMARY KEY创建。

索引可以覆盖多个数据列，比如INDEX（columnA，columnB）索引，这就是联合索引。

索引对数据库的读写性能的影响：索引可以极大的提高数据的查询速度，但是会降低数据的插入、删除和更新表的速度，因为在执行写操作的时候，还要操作索引文件。

为数据库表建立索引的原则、目的及对DBS的负面影响

★ 建立索引的原则：

☆在最频繁使用的、用以缩小查询范围的字段上建立索引 ☆在频繁使用的，用以排序的字段上建立索引

注：这两种情况最好不要建立索引：一是对于查询中很少涉及的列或者重复值比较多的列，不宜建立索引；二是对于一些特殊的数据类型，不宜建立索引，比如文本字段（text）等。

◆ 建立索引的目的：

◇快速访问数据表中的特定信息，提高检索速度 ◇创建唯一性索引，保证数据库表中每一行数据的唯一性

◇加速表和表之间的连接 ◇使用分组和排序子句进行数据检索时，可以显著减少查询中分组和排序的时间

●索引对数据库系统的负面影响：
○ 创建索引和维护索引需要耗费时间，这个时间随着数据量的增加而增加；

○ 索引需要占用物理空间，不光是表需要占用数据空间，每个索引也需要占用物理空间；

○ 当对表进行增、删、改、的时候索引也要动态维护，这样就降低了数据的维护速度。

提高sql语句效率的技巧：

1.大批量插入数据：

▲大批量数据插入空表，可将表设置成MyISAM，并通过disable keys将唯一索引关闭；

▲大批量插入非空InnoDB表，可采取：

①导入数据时按照逐渐顺序排列；

②导入数据前使用set UNIQUE_CHECKS=0，关闭唯一性校验，导入后恢复；

③如果使用了自动提交（一条一条提交)，建议在导入前执行SET AUTOCOMMIT=0（批量提交），关闭自动提交，导入后恢复。

2.优化INSERT语句

▲尽量使用多个值表的insert语句，降低连接、关闭的消耗；例如：insert into user values(1,“张三”),（2,“李四”）,（...）,... 。

▲将索引文件和数据文件分在不同的磁盘上存放；

▲从一个文本文件装入一个表时，使用LOAD DATE INFILE，比一般的inser语句快20倍

3.查询优化

▲ 尽量减少额外的排序，通过索引直接返回有序数据；where条件和order by使用相同的索引，并且order by的顺序和索引顺序相同，并且order by的字段都是升序或者都是降序；

▲尽量只选择必要的字段，提高SQL性能；

▲ 能用关联查询就不要使用子查询；

▲对于包含or的查询语句，如果要利用索引，则or之间的每个条件都必须用到索引，否则应该考虑增加索引；

▲优化分页：①在索引上完成排序分页的操作，然后根据主键关联回原表查询所需的其他列 ②把limit查询转化为某个位置的查询。

4.注意不使用索引的情况：

▲如果MySQL估计使用索引比全表扫描更慢，则不用索引；

▲用or分隔开的条件，如果or前的条件中的列有索引，而后面的列没有索引，那么涉及到的索引都不会被用到；

▲复合索引，如果索引列不是符合索引的第一部分，则不使用索引（即不符合最左前缀）；

▲如果like是以“%”开始的，则该列上的索引不会被使用；

▲如果列为字符串，则where条件中必须将字符常量值加引号，否则即使该列上存在索引，也不会被使用；

▲not in、not exist、!=或<>这些操作符不走索引；

▲不要在where字句中的“=”左边进行函数、算术运算或其他表达式运算，否则系统将可能无法正确使用索引。

▲对查询进行优化，尽量避免全表扫描，首先考虑在where及order by涉及的列上建立索引。

▲应尽量避免在where子句中使用!=或<>操作符，否则引擎将放弃使用索引而进行全表扫描。

▲应尽量避免在where子句中进行null值的判断，否则引擎将放弃使用索引而进行全表扫描。例：select id from t where num is null; 可以在num上设置默认值为0，确保num列中没有null值，然后可以这样查询：select id from t where num=0；

▲应尽量避免在 where 子句中使用 or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num=10 or num=20；可以这样查询：select id from t where num=10 union all select id from t where num=20

▲模糊查询以%开头的查询也将导致全表扫描，例：select id from t where name like '%abc%'。

▲in 和 not in 也要慎用，否则会导致全表扫描，如：select id from t where num in(1,2,3)；对于连续的数值，能用 between 就不要用 in 了：select id from t where num between 1 and 3；

▲如果在 where 子句中使用参数，也会导致全表扫描。因为SQL只有在运行时才会解析局部变量，但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而，如果在编译时建立访问计划，变量的值还是未知的，因而无法作为索引选择的输入项。如下面语句将进行全表扫描：
select id from t where num=@num；可以改为强制查询使用索引： select id from t with(index(索引名)) where num=@num；

▲应尽量避免在 where 子句中对字段进行表达式操作，这将导致引擎放弃使用索引而进行全表扫描。如：
select id from t where num/2=100; 应改为: select id from t where num=100*2;

▲应尽量避免在where子句中对字段进行函数操作，这将导致引擎放弃使用索引而进行全表扫描。如：
　　select id from t where substring(name,1,3)='abc' ; --name以abc开头的id
　　select id from t where datediff(day,createdate,'2005-11-30')=0; --'2005-11-30'生成的id
　　应改为:
　　select id from t where name like 'abc%';
　　select id from t where createdate>='2005-11-30' and createdate<'2005-12-1';

▲不要在 where 子句中的“=”【左边】进行函数、算术运算或其他表达式运算，否则系统将可能无法正确使用索引。

▲在使用索引字段作为条件时，如果该索引是【复合索引】，那么必须使用到该索引中的【第一个字段】作为条件时才能保证系统使用该索引，否则该索引将不会被使用。并且应【尽可能】的让字段顺序与索引顺序相一致。（字段顺序也可以不与索引顺序一致，但是一定要包含【第一个字段】。）

▲不要写一些没有意义的查询，如需要生成一个空表结构：
select col1,col2 into #t from t where 1=0; 这类代码不会返回任何结果集，但是会消耗系统资源的，应改成：create table #t(...);

▲很多时候用 exists 代替 in 是一个好的选择：select num from a where num in(select num from b);
替换成select num from a where exists(select 1 from b where num=a.num)；

▲并不是所有索引对查询都有效，SQL是根据表中数据来进行查询优化的，当索引列有大量数据重复时，SQL查询可能不会去利用索引，如一表中有字段sex，male、female几乎各一半，那么即使在sex上建了索引也对查询效率起不了作用。

▲索引并不是越多越好，索引固然可以提高相应的 select 的效率，但同时也降低了 insert 及 update 的效率，因为 insert 或 update 时有可能会重建索引，所以怎样建索引需要慎重考虑，视具体情况而定。一个表的索引数最好不要超过6个，若太多则应考虑一些不常使用到的列上建的索引是否有必要。

▲应尽可能的避免更新 clustered 索引数据列，因为 clustered 索引数据列的顺序就是表记录的物理存储顺序，一旦该列值改变将导致整个表记录的顺序的调整，会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列，那么需要考虑是否应将该索引建为 clustered 索引。

▲尽量使用数字型字段，若只含数值信息的字段尽量不要设计为字符型，这会降低查询和连接的性能，并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符，而对于数字型而言只需要比较一次就够了。

▲尽可能的使用 varchar/nvarchar 代替 char/nchar ，因为首先变长字段存储空间小，可以节省存储空间，其次对于查询来说，在一个相对较小的字段内搜索效率显然要高些。

▲.任何地方都不要使用 select * from t ，用具体的字段列表代替“*”，不要返回用不到的任何字段。

▲尽量使用表变量来代替临时表。如果表变量包含大量数据，请注意索引非常有限(只有主键索引)。

▲避免频繁创建和删除临时表，以减少系统表资源的消耗。

▲.如果使用到了临时表，在存储过程的最后务必将所有的临时表显式删除，先 truncate table ，然后 drop table ，这样可以避免系统表的较长时间锁定。

▲临时表并不是不可使用，适当地使用它们可以使某些例程更有效，例如，当需要重复引用大型表或常用表中的某个数据集时。但是，对于一次性事件，最好使用导出表。

▲尽量避免使用游标，因为游标的效率较差，如果游标操作的数据超过1万行，那么就应该考虑改写。

▲使用基于游标的方法或临时表方法之前，应先寻找基于集的解决方案来解决问题，基于集的方法通常更有效。

▲与临时表一样，游标并不是不可使用。对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法，尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。如果开发时间允许，基于游标的方法和基于集的方法都可以尝试一下，看哪一种方法的效果更好。

▲在所有的存储过程和触发器的开始处设置 SET NOCOUNT ON ，在结束时设置 SET NOCOUNT OFF 。无需在执行存储过程和触发器的每个语句后向客户端发送 DONE_IN_PROC 消息。

▲尽量避免向客户端返回大数据量，若数据量过大，应该考虑相应需求是否合理。

▲尽量避免大事务操作，提高系统并发能力。

**select Count (*)和Select Count(1)以及Select Count(column)区别：**

一般情况下，Select Count (*)和Select Count(1)两着返回结果是一样的。
假如表沒有主键(Primary key), 那么count(1)比count(*)快；如果有主键的話，那主键作为count的条件时候count(主键)最快；如果表中只有一个字段的话那count(*)就是最快的。count(*) 跟 count(1) 的结果一样，都包括对NULL的统计，而count(column) 是不包括NULL的统计。

索引列上计算引起的索引失效及优化措施以及注意事项：

创建索引、优化查询以便达到更好的查询优化效果。但实际上，MySQL有时并不按我们设计的那样执行查询。MySQL是根据统计信息来生成执行计划的，这就涉及索引及索引的刷选率，表数据量，还有一些额外的因素。
Each table index is queried, and the best index is used unless the optimizer believes that it is more efficient to use a table scan. At one time, a scan was used based on whether the best index spanned more than 30% of the table, but a fixed percentage no longer determines the choice between using an index or a scan. The optimizer now is more complex and bases its estimate on additional factors such as table size, number of rows, and I/O block size.
简而言之，当MySQL认为符合条件的记录在30%以上，它就不会再使用索引，因为mysql认为走索引的代价比不用索引代价大，所以优化器选择了自己认为代价最小的方式。事实也的确如此，是MYSQL认为记录是30%以上，而不是实际MYSQL去查完再决定的。都查完了，还用什么索引啊！MYSQL会先估算，然后决定是否使用索引。