我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）(1)

最新推荐文章于 2024-09-07 08:07:39 发布

巫俊晤

最新推荐文章于 2024-09-07 08:07:39 发布

阅读量782

点赞数 7

分类专栏： 2024年程序员学习文章标签： mysql 服务器数据库

本文链接：https://blog.csdn.net/wfegre/article/details/137871000

版权

2024年程序员学习专栏收录该内容

170 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注Java）

正文

OK不废话，咱们马上进行分页优化

子查询优化

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以看到比起之前 limit 1000000时的0.218s 效率提高了很多

使用JOIN分页

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以看到比起之前 limit 1000000时的0.218s 效率也同样提高了很多

使用前一次查询的最大ID

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以看到这种方法效率最高，但依赖于需要知道最大ID，这种适合点击下一页查询（类似于滚动加载数据）的场景

通过伪列对ID进行分页

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

然后可以开启多个线程去进行最高效率查询语句的批量查询操作 0~10000，10001-20000… 这样子的话可以快速把全量数据查询出来同步至缓存中。

分页优化总结：使用前一次查询的最大ID进行查询优化是效率最高的方法，但这种方法只适用于下一页点击的这种操作，对于同步全量数据来说建议的方式使用伪列对ID进行分页，然后开启多个线程同时查询，把全量数据加载到缓存，以后面试官问你如何快速获取海量数据并加载到缓存你该知道怎么回答了吧。

2.普通索引优化

先来看没索引优化的情况下的查询效率

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以看到这时没用索引的情况，用了0.305S接下来看看加了索引后的结果

普通索引优化

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

只需要0.024S，我们可以EXPLAIN看下

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以看到使用了普通索引后查询效率明显增加

3.复合索引优化

复合索引什么时候用？为什么要用？围绕着这两问题，咱们先来说说复合索引什么时候用

单表中查询、条件语句中具有较多个字段
使用索引会影响写的效率，需要研究建立最优秀的索引

我们这里建议一个复合索引

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

MySQL建立复合索引时实际建立了(user_name)、（user_name,address）、(user_name,address,create_time)三个索引,我们都知道每多一个索引，都会增加写操作的开销和磁盘空间的开销，对于海量数据的表，这可是不小的开销，所以你会发现我们在这里使用复合索引一个顶三个，又能减少写操作的开销和磁盘空间的开销

当我们select user_name,address,create_time from t_user where user_name=xx and address = xxx时，MySQL可以直接通过遍历索引取得数据，无需回表，这减少了很多的随机IO操作。所以，在真正的实际应用中，这就是覆盖索引，是复合索引中主要的提升性能的优化手段之一。

4.SQL查询优化

1.避免使用OR，看看例子

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以看到这条语句没有使用到索引，是因为当or左右查询字段只有一个是索引，该索引失效，只有当or左右查询字段均为索引时，才会生效。

2.不要使用like ‘%xx’ %在左边时索引失效

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

3.使用复合索引时没有遵循最左匹配原则

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

ref:这个连接类型只有在查询使用了不是惟一或主键的键或者是这些类型的部分（比如，利用最左边前缀）时发生。没有值说明没有利用最左前缀原则

再来看个使用了最左前缀的例子

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

4. 不要让数据类型出现隐式转化

可以看以下两个例子

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

5. 不要在索引字段上使用not，<>，!=，一样会导致索引失效

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

6. 分解关联查询例如这条语句

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以分解成

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

7.小表驱动大表即小的数据集驱动大的数据集。如：以t_user，t_order两表为例，两表通过 t_user的id字段进行关联。

当 t_order表的数据集小于t_user表时,用 in 优化 exist,使用 in,两表执行顺序是先查 t_order 表,再查t_user表

select * from t_user where id in (select user_id from t_order)

当 t_user 表的数据集小于 t_order 表时，用 exist 优化 in,使用 exists,两表执行顺序是先查 t_user 表,再查 t_order 表

select * from t_user where exists (select 1 from B where t_order.user_id= t_user.id)

5.事务优化

首先了解下事务的隔离级别，数据库共定义了四种隔离级别：

Serializable：可避免脏读、不可重复读、虚读情况的发生。（串行化）
Repeatable read：可避免脏读、不可重复读情况的发生。（可重复读）
Read committed：可避免脏读情况发生（读已提交）。
Read uncommitted：最低级别，以上情况均无法保证。(读未提交)

可以通过 set transaction isolation level 设置事务隔离级别来提高性能

6.数据库性能优化

开启查询缓存

在解析一个查询语句前，如果查询缓存是打开的，那么MySQL会检查这个查询语句是否命中查询缓存中的数据。如果当前查询恰好命中查询缓存，在检查一次用户权限后直接返回缓存中的结果。这种情况下，查询不会被解析，也不会生成执行计划，更不会执行。 MySQL将缓存存放在一个引用表（不要理解成table，可以认为是类似于HashMap的数据结构），通过一个哈希值索引，这个哈希值通过查询本身、当前要查询的数据库、客户端协议版本号等一些可能影响结果的信息计算得来。所以两个查询在任何字符上的不同（例如：空格、注释），都会导致缓存不会命中。
如果查询中包含任何用户自定义函数、存储函数、用户变量、临时表、mysql库中的系统表，其查询结果都不会被缓存。比如函数NOW()或者CURRENT_DATE()会因为不同的查询时间，返回不同的查询结果，再比如包含CURRENT_USER或者CONNECION_ID()的查询语句会因为不同的用户而返回不同的结果，将这样的查询结果缓存起来没有任何的意义。
既然是缓存，就会失效，那查询缓存何时失效呢？MySQL的查询缓存系统会跟踪查询中涉及的每个表，如果这些表（数据或结构）发生变化，那么和这张表相关的所有缓存数据都将失效。正因为如此，在任何的写操作时，MySQL必须将对应表的所有缓存都设置为失效。如果查询缓存非常大或者碎片很多，这个操作就可能带来很大的系统消耗，甚至导致系统僵死一会儿。而且查询缓存对系统的额外消耗也不仅仅在写操作，读操作也不例外：

任何的查询语句在开始之前都必须经过检查，即使这条SQL语句永远不会命中缓存

如果查询结果可以被缓存，那么执行完成后，会将结果存入缓存，也会带来额外的系统消耗复制代码

基于此，我们要知道并不是什么情况下查询缓存都会提高系统性能，缓存和失效都会带来额外消耗，只有当缓存带来的资源节约大于其本身消耗的资源时，才会给系统带来性能提升。但要如何评估打开缓存是否能够带来性能提升是一件非常困难的事情，也不在本文讨论的范畴内。如果系统确实存在一些性能问题，可以尝试打开查询缓存，并在数据库设计上做一些优化，比如：

. 批量插入代替循环单条插入　 . 合理控制缓存空间大小，一般来说其大小设置为几十兆比较合适　 . 可以通过SQL_CACHE和SQL_NO_CACHE来控制某个查询语句是否需要进行缓存　　最后的忠告是不要轻易打开查询缓存，特别是写密集型应用。如果你实在是忍不住，可以将query_cache_type设置为DEMAND，这时只有加入SQL_CACHE的查询才会走缓存，其他查询则不会，这样可以非常自由地控制哪些查询需要被缓存。　　当然查询缓存系统本身是非常复杂的，这里讨论的也只是很小的一部分，其他更深入的话题，比如：缓存是如何使用内存的？如何控制内存的碎片化？事务对查询缓存有何影响等等，读者可以自行阅读相关资料，这里权当抛砖引玉吧。

语法解析和预处理

MySQL通过关键字将SQL语句进行解析，并生成一颗对应的解析树。这个过程解析器主要通过语法规则来验证和解析。比如SQL中是否使用了错误的关键字或者关键字的顺序是否正确等等。预处理则会根据MySQL规则进一步检查解析树是否合法。比如检查要查询的数据表和数据列是否存在等等。

7.系统内核参数优化

#基础配置

datadir=/data/datafile

socket=/var/lib/mysql/mysql.sock

log-error=/data/log/mysqld.log

pid-file=/var/run/mysqld/mysqld.pid

character_set_server=utf8

#允许任意IP访问

bind-address = 0.0.0.0

#是否支持符号链接，即数据库或表可以存储在my.cnf中指定datadir之外的分区或目录，为0不开启

#symbolic-links=0

#支持大小写

lower_case_table_names=1

#二进制配置

server-id = 1

log-bin = /data/log/mysql-bin.log

log-bin-index =/data/log/binlog.index

log_bin_trust_function_creators=1

expire_logs_days=7

#sql_mode定义了mysql应该支持的sql语法，数据校验等

#mysql5.0以上版本支持三种sql_mode模式：ANSI、TRADITIONAL和STRICT_TRANS_TABLES。

#ANSI模式：宽松模式，对插入数据进行校验，如果不符合定义类型或长度，对数据类型调整或截断保存，报warning警告。

#TRADITIONAL模式：严格模式，当向mysql数据库插入数据时，进行数据的严格校验，保证错误数据不能插入，报error错误。用于事物时，会进行事物的回滚。

#STRICT_TRANS_TABLES模式：严格模式，进行数据的严格校验，错误数据不能插入，报error错误。

sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION

#InnoDB存储数据字典、内部数据结构的缓冲池，16MB已经足够大了。

innodb_additional_mem_pool_size = 16M

#InnoDB用于缓存数据、索引、锁、插入缓冲、数据字典等

#如果是专用的DB服务器，且以InnoDB引擎为主的场景，通常可设置物理内存的60%

#如果是非专用DB服务器，可以先尝试设置成内存的1/4

innodb_buffer_pool_size = 4G

#InnoDB的log buffer，通常设置为 64MB 就足够了

innodb_log_buffer_size = 64M

#InnoDB redo log大小，通常设置256MB 就足够了

innodb_log_file_size = 256M

#InnoDB redo log文件组，通常设置为 2 就足够了

innodb_log_files_in_group = 2

#共享表空间:某一个数据库的所有的表数据，索引文件全部放在一个文件中，默认这个共享表空间的文件路径在data目录下。默认的文件名为:ibdata1 初始化为10M。

#独占表空间:每一个表都将会生成以独立的文件方式来进行存储，每一个表都有一个.frm表描述文件，还有一个.ibd文件。其中这个文件包括了单独一个表的数据内容以及索引内容，默认情况下它的存储位置也是在表的位置之中。

#设置参数为1启用InnoDB的独立表空间模式，便于管理

innodb_file_per_table = 1

#InnoDB共享表空间初始化大小，默认是 10MB，改成 1GB，并且自动扩展

innodb_data_file_path = ibdata1:1G:autoextend

#设置临时表空间最大4G

innodb_temp_data_file_path=ibtmp1:500M:autoextend:max:4096M

#启用InnoDB的status file，便于管理员查看以及监控

innodb_status_file = 1

#当设置为0，该模式速度最快，但不太安全，mysqld进程的崩溃会导致上一秒钟所有事务数据的丢失。

#当设置为1，该模式是最安全的，但也是最慢的一种方式。在mysqld 服务崩溃或者服务器主机crash的情况下，binary log 只有可能丢失最多一个语句或者一个事务。

#当设置为2，该模式速度较快，也比0安全，只有在操作系统崩溃或者系统断电的情况下，上一秒钟所有事务数据才可能丢失。

innodb_flush_log_at_trx_commit = 1

#设置事务隔离级别为 READ-COMMITED，提高事务效率，通常都满足事务一致性要求

#transaction_isolation = READ-COMMITTED

#max_connections：针对所有的账号所有的客户端并行连接到MYSQL服务的最大并行连接数。简单说是指MYSQL服务能够同时接受的最大并行连接数。

#max_user_connections : 针对某一个账号的所有客户端并行连接到MYSQL服务的最大并行连接数。简单说是指同一个账号能够同时连接到mysql服务的最大连接数。设置为0表示不限制。

#max_connect_errors：针对某一个IP主机连接中断与mysql服务连接的次数，如果超过这个值，这个IP主机将会阻止从这个IP主机发送出去的连接请求。遇到这种情况，需执行flush hosts。

#执行flush host或者 mysqladmin flush-hosts，其目的是为了清空host cache里的信息。可适当加大，防止频繁连接错误后，前端host被mysql拒绝掉

#在 show global 里有个系统状态Max_used_connections,它是指从这次mysql服务启动到现在，同一时刻并行连接数的最大值。它不是指当前的连接情况，而是一个比较值。如果在过去某一个时刻，MYSQL服务同时有10

00个请求连接过来，而之后再也没有出现这么大的并发请求时，则Max_used_connections=1000.请注意与show variables 里的max_user_connections的区别。#Max_used_connections / max_connections * 100% ≈ 85%

max_connections=600

max_connect_errors=1000

max_user_connections=400

#设置临时表最大值，这是每次连接都会分配，不宜设置过大 max_heap_table_size 和 tmp_table_size 要设置一样大

max_heap_table_size = 100M

tmp_table_size = 100M

#每个连接都会分配的一些排序、连接等缓冲，一般设置为 2MB 就足够了

总结

机会是留给有准备的人，大家在求职之前应该要明确自己的态度，熟悉求职流程，做好充分的准备，把一些可预见的事情做好。

对于应届毕业生来说，校招更适合你们，因为绝大部分都不会有工作经验，企业也不会有工作经验的需求。同时，你也不需要伪造高大上的实战经验，以此让自己的简历能够脱颖而出，反倒会让面试官有所怀疑。

你在大学时期应该明确自己的发展方向，如果你在大一就确定你以后想成为Java工程师，那就不要花太多的时间去学习其他的技术语言，高数之类的，不如好好想着如何夯实Java基础。下图涵盖了应届生乃至转行过来的小白要学习的Java内容：

请转发本文支持一下

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

请转发本文支持一下

[外链图片转存中…(img-PQRDHOkv-1713333866277)]

[外链图片转存中…(img-TMGAGUK5-1713333866277)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）
[外链图片转存中…(img-oeF1Nc4i-1713333866278)]

巫俊晤

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）(1)

机会是留给有准备的人，大家在求职之前应该要明确自己的态度，熟悉求职流程，做好充分的准备，把一些可预见的事情做好。对于应届毕业生来说，校招更适合你们，因为绝大部分都不会有工作经验，企业也不会有工作经验的需求。同时，你也不需要伪造高大上的实战经验，以此让自己的简历能够脱颖而出，反倒会让面试官有所怀疑。你在大学时期应该明确自己的发展方向，如果你在大一就确定你以后想成为Java工程师，那就不要花太多的时间去学习其他的技术语言，高数之类的，不如好好想着如何夯实Java基础。请转发本文支持一下。
复制链接

扫一扫

专栏目录