我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

最新推荐文章于 2024-08-01 17:13:40 发布

巫俊晤

最新推荐文章于 2024-08-01 17:13:40 发布

阅读量822

点赞数 9

分类专栏： 2024年程序员学习文章标签： mysql 网络服务器

本文链接：https://blog.csdn.net/wfegre/article/details/137871016

版权

2024年程序员学习专栏收录该内容

170 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注Java）

正文

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

3.使用复合索引时没有遵循最左匹配原则

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

ref:这个连接类型只有在查询使用了不是惟一或主键的键或者是这些类型的部分（比如，利用最左边前缀）时发生。没有值说明没有利用最左前缀原则

再来看个使用了最左前缀的例子

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

4. 不要让数据类型出现隐式转化

可以看以下两个例子

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

5. 不要在索引字段上使用not，<>，!=，一样会导致索引失效

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

6. 分解关联查询例如这条语句

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

可以分解成

我又吊打面试官了，凭借MySQL海量数据优化（理论+实战）

7.小表驱动大表即小的数据集驱动大的数据集。如：以t_user，t_order两表为例，两表通过 t_user的id字段进行关联。

当 t_order表的数据集小于t_user表时,用 in 优化 exist,使用 in,两表执行顺序是先查 t_order 表,再查t_user表

select * from t_user where id in (select user_id from t_order)

当 t_user 表的数据集小于 t_order 表时，用 exist 优化 in,使用 exists,两表执行顺序是先查 t_user 表,再查 t_order 表

select * from t_user where exists (select 1 from B where t_order.user_id= t_user.id)

5.事务优化

首先了解下事务的隔离级别，数据库共定义了四种隔离级别：

Serializable：可避免脏读、不可重复读、虚读情况的发生。（串行化）
Repeatable read：可避免脏读、不可重复读情况的发生。（可重复读）
Read committed：可避免脏读情况发生（读已提交）。
Read uncommitted：最低级别，以上情况均无法保证。(读未提交)

可以通过 set transaction isolation level 设置事务隔离级别来提高性能

6.数据库性能优化

开启查询缓存

在解析一个查询语句前，如果查询缓存是打开的，那么MySQL会检查这个查询语句是否命中查询缓存中的数据。如果当前查询恰好命中查询缓存，在检查一次用户权限后直接返回缓存中的结果。这种情况下，查询不会被解析，也不会生成执行计划，更不会执行。 MySQL将缓存存放在一个引用表（不要理解成table，可以认为是类似于HashMap的数据结构），通过一个哈希值索引，这个哈希值通过查询本身、当前要查询的数据库、客户端协议版本号等一些可能影响结果的信息计算得来。所以两个查询在任何字符上的不同（例如：空格、注释），都会导致缓存不会命中。
如果查询中包含任何用户自定义函数、存储函数、用户变量、临时表、mysql库中的系统表，其查询结果都不会被缓存。比如函数NOW()或者CURRENT_DATE()会因为不同的查询时间，返回不同的查询结果，再比如包含CURRENT_USER或者CONNECION_ID()的查询语句会因为不同的用户而返回不同的结果，将这样的查询结果缓存起来没有任何的意义。
既然是缓存，就会失效，那查询缓存何时失效呢？MySQL的查询缓存系统会跟踪查询中涉及的每个表，如果这些表（数据或结构）发生变化，那么和这张表相关的所有缓存数据都将失效。正因为如此，在任何的写操作时，MySQL必须将对应表的所有缓存都设置为失效。如果查询缓存非常大或者碎片很多，这个操作就可能带来很大的系统消耗，甚至导致系统僵死一会儿。而且查询缓存对系统的额外消耗也不仅仅在写操作，读操作也不例外：

任何的查询语句在开始之前都必须经过检查，即使这条SQL语句永远不会命中缓存

如果查询结果可以被缓存，那么执行完成后，会将结果存入缓存，也会带来额外的系统消耗复制代码

基于此，我们要知道并不是什么情况下查询缓存都会提高系统性能，缓存和失效都会带来额外消耗，只有当缓存带来的资源节约大于其本身消耗的资源时，才会给系统带来性能提升。但要如何评估打开缓存是否能够带来性能提升是一件非常困难的事情，也不在本文讨论的范畴内。如果系统确实存在一些性能问题，可以尝试打开查询缓存，并在数据库设计上做一些优化，比如：

. 批量插入代替循环单条插入　 . 合理控制缓存空间大小，一般来说其大小设置为几十兆比较合适　 . 可以通过SQL_CACHE和SQL_NO_CACHE来控制某个查询语句是否需要进行缓存　　最后的忠告是不要轻易打开查询缓存，特别是写密集型应用。如果你实在是忍不住，可以将query_cache_type设置为DEMAND，这时只有加入SQL_CACHE的查询才会走缓存，其他查询则不会，这样可以非常自由地控制哪些查询需要被缓存。　　当然查询缓存系统本身是非常复杂的，这里讨论的也只是很小的一部分，其他更深入的话题，比如：缓存是如何使用内存的？如何控制内存的碎片化？事务对查询缓存有何影响等等，读者可以自行阅读相关资料，这里权当抛砖引玉吧。

语法解析和预处理

MySQL通过关键字将SQL语句进行解析，并生成一颗对应的解析树。这个过程解析器主要通过语法规则来验证和解析。比如SQL中是否使用了错误的关键字或者关键字的顺序是否正确等等。预处理则会根据MySQL规则进一步检查解析树是否合法。比如检查要查询的数据表和数据列是否存在等等。

7.系统内核参数优化

#基础配置

datadir=/data/datafile

socket=/var/lib/mysql/mysql.sock

log-error=/data/log/mysqld.log

pid-file=/var/run/mysqld/mysqld.pid

character_set_server=utf8

#允许任意IP访问

bind-address = 0.0.0.0

#是否支持符号链接，即数据库或表可以存储在my.cnf中指定datadir之外的分区或目录，为0不开启

#symbolic-links=0

#支持大小写

lower_case_table_names=1

#二进制配置

server-id = 1

log-bin = /data/log/mysql-bin.log

log-bin-index =/data/log/binlog.index

log_bin_trust_function_creators=1

expire_logs_days=7

#sql_mode定义了mysql应该支持的sql语法，数据校验等

#mysql5.0以上版本支持三种sql_mode模式：ANSI、TRADITIONAL和STRICT_TRANS_TABLES。

#ANSI模式：宽松模式，对插入数据进行校验，如果不符合定义类型或长度，对数据类型调整或截断保存，报warning警告。

#TRADITIONAL模式：严格模式，当向mysql数据库插入数据时，进行数据的严格校验，保证错误数据不能插入，报error错误。用于事物时，会进行事物的回滚。

#STRICT_TRANS_TABLES模式：严格模式，进行数据的严格校验，错误数据不能插入，报error错误。

sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION

#InnoDB存储数据字典、内部数据结构的缓冲池，16MB已经足够大了。

innodb_additional_mem_pool_size = 16M

#InnoDB用于缓存数据、索引、锁、插入缓冲、数据字典等

#如果是专用的DB服务器，且以InnoDB引擎为主的场景，通常可设置物理内存的60%

#如果是非专用DB服务器，可以先尝试设置成内存的1/4

innodb_buffer_pool_size = 4G

#InnoDB的log buffer，通常设置为 64MB 就足够了

innodb_log_buffer_size = 64M

#InnoDB redo log大小，通常设置256MB 就足够了

innodb_log_file_size = 256M

#InnoDB redo log文件组，通常设置为 2 就足够了

innodb_log_files_in_group = 2

#共享表空间:某一个数据库的所有的表数据，索引文件全部放在一个文件中，默认这个共享表空间的文件路径在data目录下。默认的文件名为:ibdata1 初始化为10M。

#独占表空间:每一个表都将会生成以独立的文件方式来进行存储，每一个表都有一个.frm表描述文件，还有一个.ibd文件。其中这个文件包括了单独一个表的数据内容以及索引内容，默认情况下它的存储位置也是在表的位置之中。

#设置参数为1启用InnoDB的独立表空间模式，便于管理

innodb_file_per_table = 1

#InnoDB共享表空间初始化大小，默认是 10MB，改成 1GB，并且自动扩展

innodb_data_file_path = ibdata1:1G:autoextend

#设置临时表空间最大4G

innodb_temp_data_file_path=ibtmp1:500M:autoextend:max:4096M

#启用InnoDB的status file，便于管理员查看以及监控

innodb_status_file = 1

#当设置为0，该模式速度最快，但不太安全，mysqld进程的崩溃会导致上一秒钟所有事务数据的丢失。

#当设置为1，该模式是最安全的，但也是最慢的一种方式。在mysqld 服务崩溃或者服务器主机crash的情况下，binary log 只有可能丢失最多一个语句或者一个事务。

#当设置为2，该模式速度较快，也比0安全，只有在操作系统崩溃或者系统断电的情况下，上一秒钟所有事务数据才可能丢失。

innodb_flush_log_at_trx_commit = 1

#设置事务隔离级别为 READ-COMMITED，提高事务效率，通常都满足事务一致性要求

#transaction_isolation = READ-COMMITTED

#max_connections：针对所有的账号所有的客户端并行连接到MYSQL服务的最大并行连接数。简单说是指MYSQL服务能够同时接受的最大并行连接数。

#max_user_connections : 针对某一个账号的所有客户端并行连接到MYSQL服务的最大并行连接数。简单说是指同一个账号能够同时连接到mysql服务的最大连接数。设置为0表示不限制。

#max_connect_errors：针对某一个IP主机连接中断与mysql服务连接的次数，如果超过这个值，这个IP主机将会阻止从这个IP主机发送出去的连接请求。遇到这种情况，需执行flush hosts。

#执行flush host或者 mysqladmin flush-hosts，其目的是为了清空host cache里的信息。可适当加大，防止频繁连接错误后，前端host被mysql拒绝掉

#在 show global 里有个系统状态Max_used_connections,它是指从这次mysql服务启动到现在，同一时刻并行连接数的最大值。它不是指当前的连接情况，而是一个比较值。如果在过去某一个时刻，MYSQL服务同时有10

00个请求连接过来，而之后再也没有出现这么大的并发请求时，则Max_used_connections=1000.请注意与show variables 里的max_user_connections的区别。#Max_used_connections / max_connections * 100% ≈ 85%

max_connections=600

max_connect_errors=1000

max_user_connections=400

#设置临时表最大值，这是每次连接都会分配，不宜设置过大 max_heap_table_size 和 tmp_table_size 要设置一样大

max_heap_table_size = 100M

tmp_table_size = 100M

#每个连接都会分配的一些排序、连接等缓冲，一般设置为 2MB 就足够了

sort_buffer_size = 2M

join_buffer_size = 2M

read_buffer_size = 2M

read_rnd_buffer_size = 2M

#建议关闭query cache，有些时候对性能反而是一种损害

query_cache_size = 0

#如果是以InnoDB引擎为主的DB，专用于MyISAM引擎的 key_buffer_size 可以设置较小，8MB 已足够

#如果是以MyISAM引擎为主，可设置较大，但不能超过4G

key_buffer_size = 8M

#设置连接超时阀值，如果前端程序采用短连接，建议缩短这2个值，如果前端程序采用长连接，可直接注释掉这两个选项，是用默认配置(8小时)

#interactive_timeout = 120

#wait_timeout = 120

#InnoDB使用后台线程处理数据页上读写I/0请求的数量,允许值的范围是1-64

#假设CPU是2颗4核的，且数据库读操作比写操作多，可设置

#innodb_read_io_threads=5

#innodb_write_io_threads=3

#通过show engine innodb status的FILE I/O选项可查看到线程分配

#设置慢查询阀值，单位为秒

long_query_time = 120

slow_query_log=1 #开启mysql慢sql的日志

log_output=table,File #日志输出会写表，也会写日志文件，为了便于程序去统计，所以最好写表

slow_query_log_file=/data/log/slow.log

##针对log_queries_not_using_indexes开启后，记录慢sql的频次、每分钟记录的条数

#log_throttle_queries_not_using_indexes = 5

##作为从库时生效,从库复制中如何有慢sql也将被记录

#log_slow_slave_statements = 1

##检查未使用到索引的sql

#log_queries_not_using_indexes = 1

#快速预热缓冲池

innodb_buffer_pool_dump_at_shutdown=1

innodb_buffer_pool_load_at_startup=1

#打印deadlock日志

innodb_print_all_deadlocks=1

这些参数可按照自己的实际服务器以及数据库的大小进行适当调整，主要起参考作用

8.表字段优化

很多系统一开始并没有考虑表字段拆分的问题，因为拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万以下，而事实上很多时候MySQL单表的性能依然有不少优化空间，甚至能正常支撑千万级以上的数据量：

下面直接看下如何去优化字段

尽量使用TINYINT、SMALLINT、MEDIUM_INT作为整数类型而非INT，如果非负则加上UNSIGNED
单表不要有太多字段，建议在15以内
尽量使用TIMESTAMP而非DATETIME
使用枚举或整数代替字符串类型
VARCHAR的长度只分配真正需要的空间
避免使用NULL字段，很难查询优化且占用额外索引空间
用整型来存IP

9.分布式场景下常用优化手段

1.升级硬件

Scale up，这个不多说了，根据MySQL是CPU密集型还是I/O密集型，通过提升CPU和内存、使用SSD，都能显著提升MySQL性能

2.读写分离

也是目前常用的优化，从库读主库写，一般不要采用双主或多主引入很多复杂性，尽量采用文中的其他方案来提高性能。同时目前很多拆分的解决方案同时也兼顾考虑了读写分离

3.使用缓存

缓存可以发生在这些层次：

MySQL内部：在系统内核参数优化介绍了相关设置
数据访问层：比如MyBatis针对SQL语句做缓存，而Hibernate可以精确到单个记录，这里缓存的对象主要是持久化对象Persistence Object
应用服务层：这里可以通过编程手段对缓存做到更精准的控制和更多的实现策略，这里缓存的对象是数据传输对象Data Transfer Object
Web层：针对web页面做缓存
浏览器客户端：用户端的缓存
可以根据实际情况在一个层次或多个层次结合加入缓存。这里重点介绍下服务层的缓存实现，目前主要有两种方式：
直写式（Write Through）：在数据写入数据库后，同时更新缓存，维持数据库与缓存的一致性。这也是当前大多数应用缓存框架如Spring Cache的工作方式。这种实现非常简单，同步好，但效率一般。
回写式（Write Back）：当有数据要写入数据库时，只会更新缓存，然后异步批量的将缓存数据同步到数据库上。这种实现比较复杂，需要较多的应用逻辑，同时可能会产生数据库与缓存的不同步，但效率非常高。