MySQL——数据库调优整体策略


MySQL——数据库调优整体策略

1、数据库调优

1.1、调优的目标

尽可能节省系统资源,以便系统可以提供更大负荷的服务,吞吐量更大。

合理的结构设计和参数调整,以提高用户操作的响应速度。

减少系统的瓶颈,提高数据库整体的性能,减少 I/O 次数,降低 CPU 计算。

1.2、确定调优的目标

可以根据以下几点确定调优的目标:

  • 用户反馈:用户的反馈是最直接的,而且有些问题往往是用户第一时间发现的
  • 日志分析:查看数据库日志和操作系统日志找出异常情况
  • 服务器资源使用监控:通过CPU、内存和I/O等使用情况,查看服务器的性能使用
  • 数据库内部状况监控:MySQL有个状态变量 Threads_running,记录了当前并发执行stmt/command的数量,执行前加1执行后减1;当Threads_running 和 CPU load(CPU负载)值很接近时,表示系统基本快跑满了,需要调优

1.3、调优的维度和步骤

第一步:选择合适的DBMS

DBMS的选择关系到后面的整个设计过程。

第二步:优化表设计

  • 表结构要尽量遵循三大范式的原则
  • 如果查询应用多,尤其是需要进行多表查询的时候,可以进行反范式化,通过增加冗余字段增加查询效率
  • 表字段的数据类型选择合理,可以采用数值类型就不要采用字符类型;字符类型要尽可能设计的短一点,当字符串长度固定时,就采用CHAR类型,当长度不固定时,采用VARCHAR

第三步:优化逻辑查询

SQL 查询优化可以分为 逻辑查询优化物理查询优化

逻辑查询优化 就是改变SQL语句的内容让SQL执行效率更高,采用的方式是对SQL语句进行等价变换,对查询进行重写。

对SQL查询重写包括 子查询优化、等价谓词重写、视图重写、条件简化、连接消除和嵌套连接消除等。

第四步:优化物理查询

物理查询优化 是在确定了逻辑查询优化之后,采用物理优化技术(如索引),通过计算代价模型对各种可能的访问路径进行估算,从而找到执行方法中代价最小的作为执行计划。

第五步:使用 Redis 和 Memcached 作为缓存

除了对SQL本身进行优化以外,我们还可以将常用的数据直接放到内存中提升查询的效率

因为数据都是存放到数据库中,我们需要从数据库层中取出数据放到内存中进行业务逻辑的操作,当用户量增大的时候,如果频繁地进行数据查询,会消耗数据库的很多资源。如果我们将常用的数据直接放到内存中,就会大幅提升查询的效率。

Redis 和 Memcached 键值存储数据库都可以将数据存放到内存中。

从可靠性来说,Redis支持持久化(RDB和AOF持久化),可以让我们的数据保存在硬盘上,不过这样一来性能消耗也会比较大。而Memcached仅仅是内存存储,不支持持久化。Redis还支持数据的备份,即master-slave模式的数据备份。

从支持的数据类型来说,Redis 比 Memcached要多,Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。当我们有持久化需求或者是更高级的数据处理需求的时候,就可以使用Redis。如果是简单的 key-value存储,则可以使用Memcached。

第六步:库级优化

库级优化是在数据库的维度上进行的优化策略,如控制一个库中的数据表数量。

1、读写分离

  • 为了提升系统的性能,优化用户体验,可以采用读写分离的方式降低主数据库的负载,比如用主数据库(master)完成写操作,用从数据库(slave)完成读操作。

  • 读写分离适用于读远大于写的场景。读写分离的实现基础是主从复制,主数据库利用主从复制将自身数据的改变同步到从数据库集群中,然后主数据库负责处理写操作(当然也可以执行读操作),从数据库负责处理读操作,不能执行写操作。并可以根据压力情况,部署多个从数据库提高读操作的速度,减少主数据库的压力,提高系统总体的性能。

2、数据分片

  • 对数据库分库分表。当数据量级达到千万级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。如果你使用的是MySQL,就可以使用MySQL自带的分区表功能,当然你也可以考虑自己做垂直拆分(分库)、水平拆分(分表)、垂直+水平拆分(分库分表)。

2、MySQL服务器的优化

优化MySQL服务器主要从两个方面来优化,一方面是对服务器硬件进行优化;另一方面是对MySQL服务的参数进行优化。

2.1、优化服务器硬件

服务器的硬件性能直接决定着MySQL数据库的性能。硬件的性能瓶颈直接决定MySQL数据库的运行速度和效率。针对性能瓶颈提高硬件配置,可以提高MySQL数据库查询、更新的速度。

(1)配置较大的内存。足够大的内存是提高MySQL数据库性能的方法之一。内存的速度比磁盘I/O快得多,可以通过增加系统的缓冲区容量使数据在内存中停留的时间更长,以减少磁盘I/O。

(2)配置高速磁盘系统,以减少读盘的等待时间,提高响应速度。磁盘的I/O能力,也就是它的寻道能力,目前的SCSI高速旋转的是7200转/分钟,这样的速度,一旦访问的用户量上去,磁盘的压力就会过大,如果是每天的网站pv (page view)在150w,这样的一般的配置就无法满足这样的需求了。现在SSD盛行,在SSD上随机访问和顺序访问性能几乎差不多,使用SSD可以减少随机I/O带来的性能损耗。

(3)合理分布磁盘I/O,把磁盘I/O分散在多个设备上,以减少资源竞争,提高并行操作能力。

(4)配置多处理器,MySQL是多线程的数据库,多处理器可同时执行多个线程。

2.2、优化MySQL服务的参数

通过优化MySQL的参数可以提高资源利用率,从而达到提高MySQL服务器性能的目的。

MySQL服务的配置参数都在my .cnf(Linux系统)或者my.ini(Windows系统)文件的[mysqld]组中。配置完参数以后,需要重新启动MySQL服务才会生效。

下面对几个对性能影响比较大的参数进行详细介绍:

  • innodb_buffer_pool_size

    • 这个参数是MySQL数据库最重要的参数之一,默认大小为128M,表示InnoDB类型的表和索引的最大缓存。
    • 在32-bit平台上,最大值为2**32 -1,在64-bit平台上最大值为2**64-1
    • 它不仅仅缓存索引数据,还会缓存表的数据。这个值越大,查询的速度就会越快。但是这个值太大会影响操作系统的性能。
  • key_buffer_size

    • 表示索引缓冲区的大小。索引缓冲区是所有的线程共享。
    • 它决定索引处理的速度,尤其是索引读的速度。当然,这个值不是越大越好,它的大小取决于内存的大小。如果这个值太大,就会导致操作系统频繁换页,也会降低系统性能。
    • 对于内存在4GB 左右的服务器该参数可设置为256M或384M。
    • key_buffer_size 只对MyISAM表起作用。即使你不使用MyISAM表,但是内部的临时磁盘表是MyISAM表,也要使用该值
  • table_cache

    • table_cache用于限制缓存表的最大数目:如果当前已经缓存的表未达到table_cache,则会将新表添加进来;若已经达到此值,MySQL将根据缓存表的最后查询时间、查询率等规则释放之前的缓存。

    • 这个值越大,能够同时打开的表的个数越多。物理内存越大,设置就越大。默认为2402,调到512-1024最佳。这个值不是越大越好,因为同时打开的表太多会影响操作系统的性能。

    • opened_tables表示打开过的表数量

    • open_tables表示打开表的数量。

  • query_cache_size

    • 表示查询缓冲区的大小。可以通过在MySQL控制台观察,

    • 如果Qcache_lowmem_prunes的值非常大,则表明经常出现缓冲不够的情况,就要增加Query_cache_size的值;

    • 如果Qcache_hits的值非常大,则表明查询缓冲使用非常频繁,如果该值较小反而会影响效率,那么可以考虑不用查询缓存;

    • Qcache_free_blocks,如果该值非常大,则表明缓冲区中碎片很多。MySQL8.0之后失效。该参数需要和query_cache_type配合使用。

  • query_cache_type

    • uery_cache_type参数用于控制缓存的类型,注意这个值不能随便设置,必须设置为数字

    • 当query_cache_type=0时(OFF),所有的查询都不使用查询缓存区。但是query_cache_type=0并不会导致MySQL释放query_cache_size所配置的缓存区内存。

    • 当query_cache_type=1时(ON),所有的查询都将使用查询缓存区,除非在查询语句中指定SQL_NO_CACHE,如:

      SELECT SQL_NO_CACHE * FROM  tbl_name;
      
    • 当query_cache_type=2时(DENAND),只有在查询语句中使用SQL_CACHE关键字,查询才会使用查询缓存区。使用查询缓存区可以提高查询的速度,这种方式只适用于修改操作少且经常执行相同的查询操作的情况。

  • sort_buffer_size

    • sort_buffer_size 是一个connection级参数,在每个connection第一次需要使用这个buffer的时候,一次性分配设置的内存。

    • 表示每个需要进行排序的线程分配的缓冲区的大小。增加这个参数的值可以提高ORDERBY或GROUP BY 操作的速度。默认数值是2 097 144字节(约2MB)。

    • 对于内存在4GB左右的服务器推荐设置为6-8M,如果有100个连接,那么实际分配的总共排序缓冲区大小为100x6 = 600MB。

  • join_buffer_size

    • 表示联合查询操作所能使用的缓冲区大小,系统默认大小为 512k,mac下默认大小为:256k ;和sort_buffer_size- 样,该参数对应的分配内存也是每个连接独享。
  • read_buffer_size

    • (数据文件存储顺序)是MySQL读入缓冲区的大小,将对表进行顺序扫描的线程将分配一个读入缓冲区,MySQL会为它分配一段内存缓冲区,read_buffer_size变量控制这一缓冲区的大小,
    • 如果对表的顺序扫描非常频繁,并你认为频繁扫描进行的太慢,可以通过增加该变量值以及内存缓冲区大小提高其性能,read_buffer_size变量控制这一提高表的顺序扫描的效率。
    • SET SESSION read_buffer_size=n可以临时设置该参数的值。默认为64K,可以设置为4M。
  • innodb_flush_log_at_trx_commit :

    • 表示何时将缓冲区的数据写入日志文件,并且将日志文件写入磁盘中。该参数对于innoDB引擎非常重要。如果我们想要提交一个事务了,此时就会根据一定的策略把 redo 日志从 redo log buffer 里刷入到磁盘文件里去。此时这个策略是通过 innodb_flush_log_at_trx_commit 来配置的。该参数有3个值,分别为0、1和2。该参数的默认值为1。
    • 值为0 : 提交事务的时候,不立即把 redo log buffer 里的数据刷入磁盘文件的,而是依靠 InnoDB 的主线程每秒执行一次刷新到磁盘。此时可能你提交事务了,结果 mysql 宕机了,然后此时内存里的数据全部丢失。
    • 值为1 : 提交事务的时候,就必须把 redo log 从内存刷入到磁盘文件里去,只要事务提交成功,那么 redo log 就必然在磁盘里了。注意,因为操作系统的“延迟写”特性,此时的刷入只是写到了操作系统的缓冲区中,因此执行同步操作才能保证一定持久化到了硬盘中。
    • 值为2 : 提交事务的时候,把 redo 日志写入磁盘文件对应的 os cache 缓存里去,而不是直接进入磁盘文件,可能 1 秒后才会把 os cache 里的数据写入到磁盘文件里去。
    • 可以看到,只有1才能真正地保证事务的持久性,但是由于刷新操作 fsync() 是阻塞的,直到完成后才返回,我们知道写磁盘的速度是很慢的,因此 MySQL 的性能会明显地下降。如果不在乎事务丢失,0和2能获得更高的性能。
  • innodb_log_buffer_size

    • 这是InnoDB存储引擎的事务日志所使用的缓冲区。为了提高性能,也是先将信息写入Innodb Log Buffer中,当满足innodb_flush_log_trx_commit参数所设置的相应条件(或者日志缓冲区写满)之后,才会将日志写到文件(或者同步到磁盘)中。
    • 如果 buffer 不够大,就会发生多次 IO write,将缓存中的数据刷到磁盘;
  • max_connections

    • 表示允许连接到MySQL数据库的最大数量,默认值是151。

    • 如果服务器的并发连接请求量比较大,建议调高此值,以增加并行连接数量,当然这建立在机器能支撑的情况下,因为如果连接数越多,介于MySQL会为每个连接提供连接缓冲区,就会开销越多的内存,所以要适当调整该值,不能盲目提高该值。

    • 如果状态变量connection_errors_max_connections 不为零,并且一直增长,则说明不断有连接请求因数据库连接数已达到允许最大值而失败,这是可以考虑增大max_connections的值。在Linux平台下,性能好的服务器,支持500-1000个连接不是难事,需要根据服务器性能进行评估设定。这个连接数不是越大越好,因为这些连接会浪费内存的资源。过多的连接可能会导致MySQL服务器僵死。

  • back_log :

    • back_log 指出在MySQL暂时停止回答新请求之前的短时间内多少个请求可以被存在堆栈中。

    • 如果MySql的连接数达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即back_log,如果等待连接的数量超过back_log,将不被授予连接资源,将会报错:

      unauthenticated user | xxx.xxx.xxx.xxx | NULL | Connect | NULL | login | NULL 的待连接进程时.
      
    • back_log值不能超过TCP/IP连接的侦听队列的大小。若超过则无效,查看当前系统的TCP/IP连接的侦听队列的大小命令:

    cat /proc/sys/net/ipv4/tcp_max_syn_backlog
    

    目前系统为1024。对于Linux系统推荐设置为大于512的整数。

    • 5.6.6版本之前默认值为50,之后的版本默认为50+(max_connections / 5),对于Linux系统推荐设置为小于512的整数,但最大不超过900。如果需要数据库在较短的时间内处理大量连接请求,可以考虑适当增大back_log的值。

3、优化数据库结构

3.1、拆分表:数据冷热分离

拆分表的思路是,把1个包含很多字段的表拆分成2个或者多个相对较小的表。

这样做的原因是,这些表中某些字段的操作频率很高(热数据),经常要进行查询或者更新操作,而另外一些字段的使用频率却很低(冷数据),冷热数据分离,可以减小表的宽度。

如果放在一个表里面,每次查询都要读取大记录,会消耗较多的资源。

3.2、增加中间表

对于需要经常联合查询的表,可以建立表以提高查询效率。通过建立中间表,把需要经常联合查询的数据插入中间表中,然后将原来的联合查询改为对中间表的查询,以此来提高查询效率。

首先,分析经常联合查询表中的字段,然后,使用这些字段建立一个中间表并将原来联合查询的表的数据插入中间表;最后,使用中间表来进行查询。

3.3、增加冗余字段

需要进行多表查询的时候,可以进行反范式化,通过增加冗余字段增加查询效率。但要确保数据一致性。

3.4、优化数据类型

表字段的数据类型选择合理,可以采用数值类型就不要采用字符类型;字符类型要尽可能设计的短一点,当字符串长度固定时,就采用CHAR类型,当长度不固定时,采用VARCHAR。

避免使用 TEXT、BLOG这样的大数据类型。

使用TIMESTAMP(4字节)存储时间。

用DECIMAL 代替 FLOAT 和 DOUBLE 存储精确浮点数。

优先选择符合储存需要的最小的数据类型。

列的字段越大,建立索引时所需要的空间也就越大,这样一页中所能存储的索引节点的数量也就越少,在遍历时所需要的IO次数也就越多,索引的性能也就越差。

修改数据类型,节省空间同时,要考虑到数据不能超过取值范围。

3.5、优化插入记录的速度

插入记录是影响插入速度的只要是 索引、唯一性约束和一次插入的记录条数等。

对于InNoDB引擎的表优化插入记录:

1、禁用唯一性检查

插入数据之前禁止对唯一索引的检查:

set unique_checks=0

插入数据后再开启:

set unique_checks=1

2、禁用外键检查

插入数据之前禁用外键检查:

set foreign_key_check=0;

插入数据之后再恢复:

set foreign_key_check=1;

3、禁止自动提交

插入数据之前关闭自动提交:

set autocommit=0;

插入数据之后再恢复:

set autocommit=1;

3.6、使用非空约束

在设计字段的时候,如果业务允许,建议尽量使用非空约束。这样做的好处是:

  • 进行比较和计算时,省去对NULL值的字段判断是否为空的开销,提高存储效率。
  • 非空字段也容易创建索引。因为索引NULL列需要额外的空间来保存,所以要占用更多的空间。使用非空约束就可以节省(1bit)存储空间。

3.7、分析表

分析表主要是分析关键词的分布

MySQL 提供了 ANALYZE TABLE 语句分析表,执行 analyze table 时,会对表加上读锁(read lock)

如果开启了binlog,那么Analyze Table的结果也会写入binlog,我们可以在analyze和table之间添加关键字local取消写入。

3.8、检查表

MySQL 中可以使用 CHECK TABLE 语句来检查表。CHECK TABLE语句能够检查innoDB和MylSAM米型的表是否存在错误。CHECK TABLE语句在执行过程中也会给表加上只读锁。

3.9、优化表

MySQL中使用 OPTIMIZE TABLE 语句来优化表。但是,OPTILMIZE TABLE语句只能优化表中的VARCHAR、 BLOB或TEXT类型的字段。一个表使用了这些字段的数据类型,若已经删除了表的一大部分数据,或者已经对含有可变长度行的表(含有VARCHAR、BLOB或TEXT列的表)进行了很多更新,则应使用OPTIMIZE TABLE来重新利用未使用的空间,并整理数据文件的碎片,在执行过程中也会给表加上只读锁。

4、大表优化

当MySQL单表记录数过大时,数据库的增删改查性能会明显下降,可以参考以下步骤来优化:

4.1、限定查询范围

禁止不带任何限制数据范围条件的查询语句。

4.2、读写分离

是目前常用的优化,从库读,主库写,一般不要采用双主或多主引入很多复杂性,尽量采用文中的其他方案来提高性能。同时目前很多拆分的解决方案同时也兼顾考虑了读写分离。

4.3、垂直拆分

垂直分库是根据数据库里面的数据表的相关性进行拆分,比如:一个数据库里面既存在用户数据,又存在订单数据,那么垂直拆分可以把用户数据放到用户库、把订单数据放到订单库。垂直分表是对数据表进行垂直拆分的一种方式,常见的是把一个多字段的大表按常用字段和非常用字段进行拆分,每个表里面的数据记录数一般情况下是相同的,只是字段不一样,使用主键关联。

垂直拆分的优点是:

  • 可以使得行数据变小,一个数据块(Block)就能存放更多的数据,在查询时就会减少I/O次数(每次查询时读取的Block 就少)
  • 可以达到最大化利用Cache的目的,具体在垂直拆分的时候可以将不常变的字段放一起,将经常改变的放一起
  • 数据维护简单

垂直拆分的缺点是:

  • 主键出现冗余,需要管理冗余列
  • 会引起表连接JOIN操作(增加CPU开销)可以通过在业务服务器上进行join来减少数据库压力
  • 依然存在单表数据量过大的问题(需要水平拆分)
  • 事务处理复杂

4.4、水平拆分

水平拆分是通过某种策略将数据分片来存储,分库内分表和分库两部分,每片数据会分散到不同的MySQL表或库,达到分布式的效果,能够支持非常大的数据量。前面的表分区本质上也是一种特殊的库内分表。

库内分表,仅仅是单纯的解决了单一表数据过大的问题,由于没有把表的数据分布到不同的机器上,因此对于减轻MySQL服务器的压力来说,并没有太大的作用,大家还是竞争同一个物理机上的IO、CPU、网络,这个就要通过分库来解决。

5、其它调优策略

5.1、服务器语句超时处理

在MySQL 8.0中可以设置服务器语句超时的限制,单位可以达到毫秒级别。当中断的执行语句超过设置的毫秒数后,服务器将终止查询影响不大的事务或连接,然后将错误报给客户端。

设置服务器语句超时的限制,可以通过设置系统变量MAX_EXECUTION_TIME 来实现。默认情况下,MAX_EXECUTION_TIME的值为0,代表没有时间限制。

set SESSION  MAX_EXECUTION_TIME=2000 -- 指定该会话中select语句的超时时间

5.2、创建全局通用表空间

MySQL 8.0使用CREATE TABLESPACE语句来创建一个全局通用表空间。全局表空间可以被所有的数据库的表共享,而且相比于独享表空间,使用手动创建共享表空间可以节约元数据方面的内存。可以在创建表的时候,指定属于哪个表空间,也可以对已有表进行表空间修改等。

创建表空间

-- 创建名为test的共享表空间
create tablespace test add datafile 'test.idb' file_block_size=16k;

指定表空间

创建表时指定:

create table student
(id int,name varchar(255))
engine=innodb default charset utf8 tablespace test;

修改表时指定:

alter table student tablespace test;

删除表空间

如何删除创建的共享表空间?因为是共享表空间,所以不能直接通过drop table tbname删除,这样操作并不能回收空间。当确定共享表空间的数据都没用,并且依赖该表空间的表均已经删除时,可以通过drop tablespace删除共享表空间来释放空间,如果依赖该共享表空间的表存在,就会删除失败。

所以应该先删除依赖该表空间的数据表,最后删除表空间。

5.3、MySQL 8.0新特性:隐藏索引

不可见索引的特性对于性能调试非常有用。在MySQL 8.0中,索引可以被"隐藏"和“显示”。当一个索引被隐藏时,它不会被查询优化器所使用。也就是说,管理员可以隐藏一个索引,然后观察对数据库的影响。如果数据库性能有所下降,就说明这个索引是有用的,于是将其"恢复显示"即可;如果数据库性能看不出变化,就说明这个索引是多余的,可以删掉了。

需要注意的是当索引被隐藏时,它的内容仍然是和正常索引一样实时更新的。如果一个索引需要长期被隐藏,那么可以将其删除,因为索引的存在会影响插入、更新和删除的性能。

数据表中的主键不能被设置为隐藏索引(invisible)。

  • 6
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万里顾—程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值