MySQL索引(一)

什么是MySQL索引

MySQL的索引是一种用于加速数据查询的数据库结构。它类似于一本书的目录,通过建立索引,MySQL可以更快速地定位和检索所需的数据,从而提高查询的效率。索引的基本原理是为数据列创建一个数据结构(通常是B树或哈希表),这个数据结构能够快速查找特定值的位置。

MySQL索引的类型

  1. B-Tree索引:这是MySQL中最常用的索引类型,适用于大多数情况。B-Tree索引适用于全键值、键值范围和键前缀的查找。

  2. 哈希索引:哈希索引只支持等值查询,不支持范围查询。它的查找速度非常快,但仅限于精确匹配的查询。

  3. 全文索引:用于全文搜索,特别适合于查找文本内容中的关键词。

  4. 空间索引:用于地理空间数据的查询,例如GIS(地理信息系统)应用。

索引的创建

索引可以在创建表时定义,也可以在表创建后添加。例如:

-- 创建表时定义索引
CREATE TABLE users (
    id INT AUTO_INCREMENT PRIMARY KEY,
    username VARCHAR(50),
    email VARCHAR(50),
    INDEX (username)
);

-- 表创建后添加索引
CREATE INDEX idx_email ON users (email);

索引的优点

  1. 加速查询速度:索引可以大大减少查询数据时所需的扫描行数,从而提高查询速度。
  2. 提高排序效率:在排序操作中,使用索引可以避免大量的数据重新排序。
  3. 加速连接操作:索引可以加速多表连接(JOIN)操作。

索引的缺点

  1. 占用空间:索引需要额外的存储空间来保存索引结构。
  2. 降低写入速度:在插入、删除和更新数据时,索引需要同步更新,可能会影响写入性能。
  3. 维护成本:索引需要维护,随着数据量的增加,索引的维护成本也会增加。

索引使用的最佳实践

  1. 合理选择索引列:应选择查询频繁的列进行索引,而不是所有列都加索引。
  2. 避免过多索引:过多的索引会影响数据写入性能,应平衡查询优化和写入性能。
  3. 监控和优化:定期监控索引的使用情况,删除不常用或冗余的索引,确保数据库性能最佳。

MySQL 与磁盘交互基本单位

MySQL与磁盘交互的基本单位是页(page)。页是InnoDB存储引擎用于管理和存储数据的最小单位。默认情况下,InnoDB存储引擎的每个页大小为16KB。

页的作用

        数据存储:表中的行数据存储在页中,一个页可以包含多行数据。

        索引存储:索引信息也存储在页中,MySQL会在页中组织索引结构(如B-Tree)。

        缓冲管理:InnoDB使用缓冲池来缓存页,从而减少对磁盘的直接访问,提升性能。

页大小配置

默认情况下,InnoDB页大小为16KB,但可以通过配置项innodb_page_size在MySQL服务器启动时进行调整,支持的页大小包括4KB、8KB、16KB等。调整页大小需要注意以下几点:

  • 性能影响:较大的页大小适用于大数据量的表,因为它可以减少磁盘I/O操作;较小的页大小适用于小数据量的表,可以减少内存消耗。
  • 适用场景:根据应用的具体情况选择合适的页大小。例如,读取大量小数据的应用可以选择较小的页大小,而数据量大且读取频繁的应用可以选择较大的页大小。

页与磁盘交互

  • 读操作:当需要读取数据时,InnoDB会先从缓冲池中查找相应的页。如果缓冲池中没有该页,则从磁盘读取页并加载到缓冲池。
  • 写操作:当需要写入数据时,InnoDB会先将数据写入缓冲池中的页,并标记该页为“脏页”。InnoDB后台线程会将脏页定期刷新(flush)到磁盘上,以确保数据的持久性。

向一个具有主键的表中, 乱序插入数据的时候,发现数据会自动排序

向一个具有主键的表中乱序插入数据时,数据会自动排序,这是由MySQL的InnoDB存储引擎负责的。InnoDB通过使用B-Tree(平衡树)索引结构来存储数据和索引,以确保数据按照主键顺序存储。这种设计优化了查询和检索的效率。

InnoDB如何实现自动排序

  1. B-Tree索引:InnoDB使用B-Tree索引来管理数据。B-Tree是一种平衡树结构,能够快速进行查找、插入、更新和删除操作。每个节点(页)包含多个键值对,节点之间按照键值有序连接。
  2. 聚簇索引:在InnoDB中,每张表都有一个聚簇索引,主键即为聚簇索引。聚簇索引的叶节点存储了实际的行数据,并按照主键顺序排序。
  3. 插入操作:当向表中插入数据时,InnoDB会根据主键值在B-Tree中找到合适的插入位置。如果插入位置所在的页已满,InnoDB会分裂页并重新平衡B-Tree。

为什么采用Page的方案进行磁盘IO交互

MySQL和磁盘进行IO交互时采用Page的方案,而不是逐条记录进行交互,这是为了提高IO效率和性能。以下是原因和好处:

  1. 减少IO次数:磁盘IO的效率主要受限于IO操作的次数而不是单次传输的数据量。通过一次加载一个Page,可以减少访问磁盘的次数。例如,一个Page可能包含多条记录,因此一次IO操作可以读取多个记录,大大减少了后续的IO操作。
  2. 局部性原理:根据局部性原理,访问的数据往往在空间上是邻近的。即用户在查询某条记录后,很可能会查询相邻的记录。通过加载一个Page,很多相邻的记录会同时被加载到内存,从而提高查询效率。
  3. 缓存命中率:加载整个Page到内存中的Buffer Pool可以提高缓存命中率。多个查询操作可以在内存中直接完成,而不需要频繁访问磁盘。
  4. 批量处理效率高:批量读取和写入操作比逐条记录读取和写入更高效。现代硬盘和SSD在处理大块连续数据时性能更佳。

具体示例

假设有一个包含以下主键的表,插入操作如下

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(50)
);

INSERT INTO users (id, name) VALUES (3, 'Alice');
INSERT INTO users (id, name) VALUES (1, 'Bob');
INSERT INTO users (id, name) VALUES (2, 'Charlie');
INSERT INTO users (id, name) VALUES (5, 'Eve');
INSERT INTO users (id, name) VALUES (4, 'David');

在插入完成后,数据会在B-Tree中自动排序,叶子节点将按照主键顺序存储数据。查询操作如查找id=2时,InnoDB会首先加载包含该记录的Page到Buffer Pool中:

SELECT * FROM users WHERE id=2;

假设这5条记录都保存在一个16KB的Page中:

  • 第一次查找id=2时,整个Page会被加载到Buffer Pool中,完成一次IO操作。
  • 后续查找id=1id=3id=4id=5时,数据已经在内存中,不需要再次进行磁盘IO操作。

局部性原理和IO效率

虽然我们不能保证每次用户查找的数据都在同一个Page中,但根据局部性原理,访问的数据很可能在空间上是邻近的。采用Page的方式大大减少了IO操作次数,提高了整体效率。关键在于:

  • 空间局部性:用户访问某条记录时,很可能会访问其邻近的记录。
  • 时间局部性:近期访问的数据很可能会再次被访问。
  • 32
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值