【MySQL】全文索引的原理和使用_mysql中全文索引中的倒排索引-CSDN博客

本文链接：https://blog.csdn.net/weixin_63050691/article/details/138977639

在MySQL中，InnoDB存储引擎的全文索引使用了一种称为倒排索引（Inverted Index）的数据结构。这种数据结构特别适用于全文搜索，可以高效地处理包含大量文本数据的复杂查询。下面我们详细介绍InnoDB全文索引的工作原理及其数据结构。

倒排索引是一种将文档中的单词映射到包含这些单词的文档的索引结构。其基本思想是为每个单词建立一个列表，这个列表中记录了包含该单词的所有文档的ID及其位置。这种索引结构使得查找包含特定单词或短语的文档变得非常高效。

例如，假设有以下三个文档：

倒排索引将包含以下内容：

这里，每个倒排列表的条目记录了单词在文档中的位置，例如(文档ID, 单词位置)。

InnoDB在实现全文索引时，主要使用了以下几个组件：

FTS 索引表（Full-Text Search Index Tables）：
- InnoDB使用内部的辅助表来存储倒排索引。这些表包括FTS_DOC_ID（存储文档ID）、FTS_INDEX_DOC（存储文档的词频信息）、FTS_INDEX_…（多个表存储倒排索引数据）。
分词器（Tokenizer）：
- 将文本拆分为单词或词组。这一步骤会忽略停用词（如"a", "the"等）和进行词干提取（将单词还原为其基本形式）。
B+树（B+ Tree）：
- 倒排索引的实际存储结构是基于B+树的，确保索引查找和更新的高效性。

创建全文索引：

CREATE TABLE articles (
    id INT AUTO_INCREMENT PRIMARY KEY,
    title VARCHAR(255),
    body TEXT,
    FULLTEXT (title, body)
);

查询全文索引：

SELECT * FROM articles
WHERE MATCH(title, body) AGAINST('MySQL InnoDB' IN NATURAL LANGUAGE MODE);

优化全文索引：
- 最小词长：默认情况下，InnoDB索引的最小词长为3个字符，可以通过innodb_ft_min_token_size参数调整。
- 停用词：MySQL有一套默认的停用词列表，可以根据需要进行自定义。
- 定期维护：定期使用OPTIMIZE TABLE命令来优化表和索引。