怎么给字符串字段加索引？&&阅读笔记

最新推荐文章于 2021-05-17 04:38:58 发布

CodeMan22

最新推荐文章于 2021-05-17 04:38:58 发布

阅读量324

点赞数 2

分类专栏： mysql 文章标签： mysql 数据库

本文链接：https://blog.csdn.net/weixin_44233929/article/details/107451862

版权

mysql 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

现在有一个支持邮箱登录的系统，定义：

mysql> create table SUser(
ID bigint unsigned primary key,
email varchar(64), 
... 
)engine=innodb;

业务会出现这样的语句：

mysql> select f1, f2 from SUser where email='xxx';

我们不想要全表扫描，所以会在email上加一个索引。
可以创建包含整个字段值的索引：

mysql> alter table SUser add index index1(email);

在这里插入图片描述

也可以用前缀索引，定义字段的部分值为索引：

mysql> alter table SUser add index index2(email(6));

在这里插入图片描述
选择第二种前缀索引，索引字段占用的空间会比较小，但是带来的问题可能是额外扫描行数的增加。
如果我们选定的前缀索引区分度太小，比如我们选定了前6位，然后数据表的数据大部分在前六位没有区分度，这时的前缀索引的作用就发挥不出来了。

所以要使用好前缀索引，我们需要考虑到区分度，定义适当的长度，可以做到既节省空间，又不用额外增加太多的查询成本。

如何去找到这个“区分度的界限？

可以使用下面这个语句，算出这个列上有多少个不同的值：

mysql> select count(distinct email) as L from SUser;

然后，依次选取不同长度的前缀来看这个值，比如我们要看一下4~7个字节的前缀索引，可以用这个语句：

mysql> select 
  count(distinct left(email,4)）as L4,
  count(distinct left(email,5)）as L5,
  count(distinct left(email,6)）as L6,
  count(distinct left(email,7)）as L7,
from SUser;

使用前缀索引很可能会损失区分度，所以需要预先设定一个可以接受的损失比例。

前缀索引对覆盖索引的影响

当我们查询的字段可以通过索引覆盖得到时，如果我们使用了前缀索引，就无法通过索引覆盖直接拿到值了，而是需要回表判断一下是否找到了，即使把前缀索引的长度改成了字段的长度，也无法使用覆盖索引，系统并不确定前缀索引的定义是否截断了完整信息。

其他方式

当遇到区分度较低的字段，比如身份证号码，一共18位，其中前6位是地址码，所以同一个县的人的身份证号前6位一般会是相同的。
我们可以通过：

采用倒序存储，存储身份证号的时候把它倒过来存，查询的时候也得倒过来查，同时使用count(distinct)方法去做个验证。mysql> select field_list from t where id_card = reverse('input_id_card_string');
使用hash字段，在表上再创建一个整数字段，来保存身份证的校验码，同时在这个字段上创建索引。mysql> alter table t add id_card_crc int unsigned, add index(id_card_crc);每次插入新记录的时候，都同时用crc32()这个函数得到校验码填到这个新字段。由于校验码可能存在冲突，也就是说两个不同的身份证号通过哈希得到的结果可能是相同的，所以查询语句where部分要判断id_card的值是否精确相同。

但它们的共同缺点是，不支持范围查询。倒序存储的字段上创建的索引是按照倒序字符串的方式排序的，已经没有办法利用索引方式查出身份证号码在[ID_X, ID_Y]的所有市民了。hash字段的方式只能支持等值查询。

区别体现在：

占用的额外空间:倒序存储方式在主键索引上，不会消耗额外的存储空间，而hash字段方法需要增加一个字段。当然，倒序存储方式使用4个字节的前缀长度应该是不够的，如果再长一点，这个消耗跟额外这个hash字段也差不多抵消了。
CPU消耗:倒序方式每次写和读的时候，都需要额外调用一次reverse函数，而hash字段的方式需要额外调用一次crc32()函数。如果只从这两个函数的计算复杂度来看的话，reverse函数额外消耗的CPU资源会更小些。
查询效率:使用hash字段方式的查询性能相对更稳定一些。因为crc32算出来的值虽然有冲突的概率，但是概率非常小，可以认为每次查询的平均扫描行数接近1。而倒序存储方式毕竟还是用的前缀索引的方式，可能会增加扫描行数。