怎么给字符串字段加索引?&&阅读笔记

现在有一个支持邮箱登录的系统,定义:

mysql> create table SUser(
ID bigint unsigned primary key,
email varchar(64), 
... 
)engine=innodb; 

业务会出现这样的语句:

mysql> select f1, f2 from SUser where email='xxx';

我们不想要全表扫描,所以会在email上加一个索引。
可以创建包含整个字段值的索引:

mysql> alter table SUser add index index1(email);

在这里插入图片描述

也可以用前缀索引,定义字段的部分值为索引:

mysql> alter table SUser add index index2(email(6));

在这里插入图片描述
选择第二种前缀索引,索引字段占用的空间会比较小,但是带来的问题可能是额外扫描行数的增加。
如果我们选定的前缀索引区分度太小,比如我们选定了前6位,然后数据表的数据大部分在前六位没有区分度,这时的前缀索引的作用就发挥不出来了。

所以要使用好前缀索引,我们需要考虑到区分度,定义适当的长度,可以做到既节省空间,又不用额外增加太多的查询成本。

如何去找到这个“区分度的界限

可以使用下面这个语句,算出这个列上有多少个不同的值:

mysql> select count(distinct email) as L from SUser;

然后,依次选取不同长度的前缀来看这个值,比如我们要看一下4~7个字节的前缀索引,可以用这个语句:

mysql> select 
  count(distinct left(email,4)as L4,
  count(distinct left(email,5)as L5,
  count(distinct left(email,6)as L6,
  count(distinct left(email,7)as L7,
from SUser;

使用前缀索引很可能会损失区分度,所以需要预先设定一个可以接受的损失比例。

前缀索引对覆盖索引的影响

当我们查询的字段可以通过索引覆盖得到时,如果我们使用了前缀索引,就无法通过索引覆盖直接拿到值了,而是需要回表判断一下是否找到了,即使把前缀索引的长度改成了字段的长度,也无法使用覆盖索引,系统并不确定前缀索引的定义是否截断了完整信息。

其他方式

当遇到区分度较低的字段,比如身份证号码,一共18位,其中前6位是地址码,所以同一个县的人的身份证号前6位一般会是相同的。
我们可以通过:

  • 采用倒序存储,存储身份证号的时候把它倒过来存,查询的时候也得倒过来查,同时使用count(distinct)方法去做个验证。mysql> select field_list from t where id_card = reverse('input_id_card_string');

  • 使用hash字段,在表上再创建一个整数字段,来保存身份证的校验码,同时在这个字段上创建索引。mysql> alter table t add id_card_crc int unsigned, add index(id_card_crc);每次插入新记录的时候,都同时用crc32()这个函数得到校验码填到这个新字段。由于校验码可能存在冲突,也就是说两个不同的身份证号通过哈希得到的结果可能是相同的,所以查询语句where部分要判断id_card的值是否精确相同。

但它们的共同缺点是,不支持范围查询。倒序存储的字段上创建的索引是按照倒序字符串的方式排序的,已经没有办法利用索引方式查出身份证号码在[ID_X, ID_Y]的所有市民了。hash字段的方式只能支持等值查询。

区别体现在:

  • 占用的额外空间:倒序存储方式在主键索引上,不会消耗额外的存储空间,而hash字段方法需要增加一个字段。当然,倒序存储方式使用4个字节的前缀长度应该是不够的,如果再长一点,这个消耗跟额外这个hash字段也差不多抵消了。

  • CPU消耗:倒序方式每次写和读的时候,都需要额外调用一次reverse函数,而hash字段的方式需要额外调用一次crc32()函数。如果只从这两个函数的计算复杂度来看的话,reverse函数额外消耗的CPU资源会更小些。

  • 查询效率:使用hash字段方式的查询性能相对更稳定一些。因为crc32算出来的值虽然有冲突的概率,但是概率非常小,可以认为每次查询的平均扫描行数接近1。而倒序存储方式毕竟还是用的前缀索引的方式,可能会增加扫描行数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值