现在有一个支持邮箱登录的系统,定义:
mysql> create table SUser(
ID bigint unsigned primary key,
email varchar(64),
...
)engine=innodb;
业务会出现这样的语句:
mysql> select f1, f2 from SUser where email='xxx';
我们不想要全表扫描,所以会在email上加一个索引。
可以创建包含整个字段值的索引:
mysql> alter table SUser add index index1(email);
也可以用前缀索引,定义字段的部分值为索引:
mysql> alter table SUser add index index2(email(6));
选择第二种前缀索引,索引字段占用的空间会比较小,但是带来的问题可能是额外扫描行数的增加。
如果我们选定的前缀索引区分度太小,比如我们选定了前6位,然后数据表的数据大部分在前六位没有区分度,这时的前缀索引的作用就发挥不出来了。
所以要使用好前缀索引,我们需要考虑到区分度
,定义适当的长度,可以做到既节省空间,又不用额外增加太多的查询成本。
如何去找到这个“区分度的界限
?
可以使用下面这个语句,算出这个列上有多少个不同的值:
mysql> select count(distinct email) as L from SUser;
然后,依次选取不同长度的前缀来看这个值,比如我们要看一下4~7个字节的前缀索引,可以用这个语句:
mysql> select
count(distinct left(email,4))as L4,
count(distinct left(email,5))as L5,
count(distinct left(email,6))as L6,
count(distinct left(email,7))as L7,
from SUser;
使用前缀索引很可能会损失区分度,所以需要预先设定一个可以接受的损失比例。
前缀索引对覆盖索引的影响
当我们查询的字段可以通过索引覆盖得到时,如果我们使用了前缀索引,就无法通过索引覆盖直接拿到值了,而是需要回表判断一下是否找到了,即使把前缀索引的长度改成了字段的长度,也无法使用覆盖索引,系统并不确定前缀索引的定义是否截断了完整信息。
其他方式
当遇到区分度较低的字段,比如身份证号码,一共18位,其中前6位是地址码,所以同一个县的人的身份证号前6位一般会是相同的。
我们可以通过:
-
采用倒序存储
,存储身份证号的时候把它倒过来存,查询的时候也得倒过来查,同时使用count(distinct)方法去做个验证。mysql> select field_list from t where id_card = reverse('input_id_card_string');
-
使用hash字段
,在表上再创建一个整数字段,来保存身份证的校验码,同时在这个字段上创建索引。mysql> alter table t add id_card_crc int unsigned, add index(id_card_crc);
每次插入新记录的时候,都同时用crc32()这个函数得到校验码填到这个新字段。由于校验码可能存在冲突,也就是说两个不同的身份证号通过哈希得到的结果可能是相同的,所以查询语句where部分要判断id_card的值是否精确相同。
但它们的共同缺点是,不支持范围查询
。倒序存储的字段上创建的索引是按照倒序字符串的方式排序的,已经没有办法利用索引方式查出身份证号码在[ID_X, ID_Y]的所有市民了。hash字段的方式只能支持等值查询。
区别体现在:
-
占用的额外空间
:倒序存储方式在主键索引上,不会消耗额外的存储空间,而hash字段方法需要增加一个字段。当然,倒序存储方式使用4个字节的前缀长度应该是不够的,如果再长一点,这个消耗跟额外这个hash字段也差不多抵消了。 -
CPU消耗
:倒序方式每次写和读的时候,都需要额外调用一次reverse函数,而hash字段的方式需要额外调用一次crc32()函数。如果只从这两个函数的计算复杂度来看的话,reverse函数额外消耗的CPU资源会更小些。 -
查询效率
:使用hash字段方式的查询性能相对更稳定一些。因为crc32算出来的值虽然有冲突的概率,但是概率非常小,可以认为每次查询的平均扫描行数接近1。而倒序存储方式毕竟还是用的前缀索引的方式,可能会增加扫描行数。