数据库索引空间优化-散列算法

最新推荐文章于 2022-09-29 09:17:01 发布

旬旬张

最新推荐文章于 2022-09-29 09:17:01 发布

阅读量171

点赞数

文章标签： mysql sql 数据库

本文链接：https://blog.csdn.net/weixin_43870064/article/details/112245071

版权

create unique index on urls using btree(decode(md5(url), 'hex'));

select * from urls where decode(md5(url), 'hex') = decode(md5({输入的URL串}), 'hex');

       通常需要对一些长文本字段建立唯一索引，比如，我们自己的应用里面，经常会有 URL 或者 URI 字段，里面保存类似：
http://www.pgsqldb.org/mwiki/index.php
这样的数据，并且要求唯一、不重复，常见的做法是创建一个唯一索引：
   ，但是如果只是做唯一的用途的话，会产生相当大的索引，比如我们有个表的索引就达到了 2.4G bytes 的大小，
   我们可以对URL做MD5运算，算出其散列值，只要散列值唯一，就基本可以保证URL是唯一的。（注意：我知道MD5是可能碰撞的，不过我们自己的数据量恐怕没那么容易碰撞，所以，先相信之）。于是，我可以创建这么一个索引：

create unique index on urls using btree(md5(url));

2.4G缩小到了900M多，貌似还可以，但是是不是就真的OK了？非也。

仔细看看 postgresql 里头 md5()函数的定义，它返回的是 text 类型，也就是用hex转码后的文本流，其宽度是 32 bytes，其实也不小！而我们只要二进制数据就可以了，所以，我们还要继续优化！

仔细查阅文档，可以发现 decode() 可以把 hex 转码的文本流反转成二进制类型（bytea），所以，我们这么干：

create unique index on urls using btree(decode(md5(url), 'hex'));
就可以实现md5的二进制上头的唯一索引，现在看看大小：475M！老天，我们节约了 2G 的空间（内存）！

这个时候，我们需要用下面的方法查询URL或者URI是否存在：

select * from urls where decode(md5(url), 'hex') = decode(md5({输入的URL串}), 'hex');

create unique index on urls using btree (url);
后记
二进制 16 字节的散列算法可能还是有些杀鸡用牛刀了，因为一般我们的数据也就几千万上亿行，所以64位（8字节）的散列算法就挺好的了，这个时候，我们可以考虑使用一些外部包，比如看看贡献包Pgcrypto的digest函数，digest自身也支持md5，用法是：

select digest(url, 'md5')
也支持sha等，担心MD5碰撞的朋友，可以使用这个贡献包的sha算法。

也可以找FNV算法来实现64位（8字节）的散列，这样前面475M的索引，在付出一定的碰撞概率增大的风险之后，有可能进一步缩小到290M左右！