阿里面试题亿级表合并引发的思考之 SQL Bloom Filter(一）

最新推荐文章于 2024-04-06 13:38:40 发布

dbLenis

最新推荐文章于 2024-04-06 13:38:40 发布

阅读量596

点赞数

本文链接：https://blog.csdn.net/wujiandao/article/details/99260485

版权

很久之前，我写了一次亲身面试经历，在面试阿里的时候，有一题引起了我的思考，详情看这里：

回忆当年阿里的一道 SQL 面试题，亿级表合并

当时获得了很多读者朋友的反馈，大家兴趣盎然，回答都很详细，看得出来都很用心。包括知乎以及 CSDN 上的反应都很强烈。各自对数据库原理的理解不同，因此解法也都各异。

有一位朋友的解法引起了我相当大的兴趣，且不说最终解法是否正确，单看他的思路就很奇特，我贴出来大家一起分析：

640?wx_fmt=jpeg

这位朋友提到的 IBLT，是个比较新的数据结构，始创于2011年，主要应用场景来自于区块链共识算法。更深入的不在这里讨论，涉及区块链或者比特币的事情，暂时回避。有兴趣的朋友可以看下面的文章：

https://gist.github.com/gavinandresen/e20c3b5a1d4b97f79ac2

Set reconciliation means finding the difference between two sets of data.

Invertible Bloom Lookup Tables (IBLTs) are a new (described in 2011) data structure that can be used to solve the set reconciliation problem.
https://gist.github.com/gavinandresen/e20c3b5a1d4b97f79ac2

随着深入挖掘下去，IBLT 引出来一个基础概念，就是布隆过滤器(Bloom Filter)，当然如果是科班的同学，对布隆肯定很熟悉。

它的原理是这样的：

首先，使用位数组，有向的记录每个元素的hash值位置：

640?wx_fmt=jpeg

从左往右，以0-7记录每个比特（bit）的位置，每个比特位置可以存储0或者1，有1的地方代表了某个值可能出现，这个值究竟有多少个1组成，分布在哪些位置，都是由hash函数决定。

第二要素，hash 函数

比如我使用简单的取模函数，将每个字母的ASCII码值取模作为hash值，存到这位数组中，可以得到这样的结果：

640?wx_fmt=jpeg

hash函数我们采用 T-SQL来写：

CREATE FUNCTION dbo.fnHashByNine(	
  @Number Int	
) RETURNS int	
AS	
BEGIN	
RETURN ( SELECT @Number % 9 )	
END	
GO

取样字母的ASCII码HASH值求法：

	
	
SELECT Name	
  ,ASCII(Name) AS AsciiMark	
  ,dbo.fnHashByNine(ASCII(Name)) AS Remainder	
FROM (	
SELECT DISTINCT LEFT(Name,1)AS Name	
FROM sys.objects  	
  ) RSL	
ORDER BY 2 ASC

640?wx_fmt=png