之前介绍过 Bitmap 和 Bloom Filter,今天介绍 Hash。
【场景】大数据场景题 - Bitmap
【场景】大数据场景题 - Bloom Filter
适用范围:快速查找,将海量数据分成多个小文件,完成分布式处理。
基本原理:是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。
问题实例:
(1)给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?
方案一:Hash
- 预估文件大小:50E × 64 B ≈ 5G × 64 ≈ 320G,超过内存 4G,不能一次性读取。
- 因此考虑分治。
- 遍历文件 a,对每个 url 求 hashcode 再取余,即 hash(url) % 1000,将文件 a 分为 1000 个小文件,记为 a0, a1, …, a999。每个文件大小 320G ÷ 1000 ≈ 300M。
- b 通上,得到 b0, b1, …, b999。
- 由于采用相同的 hash 函数,所以 a 和 b 中相同的 url 都在编号相同的文件里面。即只需要对比 a0 vs b0, a1 vs b1 ,…, a999 vs b999。编号不同的文件不可能存在相同的 url。
- 将 ai 的所有 url 放进 set,遍历 bi,看是否在 set 中。如果在,就是共同的 url。
方案二:Bloom Filter(注意会有一定的错误率)
- 4G 内存大概可以表示 340 亿 bit。
- 将其中一个文件中的 url 使用 Bloom filter 映射为这 340 亿 bit。
- 然后挨个读取另外一个文件的 url,检查是否存在于 Bloom filter 中,如果是,那么该 url 应该是共同的 url。
(2)海量日志数据,提取出某日访问百度次数最多的那个 IP。
- IP 的数目有限的,最多 2^32 个,所以可以考虑使用 hash 将 ip 直接存入内存,然后进行统计。
- 采用 hash 的方法,比如模 1000,把整个大文件映射为 1000 个小文件,再找出每个小文中出现频率最大的 IP 及相应的频率。即 WordCount。
- 然后再在这 1000 个出现次数最多的 IP 中,找出那个频率最大的 IP,即为所求。