之前介绍过 Bitmap 和 Bloom Filter,今天介绍 Hash。
【场景】大数据场景题 - Bitmap
【场景】大数据场景题 - Bloom Filter
适用范围:快速查找,将海量数据分成多个小文件,完成分布式处理。
基本原理:是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。
问题实例:
(1)给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?
方案一:Hash
- 预估文件大小:50E × 64 B ≈ 5G × 64 ≈ 320G,超过内存 4G,不能一次性读取。
- 因此考虑分治。
- 遍历文件 a,对每个 url 求 hashcode 再取余,即 hash(url) % 1000,将文件 a 分为 1000 个小文件,记为 a0, a1, …, a999。每个文件大小 320G ÷ 1000 ≈ 300M。</