【场景】大数据场景题 - Hash

之前介绍过 Bitmap 和 Bloom Filter,今天介绍 Hash。
【场景】大数据场景题 - Bitmap
【场景】大数据场景题 - Bloom Filter

适用范围:快速查找,将海量数据分成多个小文件,完成分布式处理。

基本原理:是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。

问题实例

(1)给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?

方案一:Hash

  • 预估文件大小:50E × 64 B ≈ 5G × 64 ≈ 320G,超过内存 4G,不能一次性读取。
  • 因此考虑分治。
  • 遍历文件 a,对每个 url 求 hashcode 再取余,即 hash(url) % 1000,将文件 a 分为 1000 个小文件,记为 a0, a1, …, a999。每个文件大小 320G ÷ 1000 ≈ 300M。</
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值