哈希思想的经典应用(位图,哈希切割)

位图

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。
解决方案:

遍历,时间复杂度O(N)

排序(O(NlogN)),利用二分查找: logN

这两种方案所需的内存空间都很大,如何利用更小的空间解决这件事情呢?

位图概念
所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。
在这里插入图片描述
在该问题中,我们可以取40亿个比特位,每个比特位表示一个数,如果该数出现则标记为1,未出现则标记为0。

布隆过滤器

给10亿个不重复的字符串。给一个字符串,如何快速判断该字符串是否在这10亿个字符串中。

我们采取类似位图的思想,将一个字符串通过相同的方式映射成一个整数,再将对应的下表,标位1。

但是这样会遇到一个问题,两个不同的字符串通过映射后得到相同的整数。为了降低这样的概率,就有人提出了布隆过滤器。

概念
布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

在这里插入图片描述
查找

分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零,代表该元素一定不在哈希表中,否则可能在哈希表中。

哈希切割

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?

概念

哈希切割就是将一个大文件,利用哈希的原理,将其分为若干个小文件。相同的数据都被分到同一个文件里。

将每一个log中的IP通过哈希函数映射成一个整数%100,分到100不同的小文件,在进行计数
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值