hash算法在查找、比较中的应用

考虑这样一个问题
矩阵M=[12 23 34 67;
           10 26 45 81;
           37 21 25 17;
           10 26 45 81;
           37 21 25 17;
           ……
           ]
有大约30万行。现在需要对矩阵中的行进行统计,统计各行是否存在重复,以及重复的次数。
比如上面的矩阵中,红色和蓝色的行就是重复行,各重复了两次。
怎么弄?
笨办法是建立一个列表,不断的读取新的行,然后和列表中的元素比较:如果相同则对应的计数器+1,如果不相则加入表末尾
最后输出表中元素和对应的计数器,时间复杂度大约是O(N的平方)这样一个量级
稍好一点的办法是
一种方式是建立一个二叉树,将四个数合并成一个4字节的整数,然后按照大小建立二叉树。
不断的读取行,并不断的加入二叉树。如果节点存在,则计数器加1
最后将二叉树遍历一遍,同时输出每个节点的计数器。
这样弄,时间复杂度是O(log2N)(N=30万)
但是考虑到30万行甚至更多的行,这样一个量级,显然最好时间复杂度是O(1)
有没有这种方法?
我们知道,在算法中,空间和时间是可以互换的。要节约时间,可以从空间(也就是内存)着手。
基于这种思路,如果我能找到一种算法,将行散列到一个有限空间内,那就可以极大的节约时间。
针对这种思路,想一个极端的算法:每一行4个整数(十进制)有1亿种可能
建立一个1亿×4字节的文件File(大约是380M,在现代计算机来看,还是可以满足的,就是代价有点令人侧目),每4个字节表示一个计数器
算法就是读取一行,根据这一行数值,组成一个整数Offset(就是row[0]*1000000+row[1]*10000+row[2]*100+row[3])
跳转到文件File Offset*4 读取,将值加1,再写回去
最后再遍历文件,每次读取4字节(重复次数),将值大于1的位置逆转为行数值
row[0]=(Offset/4)mod1000000
row[1]=((Offset/4)mod10000-row[0]*100
row[2]=((Offset/4)mod100-row[0]*10000-row[1]*100
row[3]=((Offset/4)-row[0]*1000000-row[1]*10000-row[2]*100
这种方法其实就是一种哈希算法。只不过这种哈希算法比较消耗空间,但是本身比较简单而易于实现。
有没有可能再节约一点空间呢?
答案是可以的,设想这样一个hash算法:
off1=row[0]+row[1]
off2=row[2]+row[3]
off = off1*256+off2
构造一个65536(64K)大小的列表。列表元素包括一个4字节数组记录行,一个4字节整数记录重复次数
算法首先采用hash对行进行分类,如果出现重复,则在对应的列表中进行追加
这样的算法时间复杂度非常依赖hash对每行散列的效果。完美情况是O(5)【即30万行数据被均匀分为65536份,每份大概5个列表长度】
随着算法散列程度下降,逐渐降低,直到O(N的平方)
如果列表是有序表,则最差为O(log2N)
但是基本不会出现最差的情况,这意味着所有行计算出的值都是相同的
因此如果采用有序列表,hash算法会成为比其他算法占优的算法
总结:
在统计大量离散数据时,hash算法将是一种比简单排序算法、二叉树算法更加优异的算法。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值