hash算法在查找、比较中的应用

最新推荐文章于 2023-06-11 19:09:00 发布

52编程

最新推荐文章于 2023-06-11 19:09:00 发布

阅读量724

点赞数

分类专栏：算法文章标签：算法 hash 排序算法 C++ 数据

本文链接：https://blog.csdn.net/zerglurker/article/details/46367417

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

考虑这样一个问题
矩阵M=[12 23 34 67;
           10 26 45 81;
           37 21 25 17;
           10 26 45 81;
           37 21 25 17;
           ……
           ]
有大约30万行。现在需要对矩阵中的行进行统计，统计各行是否存在重复，以及重复的次数。
比如上面的矩阵中，红色和蓝色的行就是重复行，各重复了两次。
怎么弄？
笨办法是建立一个列表，不断的读取新的行，然后和列表中的元素比较：如果相同则对应的计数器+1，如果不相则加入表末尾
最后输出表中元素和对应的计数器，时间复杂度大约是O(N的平方)这样一个量级
稍好一点的办法是
一种方式是建立一个二叉树，将四个数合并成一个4字节的整数，然后按照大小建立二叉树。
不断的读取行，并不断的加入二叉树。如果节点存在，则计数器加1
最后将二叉树遍历一遍，同时输出每个节点的计数器。
这样弄，时间复杂度是O(log2N)（N=30万）
但是考虑到30万行甚至更多的行，这样一个量级，显然最好时间复杂度是O(1)
有没有这种方法？
我们知道，在算法中，空间和时间是可以互换的。要节约时间，可以从空间（也就是内存）着手。
基于这种思路，如果我能找到一种算法，将行散列到一个有限空间内，那就可以极大的节约时间。
针对这种思路，想一个极端的算法：每一行4个整数（十进制）有1亿种可能
建立一个1亿×4字节的文件File（大约是380M，在现代计算机来看，还是可以满足的，就是代价有点令人侧目），每4个字节表示一个计数器
算法就是读取一行，根据这一行数值，组成一个整数Offset（就是row[0]*1000000+row[1]*10000+row[2]*100+row[3])
跳转到文件File Offset*4 读取，将值加1，再写回去
最后再遍历文件，每次读取4字节(重复次数），将值大于1的位置逆转为行数值
row[0]=(Offset/4)mod1000000
row[1]=((Offset/4)mod10000-row[0]*100
row[2]=((Offset/4)mod100-row[0]*10000-row[1]*100
row[3]=((Offset/4)-row[0]*1000000-row[1]*10000-row[2]*100
这种方法其实就是一种哈希算法。只不过这种哈希算法比较消耗空间，但是本身比较简单而易于实现。
有没有可能再节约一点空间呢？
答案是可以的，设想这样一个hash算法：
off1=row[0]+row[1]
off2=row[2]+row[3]
off = off1*256+off2
构造一个65536（64K）大小的列表。列表元素包括一个4字节数组记录行，一个4字节整数记录重复次数
算法首先采用hash对行进行分类，如果出现重复，则在对应的列表中进行追加
这样的算法时间复杂度非常依赖hash对每行散列的效果。完美情况是O(5)【即30万行数据被均匀分为65536份，每份大概5个列表长度】
随着算法散列程度下降，逐渐降低，直到O(N的平方）
如果列表是有序表，则最差为O(log2N)
但是基本不会出现最差的情况，这意味着所有行计算出的值都是相同的
因此如果采用有序列表，hash算法会成为比其他算法占优的算法
总结：
在统计大量离散数据时，hash算法将是一种比简单排序算法、二叉树算法更加优异的算法。

52编程

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hash算法在查找、比较中的应用

考虑这样一个问题矩阵M=[12 23 34 67; 10 26 45 81; 37 21 25 17; 10 26 45 81; 37 21 25 17; …… ]有大约30万行。现在需要对矩阵中的行进行统计，统计各行是否存在重复，以及重复的次数。
复制链接

扫一扫

专栏目录