最low的哈希写法以及用哈希表去重

最新推荐文章于 2024-04-17 17:45:16 发布

沙雕.

最新推荐文章于 2024-04-17 17:45:16 发布

阅读量628

点赞数

分类专栏：字符串模板

本文链接：https://blog.csdn.net/weixin_43768644/article/details/97614712

版权

字符串同时被 2 个专栏收录

64 篇文章 0 订阅

订阅专栏

模板

21 篇文章 1 订阅

订阅专栏

字符串hash写法：

①构造

对于一个串s

hash[1] = s[0]

hash[2] = (hash[0]*P + s[1])%Q

...

hash[len] = (hash[len-2]*P+s[len-1])%Q

这样构造即可.

P取一个比最大字符ASCII码大一点的质数（311好像挺常用）

Q取一个超大的质数（一般用unsigned long long自动对2^64-1取模）

反正都是为了尽可能降低碰撞的概率

②如何O（1）得出一个字符串的子串【l，r】（下标s[l-1]~s[r-1]）的hash值？

根据上面的构造我们可以可出:

hash[l,r] = hash[r] - hash[l-1]* $P^{^{r-l+1}}$

所以我们还需要O（N）构造p[N]表示对应次幂的结果

这样就可以O（1）得出啦。

如何利用哈希表对放入的串去重：

举个不知道从哪儿看来的例子，把每个hash值当成一只猪，把当前放入的hash%某一个数x相同的猪赶到同一个猪圈，

下次你插入一个数，求得%x的值，按照这个索引去那个猪圈找就好了。

显然x开的越大，猪圈分的越多，查找就越快，相应费一些空间，我看其他人好像都开个字符串长度的两倍左右。

这样如果你在那个猪圈找到了一模一样的猪，那么当前这头猪重复了，直接扔掉就可以了，从而达到了较快的查询。

查询的时间复杂度应该不会太高，应该就是常数较大的O（N）吧，因为hash值本身就比较随机。

具体的实现类似于链式前向星那种邻接表的形式。

非常不负责的告诉你这段代码没有检验过正确性：

#define ull unsigned long long

const int P = 311;
const int N = 1e5+5;
const int hashsize = 2e5;

ull hsh[N],p[N];

struct ht
{
    ull val;
    int last;
}edge[hashsize+5];

int head[hashsize+5],id = 1;
int cnt = 0;

void insert(int l,int r)
{
    ull now = hsh[r]-hsh[l-1]*p[r-l+1];
    int pos = now%hashsize;
    for (int i=head[pos];i!=0;i=edge[i].last)
        if (now == edge[i].val) return ;///找到了，就不会新开辟节点和计数
    cnt ++;
    edge[id].val = now;
    edge[id].last = head[pos];
    head[pos] = id++;
}

沙雕.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最low的哈希写法以及用哈希表去重

字符串hash写法：①构造对于一个串shash[1] = s[0]hash[2] = (hash[0]*P + s[1])%Q...hash[len] = (hash[len-2]*P+s[len-1])%Q这样构造即可.P取一个比最大字符ASCII码大一点的质数（311好像挺常用）Q取一个超大的质数（一般用unsigned long long自动对2^64-1...
复制链接

扫一扫