最low的哈希写法以及用哈希表去重

字符串hash写法:

①构造

对于一个串s

hash[1] = s[0]

hash[2] = (hash[0]*P + s[1])%Q

...

hash[len] = (hash[len-2]*P+s[len-1])%Q

这样构造即可.

P取一个比最大字符ASCII码大一点的质数(311好像挺常用)

Q取一个超大的质数(一般用unsigned long long自动对2^64-1取模)

反正都是为了尽可能降低碰撞的概率

②如何O(1)得出一个字符串的子串【l,r】(下标s[l-1]~s[r-1])的hash值?

根据上面的构造我们可以可出:

hash[l,r] = hash[r]  -    hash[l-1]*P^{^{r-l+1}}

所以我们还需要O(N)构造p[N]表示对应次幂的结果

这样就可以O(1)得出啦。


如何利用哈希表对放入的串去重:

举个不知道从哪儿看来的例子,把每个hash值当成一只猪,把当前放入的hash%某一个数x相同的猪赶到同一个猪圈,

下次你插入一个数,求得%x的值,按照这个索引去那个猪圈找就好了。

显然x开的越大,猪圈分的越多,查找就越快,相应费一些空间,我看其他人好像都开个字符串长度的两倍左右。

这样如果你在那个猪圈找到了一模一样的猪,那么当前这头猪重复了,直接扔掉就可以了,从而达到了较快的查询。

查询的时间复杂度应该不会太高,应该就是常数较大的O(N)吧,因为hash值本身就比较随机。

具体的实现类似于链式前向星那种邻接表的形式。

非常不负责的告诉你这段代码没有检验过正确性:

#define ull unsigned long long

const int P = 311;
const int N = 1e5+5;
const int hashsize = 2e5;

ull hsh[N],p[N];

struct ht
{
    ull val;
    int last;
}edge[hashsize+5];

int head[hashsize+5],id = 1;
int cnt = 0;

void insert(int l,int r)
{
    ull now = hsh[r]-hsh[l-1]*p[r-l+1];
    int pos = now%hashsize;
    for (int i=head[pos];i!=0;i=edge[i].last)
        if (now == edge[i].val) return ;///找到了,就不会新开辟节点和计数
    cnt ++;
    edge[id].val = now;
    edge[id].last = head[pos];
    head[pos] = id++;
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值