字符串hash写法:
①构造
对于一个串s
hash[1] = s[0]
hash[2] = (hash[0]*P + s[1])%Q
...
hash[len] = (hash[len-2]*P+s[len-1])%Q
这样构造即可.
P取一个比最大字符ASCII码大一点的质数(311好像挺常用)
Q取一个超大的质数(一般用unsigned long long自动对2^64-1取模)
反正都是为了尽可能降低碰撞的概率
②如何O(1)得出一个字符串的子串【l,r】(下标s[l-1]~s[r-1])的hash值?
根据上面的构造我们可以可出:
hash[l,r] = hash[r] - hash[l-1]*
所以我们还需要O(N)构造p[N]表示对应次幂的结果
这样就可以O(1)得出啦。
如何利用哈希表对放入的串去重:
举个不知道从哪儿看来的例子,把每个hash值当成一只猪,把当前放入的hash%某一个数x相同的猪赶到同一个猪圈,
下次你插入一个数,求得%x的值,按照这个索引去那个猪圈找就好了。
显然x开的越大,猪圈分的越多,查找就越快,相应费一些空间,我看其他人好像都开个字符串长度的两倍左右。
这样如果你在那个猪圈找到了一模一样的猪,那么当前这头猪重复了,直接扔掉就可以了,从而达到了较快的查询。
查询的时间复杂度应该不会太高,应该就是常数较大的O(N)吧,因为hash值本身就比较随机。
具体的实现类似于链式前向星那种邻接表的形式。
非常不负责的告诉你这段代码没有检验过正确性:
#define ull unsigned long long
const int P = 311;
const int N = 1e5+5;
const int hashsize = 2e5;
ull hsh[N],p[N];
struct ht
{
ull val;
int last;
}edge[hashsize+5];
int head[hashsize+5],id = 1;
int cnt = 0;
void insert(int l,int r)
{
ull now = hsh[r]-hsh[l-1]*p[r-l+1];
int pos = now%hashsize;
for (int i=head[pos];i!=0;i=edge[i].last)
if (now == edge[i].val) return ;///找到了,就不会新开辟节点和计数
cnt ++;
edge[id].val = now;
edge[id].last = head[pos];
head[pos] = id++;
}