C++哈希详解

unordered系列的关联式容器之所以效率比较高,是因为其底层使用了哈希结构。

1 哈希概念

        顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素 时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即 O($log_2 N$),搜索的效率取决于搜索过程中元素的比较次数。

        理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。 如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立 一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

当向该结构中:

插入元素

        根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。

搜索元素

        对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置 取元素比较,若关键码相等,则搜索成功。

        该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称 为哈希表(Hash Table)(或者称散列表)。

例如:数据集合{1,7,6,4,5,9};

哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

        用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。

        问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题? 

2 哈希冲突

        对于两个数据元素的关键字$k_i$和 $k_j$(i != j),有$k_i$ != $k_j$,但有:Hash($k_i$) == Hash($k_j$),即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突 或哈希碰撞。

        把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

                发生哈希冲突该如何处理呢?

3 哈希函数

引起哈希冲突的一个原因可能是:哈希函数设计不够合理。

哈希函数设计原则:

        哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值 域必须在0到m-1之间。

        哈希函数计算出来的地址能均匀分布在整个空间中。

        哈希函数应该比较简单。

常见哈希函数

1. 直接定址法--(常用)

        取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B。

        优点:简单、均匀。

        缺点:需要事先知道关键字的分布情况。

        使用场景:适合查找比较小且连续的情况。

2. 除留余数法--(常用)

        设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数, 按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址。

3. 平方取中法--(了解)

        假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况。

4. 折叠法--(了解)

        折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这 几部分叠加求和,并按散列表表长,取后几位作为散列地址。

折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况。

5. 随机数法--(了解)

        选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中 random为随机数函数。

通常应用于关键字长度不等时采用此法。

6. 数学分析法--(了解)

        设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定 相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只 有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散 列地址。例如:

假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是 相同 的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还 可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移 位、前两数与后两数叠加(如1234改成12+34=46)等方法。

数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的 若干位分布较均匀的情况。

注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突。

4 哈希冲突解决

解决哈希冲突两种常见的方法是:闭散列和开散列。

4.1 闭散列

        闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有 空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置 呢?

1. 线性探测

        比如2.1中的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,hashAddr为4, 因此44理论上应该插在该位置,但是该位置已经放了值为4的元素,即发生哈希冲突。

线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

插入

        通过哈希函数获取待插入元素在哈希表中的位置。

        如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突, 使用线性探测找到下一个空位置,插入新元素。

删除

        采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素 会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影 响。因此线性探测采用标记的伪删除法来删除一个元素。

// 哈希表每个空间给个标记
// EMPTY此位置空, EXIST此位置已经有元素, DELETE元素已经删除
enum State{EMPTY, EXIST, DELETE}; 

线性探测的实现

// 注意:假如实现的哈希表中元素唯一,即key相同的元素不再进行插入
// 为了实现简单,此哈希表中我们将比较直接与元素绑定在一起
template<class K, class V>
 class HashTable
 {
 struct Elem
    {   
pair<K, V> _val;
 State _state;
    };
 public:
 HashTable(size_t capacity = 3)
        : 
_ht(capacity), _size(0)
    { 
for(size_t i = 0; i < capacity; ++i)
 _ht[i]._state = EMPTY;
}
bool Insert(const pair<K, V>& val)
   {
 // 检测哈希表底层空间是否充足
// _CheckCapacity();
 size_t hashAddr = HashFunc(key);
 // size_t startAddr = hashAddr;
 while(_ht[hashAddr]._state != EMPTY)
       {
 if(_ht[hashAddr]._state == EXIST && _ht[hashAddr]._val.first 
== key)
 return false;
 hashAddr++;
 if(hashAddr == _ht.capacity())
 hashAddr = 0;
 /*
 // 转一圈也没有找到,注意:动态哈希表,该种情况可以不用考虑,哈希表中元素个数到达一定的数量,哈希冲突概率会增大,需要扩容来降低哈希冲突,因此哈希表中元素是
不会存满的
if(hashAddr == startAddr)
 return false;
 */
}
        // 插入元素
_ht[hashAddr]._state = EXIST;
 _ht[hashAddr]._val = val;
 _size++;
 return true;
  {
 size_t hashAddr = HashFunc(key);
 while(_ht[hashAddr]._state != EMPTY)
       {
 if(_ht[hashAddr]._state == EXIST && _ht[hashAddr]._val.first 
== key)
 return hashAddr;
 hashAddr++;
       }
 return hashAddr;
   }
 bool Erase(const K& key)
   {
 int index = Find(key);
 if(-1 != index)
       {
 _ht[index]._state = DELETE;
 _size++;
 return true;
       }
 return false;
   }
 size_t Size()const;
 bool Empty() const;    
void Swap(HashTable<K, V, HF>& ht);
 private:
 size_t HashFunc(const K& key)
    {
 return key % _ht.capacity();
    }
 private:
 vector<Elem> _ht;
 size_t _size;
 };
   }

         思考:哈希表什么情况下进行扩容?如何扩容?

void CheckCapacity()
 {
 if(_size * 10 / _ht.capacity() >= 7)
    {
 HashTable<K, V, HF> newHt(GetNextPrime(ht.capacity));
 for(size_t i = 0; i < _ht.capacity(); ++i)
        {
 if(_ht[i]._state == EXIST)
 newHt.Insert(_ht[i]._val);
        }
 Swap(newHt);
        }
}

线性探测优点:实现非常简单。

         线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据“堆积”,即:不同 关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降 低。如何缓解呢? 

2. 二次探测

        线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位 置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法 为:$H_i$ = ($H_0$ + $i^2$ )% m, 或者:$H_i$ = ($H_0$ - $i^2$ )% m。其中:i = 1,2,3…, $H_0$是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表 的大小。

对于上文中如果要插入44,产生冲突,使用解决后的情况为:

        研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任 何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在 搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子a不超过0.5,如果超出 必须考虑增容。

        因此:比散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。

4.2 开散列 

1. 开散列概念

        开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地 址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链 接起来,各链表的头结点存储在哈希表中。

        从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。

2. 开散列实现 

template<class V>
 struct HashBucketNode
 {
 HashBucketNode(const V& data)
        : 
_pNext(nullptr), _data(data)
    {}
 HashBucketNode<V>* _pNext;
 V _data;
 };
 // 本文所实现的哈希桶中key是唯一的
template<class V>
 class HashBucket
 {
 typedef HashBucketNode<V> Node;
 typedef Node* PNode;
 public:
 HashBucket(size_t capacity = 3): _size(0)
    { 
_ht.resize(GetNextPrime(capacity), nullptr);}
 // 哈希桶中的元素不能重复
PNode* Insert(const V& data)
    {
 // 确认是否需要扩容。。。
// _CheckCapacity();
 // 1. 计算元素所在的桶号
size_t bucketNo = HashFunc(data);
 // 2. 检测该元素是否在桶中
PNode pCur = _ht[bucketNo];
 while(pCur)
        {
 if(pCur->_data == data)
 return pCur;
 pCur = pCur->_pNext;
        }
 // 3. 插入新元素
pCur = new Node(data);
 pCur->_pNext = _ht[bucketNo];
 _ht[bucketNo] = pCur;
 _size++;
 return pCur;
    }
 // 删除哈希桶中为data的元素(data不会重复),返回删除元素的下一个节点
PNode* Erase(const V& data)
    {
 size_t bucketNo = HashFunc(data);
 PNode pCur = _ht[bucketNo];
 PNode pPrev = nullptr, pRet = nullptr;
 while(pCur)
        {
 if(pCur->_data == data)
            {
 if(pCur == _ht[bucketNo])
 _ht[bucketNo] = pCur->_pNext;
 else
 pPrev->_pNext = pCur->_pNext;
 pRet = pCur->_pNext;
 delete pCur;
 _size--;
 return pRet;
            }
        }
 return nullptr;
    }
 PNode* Find(const V& data);
 size_t Size()const;
 bool Empty()const;
 void Clear();
 bool BucketCount()const;
 void Swap(HashBucket<V, HF>& ht;
 ~HashBucket();
 private:
 size_t HashFunc(const V& data)
  {
 return data%_ht.capacity();
    }
 private:
 vector<PNode*> _ht;
 size_t _size;      
};

3. 开散列增容

        桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可 能会导致一个桶中链表节点非常多,会影响的哈希表的性能,因此在一定条件下需要对哈希 表进行增容,那该条件怎么确认呢?开散列最好的情况是:每个哈希桶中刚好挂一个节点, 再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可 以给哈希表增容。

void _CheckCapacity()
 {
 size_t bucketCount = BucketCount();
 if(_size == bucketCount)
    {
 HashBucket<V, HF> newHt(bucketCount);
 for(size_t bucketIdx = 0; bucketIdx < bucketCount; ++bucketIdx)
        {
 PNode pCur = _ht[bucketIdx];
 while(pCur)
{
// 将该节点从原哈希表中拆出来
_ht[bucketIdx] = pCur->_pNext;

// 将该节点插入到新哈希表中
size_t bucketNo = newHt.HashFunc(pCur->_data);
 pCur->_pNext = newHt._ht[bucketNo];
 newHt._ht[bucketNo] = pCur;
 pCur = _ht[bucketIdx];
    }
}
newHt._size = _size;
 this->Swap(newHt);
    }
}

 4. 开散列的思考

1. 只能存储key为整形的元素,其他类型怎么解决?

// 哈希函数采用处理余数法,被模的key必须要为整形才可以处理,此处提供将key转化为
整形的方法
// 整形数据不需要转化
template<class T>
 class DefHashF
 {
 public:
 size_t operator()(const T& val)
    {
 return val;
  }
 };
 // key为字符串类型,需要将其转化为整形
class Str2Int
 {
 public:
 size_t operator()(const string& s)
    {
 const char* str = s.c_str();
 unsigned int seed = 131; // 31 131 1313 13131 131313
 unsigned int hash = 0;
 while (*str)
        {
 hash = hash * seed + (*str++);
        }
 return (hash & 0x7FFFFFFF);
    }
 };
// 为了实现简单,此哈希表中我们将比较直接与元素绑定在一起
template<class V, class HF>
 class HashBucket
 {
 // ……
 private:
 size_t HashFunc(const V& data)
    {
 return HF()(data.first)%_ht.capacity();
    }
 };

2. 除留余数法,最好模一个素数,如何每次快速取一个类似两倍关系的素数?

size_t GetNextPrime(size_t prime)
 {
 const int PRIMECOUNT = 28;
 static const size_t primeList[PRIMECOUNT] =
 {
 53ul, 97ul, 193ul, 389ul, 769ul,
 1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
 49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
 1572869ul, 3145739ul, 6291469ul, 12582917ul, 
25165843ul,
 50331653ul, 100663319ul, 201326611ul, 402653189ul, 
805306457ul,
 1610612741ul, 3221225473ul, 4294967291ul
 };
 size_t i = 0;
 for (; i < PRIMECOUNT; ++i)
 {
 if (primeList[i] > prime)
 return primeList[i];
 }
return primeList[i];
 }

5. 开散列与闭散列比较

         应用链地址法处理溢出,需要增设链接指针,似乎增加了存储开销。事实上: 由于开地址法必须保持大量的空闲空间以确保搜索效率,如二次探查法要求装载因子a <= 0.7,而表项所占空间又比指针大的多,所以使用链地址法反而比开地址法节省存储空间。 

  • 39
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 11-tie源码是一个用C语言实现的简单且高效的哈希表结构,可以用来实现键-值对的存储和查找。以下是对11-tie源码的详细解释。 11-tie源码主要由三个关键部分组成:哈希表结构、哈希函数和碰撞解决方法。 首先是哈希表结构。11-tie源码中使用了一个固定大小的数组作为哈希表来存储键-值对。数组的大小由用户在创建哈希表时指定,并具有较好的素数特性,以减少碰撞的发生。哈希表中的每个元素(bucket)是一个指向键-值对链表的指针。如果出现碰撞,新的键-值对将被添加到链表的头部。 然后是哈希函数。11-tie源码中使用了一个简单且高效的哈希函数,它会根据键的特征将其映射到数组的索引位置。哈希函数使得不同的键被均匀地分布在数组中,从而减少碰撞的发生。该哈希函数通常基于键的类型和特性,但也可以根据特定需求进行自定义。 最后是碰撞解决方法。当多个键映射到数组的同一个索引位置时,就会发生碰撞。11-tie源码中使用了链表来解决碰撞问题。当发生碰撞时,新的键-值对将被添加到链表的头部。这种解决方法简单且有效,但当哈希表中的元素数量较大时,链表的遍历会导致性能下降。 总结起来,11-tie源码是一个使用C语言实现的简单高效的哈希表结构。通过哈希函数将键映射到数组的索引位置,使用链表解决碰撞问题。这种结构可以用来存储和查找键-值对,适用于快速查询和插入数据的场景。 ### 回答2: c 11 tie 源码详解是指对 C++ 11 中的 `std::tie` 函数进行解析。`std::tie` 是一个模板函数,用于将多个值绑定到一个元组中。 `std::tie` 的源码实现如下: ```cpp namespace std { template <typename... Types> tuple<Types&...> tie(Types&... args) noexcept { return tuple<Types&...>(args...); } } ``` `std::tie` 函数是一个模板函数,接受任意数量的参数,并将这些参数作为引用传递给 `std::tuple`,然后返回这个 `std::tuple`。 `std::tuple` 是一个模板类,用于保存一组不同类型的值。`std::tuple<Types&...>` 的含义是保存参数 Types&... 的引用。 利用 `std::tie` 函数,可以将多个变量绑定到一个 `std::tuple` 中,并且可以通过解构绑定的方式获取这些变量。 例如,假设有两个变量 `int a` 和 `double b`,可以使用 `std::tie` 将它们绑定到一个元组中,并通过解构绑定方式获取它们的值: ```cpp int a = 1; double b = 2.0; std::tuple<int&, double&> t = std::tie(a, b); std::get<0>(t) = 10; std::get<1>(t) = 20.0; std::cout << a << ", " << b << std::endl; ``` 在上面的代码中,通过 `std::tie(a, b)` 将变量 `a` 和 `b` 绑定到一个元组 `t` 中,然后通过 `std::get<0>(t)` 和 `std::get<1>(t)` 获取元组中第一个和第二个值,并将它们分别赋值为 10 和 20.0。最后输出结果为 `10, 20`。 `std::tie` 的源码实现简单明了,通过将多个参数作为引用传递给 `std::tuple`,实现了将多个变量绑定到一个元组中的功能。这个功能在一些情况下非常方便,可以减少代码的复杂性和重复性。 ### 回答3: c 11 tie 是 C++ 11 标准中新增的一个标准库函数,用于将多个输出流(ostream)绑定到一个流对象上。通过将多个输出流绑定在一起,可以在输出时同时向多个流对象输出数据,提高代码的易读性和简洁性。 使用 c 11 tie 首先需要包含 `<tuple>` 头文件,并且可以接受任意个数的流对象作为参数。例如 `std::tie(stream1, stream2)` 表示将 stream1 和 stream2 绑定在一起。 在绑定之后,输出到绑定对象的数据会自动发送到所有绑定的流对象中。例如 `std::cout << "Hello World";`,如果之前使用 `std::tie(std::cout, fileStream)` 进行了绑定,那么输出的 "Hello World" 既会在控制台上显示,也会同时写入到文件流对象中,实现了同时输出到两个流对象的效果。 需要注意的是,绑定只在绑定操作发生时生效,之后对流对象的修改不会影响绑定。因此,如果在绑定之后修改了流对象,需要重新进行绑定操作。 c 11 tie 的使用可以简化代码,提高开发效率。通过同时输出到多个流对象,可以实现在不同目的地同时记录相同的输出信息,提供了一种方便的日志记录功能。此外,绑定的流对象可以是任意的输出流,不限于标准输出流和文件流,也可以是用户自定义的流对象。 总结来说,c 11 tie 是 C++ 11 标准中新增的一个标准库函数,用于将多个输出流绑定在一个流对象上,实现同时输出到多个流对象的功能。它提高了代码的可读性和简洁性,并且可以应用于日志记录等多种场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值