【STL】哈希表 {unordered系列容器的介绍和使用；模拟实现unordered_set和unordered_map}

芥末虾

已于 2024-07-25 13:41:47 修改

阅读量494

点赞数 1

分类专栏： C++ 文章标签：哈希算法散列表数据结构

于 2023-09-23 12:47:57 首次发布

本文链接：https://blog.csdn.net/zty857016148/article/details/133203262

版权

C++ 专栏收录该内容

39 篇文章 3 订阅

订阅专栏

一、unordered系列关联式容器

在C++98中，STL提供了底层为红黑树结构的一系列关联式容器map/set，在查询时效率可达到log_2N，即最差情况下需要比较红黑树的高度次。

在C++11中，STL又提供了4个unordered系列的关联式容器：unordered_map、unordered_multimap、unordered_set、unordered_multiset。这四个容器与红黑树结构的关联式容器相比查询效率更高接近于O(1)，且使用方式基本类似，只是其底层结构不同。

1.1 unordered_map

unordered_map是存储<key, value>键值对的关联式容器，其允许通过key快速的索引到与其对应的value。
在unordered_map中，键值通常用于惟一地标识元素，而映射值是一个对象，其内容与此键关联。键和映射值的类型可能不同。
在内部,unordered_map没有对<kye, value>按照任何特定的顺序排序。为了能在常数时间内找到key所对应的value，unordered_map将相同哈希值的键值对放在相同的桶中。
unordered_map容器通过key访问单个元素要比map快，但它通常在遍历元素子集的范围迭代方面效率较低。
unordered_maps实现了直接访问操作符(operator[])，它允许使用key作为参数直接访问value。
unordered_map的迭代器是前向迭代器(Forward Iterator)。

1.1.1 reserve & rehash

在这里插入图片描述

当谈到hash表时，"reserve"和"rehash"是两个常用的术语。它们之间的主要区别如下：

Reserve: 在reserve中，我们为hash表分配足够的内存空间来容纳未来可能要插入的元素。这样做可以减少因为表的大小不够而导致的rehash操作。在C++中，我们可以使用reserve()函数来分配内存空间。
Rehash: 当hash表中的元素个数超过了负载因子（load factor）所规定的阈值，就需要进行rehash操作。在rehash过程中，hash表的大小被加倍，并且所有元素被按照新的哈希函数重新插入到新的桶中。这样做可以避免哈希碰撞并提高性能。

1.2 unordered_set

unordered_set是不按特定顺序存储唯一元素key的容器，并允许根据key值快速检索单个元素。
在unordered_set中，元素的键值key唯一标识它。键是不可变的，因此，unordered_set中的元素不能在容器中修改，但是可以插入和删除它们。
在内部，unordered_set中的元素不按任何特定顺序排序。为了能在常数时间内按其key快速访问单个元素，unordered_set将相同哈希值的元素放在相同的桶中。
unordered_set容器比set容器更快地通过其key访问单个元素，但它通常在遍历元素子集的范围迭代方面效率较低。
unordered_set的迭代器是前向迭代器(Forward Iterator)。

1.3 与红黑树结构map/set的区别

map/set的遍历是有序的，而unordered系列是无序的。
map/set的迭代器是双向迭代器，而unordered系列是单向的。
在面对大量数据时，unordered系列的查找效率更高
unordered系列的关联式容器之所以效率比较高，是因为其底层使用了哈希结构。
对比哈希表和红黑树：请转到 2.3.2 开散列

二、模拟实现unordered_map & unordered_set

2.1 核心结构

//数据节点的结构
template <class T>
struct HashNode{
  typedef HashNode<T> Node;
  T _data; //泛型底层哈希表的存储类型，通过不同的实例化参数，实现出unordered_map和unordered_set。
  Node *_next; //指向下一个节点的指针

  HashNode(const T& data = T(), Node *next = nullptr)
    :_data(data),
    _next(next)
  {}
};

//默认哈希算法
template <class K>
struct Hashkey{
  size_t operator()(const K& key){
    return (size_t)key;
  }
};

template <>
struct Hashkey<string>{
  size_t operator()(const string& str){
    size_t ret = 0;
    for(char e : str)
    {
      ret += e;
      ret *= 131;
    }
    return ret;
  }
};

//哈希表的结构（哈希桶）
template <class K, class T, class Hash, class KofT>
class HashTable{
  typedef HashNode<T> Node;
  vector<Node*> _table; //数组存放指向节点的指针
  size_t _size = 0;
  //将迭代器设为友元类，注意类模版要带模版参数
  template <class k, class t, class hash, class kofT>
  friend class __Hashiterator;

public:
  //迭代器
  typedef __Hashiterator<K, T,Hash,KofT> iterator;
    
  iterator begin(){
    for(int i=0; i<_table.size(); ++i)
    {
      if(_table[i] != nullptr)
        return iterator(_table[i], this);
    }
    return end();
  }

  iterator end(){
    return iterator(nullptr, this);
  }
    
  //析构函数
  ~HashTable()
  {
	for (size_t i = 0; i < _tables.size(); ++i)
	{
		Node* cur = _tables[i];
		while (cur)
		{
			Node* next = cur->_next;
			delete cur;
			cur = next;
		}
		_tables[i] = nullptr;
	}
  }
    
  //查找、插入、删除
  iterator find(const K& key);
  pair<iterator, bool> insert(const T& data);
  bool erase(const K& key);

  size_t size(){
    return _size;
  }

private:
  //__stl_next_prime用于获取下一个大于n的质数作为扩容后的容量
  size_t __stl_next_prime(size_t n);
};

2.2 迭代器

//前置声明
template <class K, class T, class Hash, class KofT>
class HashTable;

template <class K, class T, class Hash, class KofT>
class __Hashiterator{
  typedef HashNode<T> Node;
  typedef HashTable<K,T,Hash,KofT> HT;
  typedef __Hashiterator<K,T, Hash, KofT> iterator;
  Node *_pnode; //指向数据节点的指针
  HT *_pht; //指向哈希表对象的指针

public:
  __Hashiterator(Node *pnode, HT *pht)
    :_pnode(pnode),
    _pht(pht)
  {}

public:
  T& operator*() const{
    return _pnode->_data;
  }

  T* operator->() const{
    return &_pnode->_data;
  }

  bool operator==(const iterator& it) const{
    return it._pnode == _pnode;
  }

  bool operator!=(const iterator& it) const{
    return it._pnode != _pnode;
  }

  iterator& operator++(){
    if(_pnode->_next != nullptr)
    {
      //在当前桶中迭代
      _pnode = _pnode->_next;
    }
    else
    {
      //找下一个桶
      KofT kot;
      Hash hash;
      size_t hashi = hash(kot(_pnode->_data)) % _pht->_table.size();
      int i = hashi + 1;
      for(; i<_pht->_table.size(); ++i)
      {
        if(_pht->_table[i] != nullptr)
        {
          _pnode = _pht->_table[i];
          break;
        }
      }
      //如果后面没有有数据的桶了
      if(i == _pht->_table.size())
        _pnode = nullptr;
    }
    return *this;
  }

  iterator operator++(int){
    iterator it(*this);
    ++*this;
    return it;
  }
};

2.3 查找、插入、删除

2.3.1 find

  iterator find(const K& key){
    if(_table.size() == 0)
      return end();
    
    Hash hash;
    KofT kot;
    size_t hashi = hash(key) % _table.size();
    Node *cur = _table[hashi];
    while(cur != nullptr)
    {
      if(kot(cur->_data) == key)
      {
        return iterator(cur, this);
      }
      cur = cur->_next;
    }
    return end();
  }

2.3.2 insert && __stl_next_prime

  pair<iterator, bool> insert(const T& data){
    KofT kot;
    Hash hash;
    //去重
    iterator ret = find(kot(data));
    if(ret != end())
        return make_pair(ret, false);
    //扩容
    //当载荷因子为1时进行扩容
    if(_size == _table.size())
    {
      //获取大于_table.size()的下一个质数作为新容量
      size_t newsize = __stl_next_prime(_table.size()); 
      //创建新数组
      vector<Node*> newtable;
      newtable.resize(newsize);
      //计算元素在新表中的哈希地址，并将节点移动到新表
      for(size_t i=0; i<_table.size(); ++i)
      {
        Node *cur = _table[i];
        Node *next = nullptr; //用于记录cur->_next
        while(cur != nullptr)
        {
          size_t hashi = hash(kot(cur->_data)) % newsize;
          next = cur->_next;
          //将节点头插到新表的对应桶中
          cur->_next = newtable[hashi]; 
          newtable[hashi] = cur;
          cur = next;
        }
        //最后将旧表中的桶置空，防止析构时释放新表中的节点
        _table[i] = nullptr;
      }
      //交换新旧两表
      swap(_table, newtable);
    }
    //插入
    size_t hashi = hash(kot(data)) % _table.size();
    Node *newnode = new Node(data);
    newnode->_next = _table[hashi];
    _table[hashi] = newnode;
    ++_size;
    return make_pair(iterator(newnode, this), true);
  }

private:
  //__stl_next_prime用于获取下一个大于n的质数作为扩容后的容量
  inline size_t __stl_next_prime(size_t n)
  {
    //预置一个质数表，从表中依次取质数作为扩容后的容量
    static const int __stl_num_primes = 28;
    static const size_t __stl_prime_list[__stl_num_primes] =
    {
      53,         97,         193,       389,       769,
      1543,       3079,       6151,      12289,     24593,
      49157,      98317,      196613,    393241,    786433,
      1572869,    3145739,    6291469,   12582917,  25165843,
      50331653,   100663319,  201326611, 402653189, 805306457, 
      1610612741, 3221225473, 4294967291
    };
    for(int i=0; i<__stl_num_primes; ++i)
    {
      if(__stl_prime_list[i] > n)
      {
        return __stl_prime_list[i];
      }
    }
    return -1;
  }

为什么选择质数作为哈希表容量的大小？

选择质数作为哈希表容量的大小，原因是在hash函数中你要用这些质数来做模运算(%)。
而分析发现，如果容量选择为非质数，例如选择一个合数（除了1和自身外还有其他因数的数），那么容易出现多个键映射到同一个索引的情况，导致哈希表性能下降。
所以这里最后采用了质数做模的除数。质数的选择可以使哈希函数更均匀地分布键值，减少碰撞的概率。

2.3.3 erase

  bool erase(const K& key){
    //空表删除返回false
    if(_table.size() == 0)
      return false;

    Hash hash;
    KofT kot;
    size_t hashi = hash(key) % _table.size();
    Node *cur = _table[hashi];
    Node *prev = nullptr; //记录cur的前驱节点便于删除节点前进行连接
    while(cur != nullptr)
    {
      //找到进行删除
      if(key == kot(cur->_data))
      {
        //如果删除的是头结点
        if(cur == _table[hashi])
          _table[hashi] = cur->_next;
        else
          prev->_next = cur->_next;
        delete cur; 
        --_size; //不要忘了修改_size
        return true;
      }
      prev = cur;
      cur = cur->_next;
    }
    //找不到返回false
    return false;
  }

set和unordered_set的key类型(K)分别有什么要求？

set中的key类型：
- 要求支持小于比较(默认less)，或者提供小于或大于的比较仿函数(class Compare)
- 小技巧：小于反过来使用就是大于：a<b小于 b<a大于 else等于
unordered_set中的key类型：
- 要求支持整型转换，或者提供整型转换仿函数(class Hash)
- 要求支持等于比较，或者提供等于比较的仿函数(class Pred)

提示：模拟实现代码中没有体现unordered_set的等于比较仿函数(class Pred)。

2.4 unordered_set封装

#pragma once
#include "HashTable.hpp"

namespace zty{

  template <class K, class Hash = Hashkey<K>>
  class unordered_set{
    struct SetKofT{
      const K& operator()(const K& key){
        return key;
      }
    };

    typedef HashNode<K> Node;
    typedef HashTable<K, K, Hash, SetKofT> HT;
    HT _ht;

  public:
    typedef typename HT::iterator iterator;

    iterator begin(){
      return _ht.begin();
    }
    
    iterator end(){
      return _ht.end();
    }

    size_t size(){
      return _ht.size();
    }

    pair<iterator, bool> insert(const K& key){
      return _ht.insert(key);
    } 

    iterator find(const K& key){
      return _ht.find(key);
    }

    bool erase(const K& key){
      return _ht.erase(key);
    }
  };
}

2.5 unordered_map封装

#pragma once
#include "HashTable.hpp"

namespace zty
{
  template <class K, class V, class Hash = Hashkey<K>>
  class unordered_map{
    struct MapKofT{
      const K& operator()(const pair<K,V>& kv){
        return kv.first;
      }
    };
    typedef HashTable<K,pair<K,V>,Hash,MapKofT> HT;
    HT _ht;

  public:
    typedef typename HT::iterator iterator;
    iterator begin(){
      return _ht.begin();
    }
    iterator end(){
      return _ht.end();
    }

    pair<iterator, bool> insert(const pair<K,V>& kv){
      return _ht.insert(kv);
    }

    //重载operator[]
    V& operator[](const K& key){
      auto ret = _ht.insert(make_pair(key, V()));
      return ret.first->second;
    }

    iterator find(const K& key){
      return _ht.find(key);
    }

    bool erase(const K& key){
      return _ht.erase(key);
    }
  };
}