一、unordered系列关联式容器
在C++98中,STL提供了底层为红黑树结构的一系列关联式容器map/set,在查询时效率可达到log_2N
,即最差情况下需要比较红黑树的高度次。
在C++11中,STL又提供了4个unordered系列的关联式容器:unordered_map、unordered_multimap、unordered_set、unordered_multiset。这四个容器与红黑树结构的关联式容器相比查询效率更高接近于O(1),且使用方式基本类似,只是其底层结构不同。
1.1 unordered_map
- unordered_map是存储<key, value>键值对的关联式容器,其允许通过key快速的索引到与其对应的value。
- 在unordered_map中,键值通常用于惟一地标识元素,而映射值是一个对象,其内容与此键关联。键和映射值的类型可能不同。
- 在内部,unordered_map没有对<kye, value>按照任何特定的顺序排序。为了能在常数时间内找到key所对应的value,unordered_map将相同哈希值的键值对放在相同的桶中。
- unordered_map容器通过key访问单个元素要比map快,但它通常在遍历元素子集的范围迭代方面效率较低。
- unordered_maps实现了直接访问操作符(operator[]),它允许使用key作为参数直接访问value。
- unordered_map的迭代器是前向迭代器(Forward Iterator)。
1.1.1 reserve & rehash
当谈到hash表时,"reserve"和"rehash"是两个常用的术语。它们之间的主要区别如下:
-
Reserve: 在reserve中,我们为hash表分配足够的内存空间来容纳未来可能要插入的元素。这样做可以减少因为表的大小不够而导致的rehash操作。在C++中,我们可以使用reserve()函数来分配内存空间。
-
Rehash: 当hash表中的元素个数超过了负载因子(load factor)所规定的阈值,就需要进行rehash操作。在rehash过程中,hash表的大小被加倍,并且所有元素被按照新的哈希函数重新插入到新的桶中。这样做可以避免哈希碰撞并提高性能。
1.2 unordered_set
- unordered_set是不按特定顺序存储唯一元素key的容器,并允许根据key值快速检索单个元素。
- 在unordered_set中,元素的键值key唯一标识它。键是不可变的,因此,unordered_set中的元素不能在容器中修改,但是可以插入和删除它们。
- 在内部,unordered_set中的元素不按任何特定顺序排序。为了能在常数时间内按其key快速访问单个元素,unordered_set将相同哈希值的元素放在相同的桶中。
- unordered_set容器比set容器更快地通过其key访问单个元素,但它通常在遍历元素子集的范围迭代方面效率较低。
- unordered_set的迭代器是前向迭代器(Forward Iterator)。
1.3 与红黑树结构map/set的区别
- map/set的遍历是有序的,而unordered系列是无序的。
- map/set的迭代器是双向迭代器,而unordered系列是单向的。
- 在面对大量数据时,unordered系列的查找效率更高
- unordered系列的关联式容器之所以效率比较高,是因为其底层使用了哈希结构。
- 对比哈希表和红黑树:请转到 2.3.2 开散列
二、模拟实现unordered_map & unordered_set
2.1 核心结构
//数据节点的结构
template <class T>
struct HashNode{
typedef HashNode<T> Node;
T _data; //泛型底层哈希表的存储类型,通过不同的实例化参数,实现出unordered_map和unordered_set。
Node *_next; //指向下一个节点的指针
HashNode(const T& data = T(), Node *next = nullptr)
:_data(data),
_next(next)
{}
};
//默认哈希算法
template <class K>
struct Hashkey{
size_t operator()(const K& key){
return (size_t)key;
}
};
template <>
struct Hashkey<string>{
size_t operator()(const string& str){
size_t ret = 0;
for(char e : str)
{
ret += e;
ret *= 131;
}
return ret;
}
};
//哈希表的结构(哈希桶)
template <class K, class T, class Hash, class KofT>
class HashTable{
typedef HashNode<T> Node;
vector<Node*> _table; //数组存放指向节点的指针
size_t _size = 0;
//将迭代器设为友元类,注意类模版要带模版参数
template <class k, class t, class hash, class kofT>
friend class __Hashiterator;
public:
//迭代器
typedef __Hashiterator<K, T,Hash,KofT> iterator;
iterator begin(){
for(int i=0; i<_table.size(); ++i)
{
if(_table[i] != nullptr)
return iterator(_table[i], this);
}
return end();
}
iterator end(){
return iterator(nullptr, this);
}
//析构函数
~HashTable()
{
for (size_t i = 0; i < _tables.size(); ++i)
{
Node* cur = _tables[i];
while (cur)
{
Node* next = cur->_next;
delete cur;
cur = next;
}
_tables[i] = nullptr;
}
}
//查找、插入、删除
iterator find(const K& key);
pair<iterator, bool> insert(const T& data);
bool erase(const K& key);
size_t size(){
return _size;
}
private:
//__stl_next_prime用于获取下一个大于n的质数作为扩容后的容量
size_t __stl_next_prime(size_t n);
};
2.2 迭代器
//前置声明
template <class K, class T, class Hash, class KofT>
class HashTable;
template <class K, class T, class Hash, class KofT>
class __Hashiterator{
typedef HashNode<T> Node;
typedef HashTable<K,T,Hash,KofT> HT;
typedef __Hashiterator<K,T, Hash, KofT> iterator;
Node *_pnode; //指向数据节点的指针
HT *_pht; //指向哈希表对象的指针
public:
__Hashiterator(Node *pnode, HT *pht)
:_pnode(pnode),
_pht(pht)
{}
public:
T& operator*() const{
return _pnode->_data;
}
T* operator->() const{
return &_pnode->_data;
}
bool operator==(const iterator& it) const{
return it._pnode == _pnode;
}
bool operator!=(const iterator& it) const{
return it._pnode != _pnode;
}
iterator& operator++(){
if(_pnode->_next != nullptr)
{
//在当前桶中迭代
_pnode = _pnode->_next;
}
else
{
//找下一个桶
KofT kot;
Hash hash;
size_t hashi = hash(kot(_pnode->_data)) % _pht->_table.size();
int i = hashi + 1;
for(; i<_pht->_table.size(); ++i)
{
if(_pht->_table[i] != nullptr)
{
_pnode = _pht->_table[i];
break;
}
}
//如果后面没有有数据的桶了
if(i == _pht->_table.size())
_pnode = nullptr;
}
return *this;
}
iterator operator++(int){
iterator it(*this);
++*this;
return it;
}
};
2.3 查找、插入、删除
2.3.1 find
iterator find(const K& key){
if(_table.size() == 0)
return end();
Hash hash;
KofT kot;
size_t hashi = hash(key) % _table.size();
Node *cur = _table[hashi];
while(cur != nullptr)
{
if(kot(cur->_data) == key)
{
return iterator(cur, this);
}
cur = cur->_next;
}
return end();
}
2.3.2 insert && __stl_next_prime
pair<iterator, bool> insert(const T& data){
KofT kot;
Hash hash;
//去重
iterator ret = find(kot(data));
if(ret != end())
return make_pair(ret, false);
//扩容
//当载荷因子为1时进行扩容
if(_size == _table.size())
{
//获取大于_table.size()的下一个质数作为新容量
size_t newsize = __stl_next_prime(_table.size());
//创建新数组
vector<Node*> newtable;
newtable.resize(newsize);
//计算元素在新表中的哈希地址,并将节点移动到新表
for(size_t i=0; i<_table.size(); ++i)
{
Node *cur = _table[i];
Node *next = nullptr; //用于记录cur->_next
while(cur != nullptr)
{
size_t hashi = hash(kot(cur->_data)) % newsize;
next = cur->_next;
//将节点头插到新表的对应桶中
cur->_next = newtable[hashi];
newtable[hashi] = cur;
cur = next;
}
//最后将旧表中的桶置空,防止析构时释放新表中的节点
_table[i] = nullptr;
}
//交换新旧两表
swap(_table, newtable);
}
//插入
size_t hashi = hash(kot(data)) % _table.size();
Node *newnode = new Node(data);
newnode->_next = _table[hashi];
_table[hashi] = newnode;
++_size;
return make_pair(iterator(newnode, this), true);
}
private:
//__stl_next_prime用于获取下一个大于n的质数作为扩容后的容量
inline size_t __stl_next_prime(size_t n)
{
//预置一个质数表,从表中依次取质数作为扩容后的容量
static const int __stl_num_primes = 28;
static const size_t __stl_prime_list[__stl_num_primes] =
{
53, 97, 193, 389, 769,
1543, 3079, 6151, 12289, 24593,
49157, 98317, 196613, 393241, 786433,
1572869, 3145739, 6291469, 12582917, 25165843,
50331653, 100663319, 201326611, 402653189, 805306457,
1610612741, 3221225473, 4294967291
};
for(int i=0; i<__stl_num_primes; ++i)
{
if(__stl_prime_list[i] > n)
{
return __stl_prime_list[i];
}
}
return -1;
}
为什么选择质数作为哈希表容量的大小?
- 选择质数作为哈希表容量的大小,原因是在hash函数中你要用这些质数来做模运算(%)。
- 而分析发现,如果容量选择为非质数,例如选择一个合数(除了1和自身外还有其他因数的数),那么容易出现多个键映射到同一个索引的情况,导致哈希表性能下降。
- 所以这里最后采用了质数做模的除数。质数的选择可以使哈希函数更均匀地分布键值,减少碰撞的概率。
2.3.3 erase
bool erase(const K& key){
//空表删除返回false
if(_table.size() == 0)
return false;
Hash hash;
KofT kot;
size_t hashi = hash(key) % _table.size();
Node *cur = _table[hashi];
Node *prev = nullptr; //记录cur的前驱节点便于删除节点前进行连接
while(cur != nullptr)
{
//找到进行删除
if(key == kot(cur->_data))
{
//如果删除的是头结点
if(cur == _table[hashi])
_table[hashi] = cur->_next;
else
prev->_next = cur->_next;
delete cur;
--_size; //不要忘了修改_size
return true;
}
prev = cur;
cur = cur->_next;
}
//找不到返回false
return false;
}
set和unordered_set的key类型(K)分别有什么要求?
-
set中的key类型:
- 要求支持小于比较(默认less),或者提供小于或大于的比较仿函数(class Compare)
- 小技巧:小于反过来使用就是大于:a<b小于 b<a大于 else等于
-
unordered_set中的key类型:
- 要求支持整型转换,或者提供整型转换仿函数(class Hash)
- 要求支持等于比较,或者提供等于比较的仿函数(class Pred)
提示:模拟实现代码中没有体现unordered_set的等于比较仿函数(class Pred)。
2.4 unordered_set封装
#pragma once
#include "HashTable.hpp"
namespace zty{
template <class K, class Hash = Hashkey<K>>
class unordered_set{
struct SetKofT{
const K& operator()(const K& key){
return key;
}
};
typedef HashNode<K> Node;
typedef HashTable<K, K, Hash, SetKofT> HT;
HT _ht;
public:
typedef typename HT::iterator iterator;
iterator begin(){
return _ht.begin();
}
iterator end(){
return _ht.end();
}
size_t size(){
return _ht.size();
}
pair<iterator, bool> insert(const K& key){
return _ht.insert(key);
}
iterator find(const K& key){
return _ht.find(key);
}
bool erase(const K& key){
return _ht.erase(key);
}
};
}
2.5 unordered_map封装
#pragma once
#include "HashTable.hpp"
namespace zty
{
template <class K, class V, class Hash = Hashkey<K>>
class unordered_map{
struct MapKofT{
const K& operator()(const pair<K,V>& kv){
return kv.first;
}
};
typedef HashTable<K,pair<K,V>,Hash,MapKofT> HT;
HT _ht;
public:
typedef typename HT::iterator iterator;
iterator begin(){
return _ht.begin();
}
iterator end(){
return _ht.end();
}
pair<iterator, bool> insert(const pair<K,V>& kv){
return _ht.insert(kv);
}
//重载operator[]
V& operator[](const K& key){
auto ret = _ht.insert(make_pair(key, V()));
return ret.first->second;
}
iterator find(const K& key){
return _ht.find(key);
}
bool erase(const K& key){
return _ht.erase(key);
}
};
}