数据结构与算法：哈希表

最新推荐文章于 2024-07-20 11:22:21 发布

成分不含牛奶

最新推荐文章于 2024-07-20 11:22:21 发布

阅读量859

点赞数 21

分类专栏：数据结构与算法文章标签：散列表哈希算法数据结构

本文链接：https://blog.csdn.net/weixin_73234157/article/details/137475360

版权

数据结构与算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.哈希表和哈希

1.1.知识引入

哈希表（Hash Table）是一种基于哈希技术实现的数据结构，它通过将键映射到存储位置来实现高效的数据访问。哈希表通常由一个数组和一个哈希函数组成。当需要插入、查找或删除数据时，通过哈希函数计算键的哈希值，并将该值作为索引在数组中查找或操作对应的数据。

哈希（Hash）是一种将数据映射到固定大小的唯一值的技术。

哈希的本质就是一种映射关系！哈希函数是实现哈希的方式！

例如：

我们可以通过取模操作将15映射到5这个数字，
我们也可以通过字符对应的ASCII值相加，将hello映射到数字532

只要实现了映射关系这样子就能称为 “哈希” ，而这种映射的实现叫做哈希函数，是使得不同的输入数据产生不同的哈希值，同时尽量减少不同输入数据产生相同哈希值的概率。

这里值得注意的是：

我们无法避免哈希值产生冲突，也就是不同的key可能对应着一样的哈希值，但是我们清楚如果过分的出现哈希值冲突，会影响哈希表的作用
我们能做到的只是优化哈希函数来尽量减少哈希冲突

1.2.为什么需要哈希表呢？

首先对于大部分的数据结构，每一次我们查找时总是无法避免遍历整个结构，这样子的效率总是会有一点点低下的，因此哈希表这个数据结构就诞生了，它的O(1)时间复杂度，高性能，可以实现多样的结构，提高实际开发的效率

高效的查找操作：通过哈希函数将键映射到数组中的位置，可以快速定位到对应的值，时间复杂度为O(1)。相比于其他数据结构如数组或链表，哈希表的查找速度更快。

快速的插入和删除操作：同样通过哈希函数定位到位置后，可以直接插入或删除对应的值，时间复杂度也是O(1)。这使得哈希表在需要频繁插入和删除元素的场景下非常高效。

空间利用率高：哈希表使用数组来存储数据，相比于其他数据结构如树，它不需要额外的指针来连接节点，因此空间利用率更高。

适用于大规模数据：哈希表在处理大规模数据时仍然能够保持较高的性能。通过合理选择哈希函数和调整数组大小，可以减少冲突的概率，提高哈希表的效率。

并且它通过将输入数据（也称为键）通过哈希函数转换成一个固定长度的哈希值（也称为散列值），并将该哈希值与存储空间进行关联。

2.简易的哈希表

2.1.哈希表的基础结构

哈希表的简易原理：

哈希表分为闭散列和开散列（哈希桶）两种结构，闭散列就是一段连续的有限空间
哈希表内对于元素位置的判断为 “空位置” “删除位置” “存在位置”
哈希表需要存在一定数量的空位置，当我们访问到空时就可以退出，当我们删除了存在的数据时，需要设置该位置为删除，如果设置为空，就会导致查找到部分就退出了
空的位置越多哈希表的效率越高，但是随之空间浪费越大，空的位置越少，哈希表的效率越低，越接近于完全遍历的数据结构，失去了哈希表的优势

那么我们就抽象出来哈希表的简易结构！

代码实现结构如下：

// 枚举类型实现哈希表节点的三种状态
enum STATUS
{
	EMPTY,
	EXIST,
	DELETE
};

template<class K, class V>
// 定义一个哈希个体的结构体
struct HashData
{
	pair<K, V> _kv;
	STATUS _status = EMPTY;
};

template<class K, class V>

class HashTable
{
public:
    // 定义默认空间
	HashTable() { _table.resize(10); }

	// 增
	bool Insert(const pair<K, V>& kv) 
    {
        // 具体实现
    }
	// 删
	bool Erase(const K& key) 
    {
        // 具体实现
    }
	// 查
	HashData<K, V>* Find(const K& key)
    {
        // 具体实现
    }

private:
    // 用数组这个数据结构来存放若干个哈希节点结构体
    // 数组实现的哈希表
	vector<HashData<K, V>> _table;
	// 节点数
	size_t _num = 0;
};

2.2.如何实现基础的哈希表

这一部分我们主要是对代码进行剖析，注重理解，摸清原理，临摹一份哈希表，从增删查开始！！

2.2.1.增

基本的增加数据的实现

bool Insert(const pair<K, V>& kv)
{
    // 哈希函数
	size_t Hash_i = kv.first % _table.size();
	// 不为空向后走 
	while (_table[Hash_i]._status == EXIST)
	{
		Hash_i++;
		// 超过capacity就取模回来
		Hash_i %= _table.size();
	}
	// 找到 空 或者 删除 位置可以插入
	_table[Hash_i]._kv = kv;
	_table[Hash_i]._status = EXIST;

	return true;
}

这一段代码中：

哈希函数的实现是通过传入的pair值的key对总的size取模，来获得位置，整体逻辑就是如果一个位置存在数据，那么我们就不能插入，需要向后走，直到找到空位置，退出循环进行插入，并返回true
当我们不断地向后遍历，发现等于数组的长度时，也就是Hash_i = 10时，这时从0下标开始重新遍历

那么简易的原理就很容易接受了，但是我们发现两个问题

如果加入大量的数据，这个大小显然是不够的，所以需要扩容
缺少了返回false的情况，这里需要引入查找这个模块，我们后面解决

对于问题一，我们首先引入一个存储哈希key个数的变量

我们在上面讲过我们需要控制哈希表中 “空” 位置的数量，一般来说我们通过负载因子来实现，随着数据的插入，num的就会增加，随之空位置数目就减少，负载因子增加，所以哈希表会设定一个负载因子的最大值，当超过这个值时，哈希表会进行扩容！！！

完整的代码如下：

bool Insert(const pair<K, V>& kv)
{
    // 找不到就退出
	if (Find(key) != nullptr)
		return false;

    // double load_fator = (double)_num / (double)_table.size();

	// 扩容，当负载因子lf超过0.7时 进行扩容
	if (_num * 10 / _table.size() == 7)
	{
		HashTable<K, V> newHT;
        // 扩容两倍
		newHT._table.resize(_table.size() * 2);

		// 遍历旧的哈希表 
		// 因为扩容后，负载因子不会超过0.7 直接进入插入操作
		for (size_t i = 0; i < _table.size(); i++)
		{
            // 将旧表的数据插入新表中
			if (_table[i]._status == EXIST)
				newHT.Insert(_table[i]._kv);
		}

		// 将新表覆盖旧表
		_table.swap(newHT._table);
	}

	size_t Hash_i = kv.first % _table.size();
	// 不为空向后走 
	while (_table[Hash_i]._status == EXIST)
	{
		Hash_i++;
		// 超过capacity就取模回来
		Hash_i %= _table.size();
	}
	// 找到 空 或者 删除 位置可以插入
	_table[Hash_i]._kv = kv;
	_table[Hash_i]._status = EXIST;
	_num++;

	return true;

}

代码逻辑：

首先我们通过Find方法来判断有没有重复的键（key），因为这里对应的是unorder_set不允许重复的键，如果找不到这个key就进行插入
当我们需要扩容时，我们通过这个负载因子进行判断，如果负载过大为了哈希表的效率，我们需要扩容，当然我们可以按照我们插入的逻辑来实现这个扩容！！！可是我们会发现原本的13%10=3，现在13%20=13，也就是插入的位置发生变化。那么我们就需要重新对这个哈希表进行调整，所以这里我们通过新增一个哈希表，间接的将数据插入到新表中，再通过交换指针来实现表的替换（本质上是代码的复用！！！）

到了这里哈希表的“增”就基本大功告成了!!!

2.2.2.删

bool Erase(const K& key)
{
	if (Find(key) == nullptr)
		return false;

	// 注意这里是 伪删除 （我们并没有将对应数据完全删去）
	HashData<K, V>* del = Find(key);
	del->_status = DELETE;
	_num--;
	return true;
}

没什么好说的就是在结构体数组（哈希表）找对应key结构体的地址，然后删除。值得注意的是，这里的删除我们只是修改了“状态”和减少了“key”的个数，这个位置上的数据并没有删去，再结合“增”中的逻辑：不为空就可以插入，那么这里的删除只是为了将状态从存在转为删除，是一种伪删除，目的是通过插入来实现覆盖式的插入。

2.2.3.查

查找我们需要注意：

在哪里查找
要找到什么

首先我们知道查找一个数据存不存在，肯定是访问一个结构体对象的状态是否为EXIST，但是上面我们再删除中讲了这个删除是个伪删除，也就是当我们删除了key=3这个结构体，在这个结构体数组中还会存在key=3吗？答案是会的这个结构体为 DELETE，但是key=3，所以我们需要在删除和存在中查找。

这里也体现了哈希表的特殊之处，我们之前回想一下，是不是会疑惑为什么哈希表不只设置“存在”和“空”两种状态，这样子不是更加简洁吗？首先哈希表在遍历时，遇到空就退出，如果只有“空”和“存在”

当我们删除节点43后，会发现当遍历到33时发现下一个节点为空（因为只有“空”和“存在”），那么就会退出。具体一点当我们查找key=53时，Hash_i=3，也就是从下标为3开始判断，最终从43处退出，并且结果是找不到。

当我们知道了需要在非空中找key时，我们继续思考我们要找什么，有人可能会说不就是找key等于kv,first的情况么？

// 查
HashData<K, V>* Find(const K& key)
{
	size_t Hash_i = key % _table.size();

	// 为空时退出查找
	while (_table[Hash_i]._status != EMPTY)
	{
		if (_table[Hash_i]._kv.first == key)
			return &_table[Hash_i];
		Hash_i++;
	}
	return nullptr;
}

我们来看一下这个样例，

这时我们可能还是有点不太理解，结合一下我们在删除模块对删除定性是一个“伪删除”，我们如醍醐灌顶般发现其实这个key=3还在这个哈希表中等待被人覆盖，如果插入的是（3,3）那么此时就会发生冲突（默认不允许同名的key）j，因为没有完全删除。当我们先插入（33,33）时，通过哈希函数已经覆盖了key=3所在的位置，所以后续可以正常插入！！！

所以我们需要优化一下这个函数，也就是回到了找什么这个问题！不能只找key=kv.first这个节点，我们还需要判断这个key对应的区域不为删除！

// 查
HashData<K, V>* Find(const K& key)
{
	size_t Hash_i = key % _table.size();

	// 为空时退出查找
	while (_table[Hash_i]._status != EMPTY)
	{
		if (_table[Hash_i]._kv.first == key && _table[Hash_i]._status != DELETE)
			return &_table[Hash_i];
		Hash_i++;
	}
	return nullptr;
}

当然这里还是有点抽象！

主要是这里查找的逻辑需要满足增和删这两种情况，因为DELETE状态只是为了实现哈希表特性专门在EXIST和EMPTY中间的临时状态，仅仅为了哈希表为空时退出的保护！！！

2.3.泛型编程下的哈希表

我们回到我们的哈希函数

这里我们通过kv.first来对size取模，这种思路只能符合整型类型的key，但是实际上我们哈希表是一种高效存储的数据结构，就避免不了存储string类型，甚至是自定义类型，这些类型可以取模吗？？？当然是不行的，这也就是哈希函数存在的意义了，实现不同类型的哈希映射，来实现不同的哈希表！！！

因此借助仿函数和全特化语法来实现不同的类型进入不同的路径，实现不同的哈希关系。

// 枚举类型实现哈希表节点的三种状态
enum STATUS
{
	EMPTY,
	EXIST,
	DELETE
};

template<class K>
struct HashFunc
{
    size_t operator()(const K& key)
    {
        return (size_t)key;
    }
    // 也可以通过函数重载来实现，不过需要设置多种类型
};
// 特化
template<>
struct HashFunc<string>
{
    size_t operator()(const string& key)
    {
        size_t hash = 0;
        for(auto e : key)
        {
            hash *= 31;
            hash += e;    
        }
        return hash;
    }
};


template<class K, class V>
struct HashData
{
	pair<K, V> _kv;
	STATUS _status = EMPTY;
};

template<class K, class V, class Hash = HashFunc<K>>

class HashTable
{
public:
    // 定义默认空间
	HashTable() { _table.resize(10); }

	// 增
	bool Insert(const pair<K, V>& kv) 
    {
        // 具体实现
    }
	// 删
	bool Erase(const K& key) 
    {
        // 具体实现
    }
	// 查
	HashData<K, V>* Find(const K& key)
    {
        // 具体实现
    }

private:
    // 用数组这个数据结构来存放若干个哈希节点结构体
    // 数组实现的哈希表
	vector<HashData<K, V>> _table;
	// 节点数
	size_t _num = 0;
};

这样子我们就完成了泛型编程下哈希表的结构了！！！

完整的代码


enum STATUS
{
	EMPTY,
	EXIST,
	// 哈希的空 和 删除 不等价，删除只是为了 不为空 为了哈希的合理性
	DELETE
};

template<class K>
struct HashFunc
{
	size_t operator()(const size_t& key)
	{
		return (size_t)key;
	}
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto e : key)
		{
            // 对哈希映射关系的实现
            // 防止"abc"和"acb"的哈希关系重复
			hash *= 31;
			hash += e;
		}
		return hash;
	}
};

template<class K, class V>
struct HashData
{
	pair<K, V> _kv;
	STATUS _status = EMPTY;
};

template<class K, class V, class HashFunc = HashFunc<K>>
class HashTable
{
public:
	HashTable()
	{
		_table.resize(10);
	}

	// 增
	bool Insert(const pair<K, V>& kv)
	{
		if (Find(kv.first) != nullptr)
			return false;

		// 扩容，当负载因子lf超过0.7时 进行扩容
		if (_num * 10 / _table.size() == 7)
		{
			size_t newSize = _table.size() * 2;
			HashTable<K, V> newHT;
			newHT._table.resize(newSize);

			// 遍历旧的哈希表 
			// 因为扩容后，负载因子不会超过0.7 直接进入插入操作
			for (size_t i = 0; i < _table.size(); i++)
			{
				if (_table[i]._status == EXIST)
					newHT.Insert(_table[i]._kv);
			}

			// 将新表覆盖旧表
			_table.swap(newHT._table);
		}
        // 需要设置仿函数对key进行操作
		HashFunc hs_func;
		size_t Hash_i = hs_func(kv.first) % _table.size();
		// 不为空向后走 
		while (_table[Hash_i]._status == EXIST)
		{
			Hash_i++;
			// 超过capacity就取模回来
			Hash_i %= _table.size();
		}
		// 找到 空 或者 删除 位置可以插入
		_table[Hash_i]._kv = kv;
		_table[Hash_i]._status = EXIST;
		_num++;

		return true;
	}
	// 删
	bool Erase(const K& key)
	{
		if (Find(key) == nullptr)
			return false;

		// 注意这里是 伪删除 （我们并没有将对应数据完全删去）
		HashData<K, V>* del = Find(key);
		del->_status = DELETE;
		_num--;
		return true;
	}
	// 查
	HashData<K, V>* Find(const K& key)
	{
        // 需要设置仿函数对key进行操作
		HashFunc hs_func;
		size_t Hash_i = hs_func(key) % _table.size();

		// 为空时退出查找 存在和删除 中寻找
		while (_table[Hash_i]._status != EMPTY)
		{
			if (_table[Hash_i]._kv.first == key && _table[Hash_i]._status != DELETE) { return &_table[Hash_i]; }

			Hash_i++;
		}
		return nullptr;
	}



private:
	vector<HashData<K, V>> _table;
	// 哈希表中key的个数
	size_t _num = 0;
};

因为我们设置仿函数，所以需要对key进行操作，不同的类型，使用对应的不同的哈希函数。

另外对于哈希映射，我们如果只是单纯的进行ASCII值相加会出现“abc”和“acb”的哈希值一致，所以我们常常需要针对不同的类型，进行不同的算法设计，来减少哈希冲突的发生。

详细见：经典字符串hash函数介绍及性能比较_hash的性能比较-CSDN博客

那么我们就可以对这个哈希表的学习进行“完结撒花”了！！！

3.简易的哈希桶

我们发现哈希表的这个结构效率还不是很高，毕竟是通过数组来实现的，也就是一个闭散列，而实际上一般哈希表的实现是通过哈希桶这个结构的，也就是开散列，那什么是哈希桶呢？

接下来我们就要开始哈希桶的篇章了。

首先我们提出一个问题：在哈希桶中我们分别插入1,91,3,33,43,53,5,7这几个数据后，哈希桶的逻辑结构是怎么样的？

哈希桶的本质就是实现一个存储桶的首个节点的地址的指针数组，桶的本质就是一个单向链表。当我们对这个哈希桶进行访问的本质就是：指针数组对应下标是否为空，不为空就是访问桶内的数据，为空就是向后寻找。

实现代码如下，因为主要的逻辑就是增加一个链表结构，并没有太大的难度，并且基本的结构在简易哈希表部分就已经讲的很明白了，但是不同的是这里不再需要像哈希表那样判断3种状态，这一块我们在下一篇博客中再次讲解！！！

// 仿函数！！！
struct HashFunc
{
	size_t operator()(const size_t& key)
	{
		return (size_t)key;
	}
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}
		return hash;
	}
	// 也可以通过函数重载来实现，不过需要设置多种类型
};

template<class K, class V>
struct HashNode
{
	HashNode* _next;
	pair<K, V> _kv;

	HashNode(const pair<K, V>& kv)
		:_kv(kv)
		, _next(nullptr)
	{}

};

template<class K, class V, class Hash = HashFunc>

class HashTable
{
	typedef HashNode<K, V> HashNode;
public:
	// 定义默认空间
	HashTable() { _table.resize(10); }
	// 析构，释放空间
    ~HashTable()
	{
		for (size_t i = 0; i < _table.size(); i++)
		{
			HashNode* current = _table[i];
			HashNode* next = nullptr;
			while (current != nullptr)
			{
				next = current->_next;
				delete current;
				current = next;
			}
			_table[i] = nullptr;
		}
	}
	// 增
	bool Insert(const pair<K, V>& kv)
	{
		Hash hs_func;
		// 当负载因子为1时才进行扩容
		if (_num == _table.size())
		{
			vector<HashNode*> newT;
			newT.resize(_table.size() * 2);

			for (size_t i = 0; i < _table.size(); i++)
			{
				HashNode* current = _table[i];
				HashNode* next = nullptr;

				// 将旧表的内容插入进新表
				while (current != nullptr)
				{
					next = current->_next;
					// 头插逻辑
					size_t Hash_i = hs_func(current->_kv.first) % newT.size();
					current->_next = newT[Hash_i];
					current = next;
				}
				_table[i] = nullptr;
			}

			_table.swap(newT);
		}

		size_t Hash_i = hs_func(kv.first) % _table.size();
		HashNode* newNode = new HashNode(kv);

		// 头插（针对哈希桶）
		// 新节点的下一个节点就是原本的头节点
		newNode->_next = _table[Hash_i];
		_table[Hash_i] = newNode;
		_num++;

		return true;
	}
	// 删
	bool Erase(const K& key)
	{
		Hash hs_func;
		size_t Hash_i = hs_func(key) % _table.size();
		HashNode* current = _table[Hash_i];
		HashNode* prev = nullptr;
		while (current != nullptr)
		{
			if (current->_kv.first == key)
			{
				if (prev == nullptr)
				{
					_table[Hash_i] = current->_next;
				}
				else
				{
					prev->_next = current->_next;
				}

				delete current;

				return true;
			}
			prev = current;
			current = current->_next;
		}

		return false;
	}
	// 查
	HashNode* Find(const K& key)
	{
		Hash hs_func;
		size_t Hash_i = hs_func(key) % _table.size();
		HashNode* current = _table[Hash_i];

		while (current != nullptr)
		{
			if (current->_kv.first == key)
				return current;

			current = current->_next;
		}

		return nullptr;
	}

private:
	// 指针数组存储哈希桶的首元素地址
	vector<HashNode*> _table;
	// 节点数
	size_t _num = 0;
};

注意这里的插入部分，实现的是头插！也就是不断地修改桶的头结点指针，再进行连接。当我们需要扩容时，也就是负载因子过大时，需要将数据分散。

注意这里只是粗略显示如何进行扩容，并不是实际的场景！！！

另外我们需要知道，对于内置类型vector会在堆区开辟空间，我们需要释放它的资源，防止出现内存泄漏问题。那么到了这里哈希桶我们也实现了！！！

成分不含牛奶

关注

21
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
数据结构与算法：哈希表

值得注意的是，这里的删除我们只是修改了“状态”和减少了“key”的个数，这个位置上的数据并没有删去，再结合“增”中的逻辑：不为空就可以插入，那么这里的删除只是为了将状态从存在转为删除，是一种伪删除，目的是通过插入来实现覆盖式的插入。我们在上面讲过我们需要控制哈希表中 “空” 位置的数量，一般来说我们通过负载因子来实现，随着数据的插入，num的就会增加，随之空位置数目就减少，负载因子增加，所以哈希表会设定一个负载因子的最大值，当超过这个值时，哈希表会进行扩容！那么到了这里哈希桶我们也实现了！
复制链接

扫一扫