目录
前言
在学习了各种基础数据结构之后,我们来学习一种本身具有更直接意义的数据结构类型——堆。堆本身是一种二叉树结构,可以被看做一种完全二叉树的数组对象。接下来我们一起更细致地、更全面地进行堆的学习。
1、二叉树的概念及结构
在进行堆的学习之前,我们首先需要了解二叉树的知识:
1.1、概念
一棵二叉树是节点的一个有限集合,该集合:
1、或者为空
2、由一个 根节点 加上两棵别称为 左子树 和 右子树 的二叉树组成
如上图所示:
1. 二叉树不存在度大于2的节点
2. 二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序树
需要注意的是:对于任意的二叉树都是由以下几种情况复合而成的:
二叉树节点的度: 该节点含有的子树的个数称为该节点的度。
二叉树有一条非常重要的结论:对于任意一棵非空二叉树,如果度为 0 的节点个数为 y ,度为 2 的节点个数为 x ,则有 y = x + 1。
1.2、两种特殊的二叉树
1、满二叉树:一个二叉树,如果每一个层的节点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且节点总数是2^K - 1,则它就是满二叉树。
第 k 层满时,叶子节点个数为 2^(K - 1)。
高度为 h 时,满二叉树的总结点个数为 2^h - 1。
同理:假设满二叉树有 N 个节点,则高度为 log(N + 1)。
2、完全二叉树:完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于高度为h的,有n个节点的二叉树,当且仅当其每一个节点都与高度为h的满二叉树中编号从1至n的节点逐个对应时称之为完全二叉树。 要注意的是满二叉树是一种特殊的完全二叉树。
简单来说,完全二叉树前 h - 1 层是满的,最后一层可以不满,但是必须从左到右是连续的。
假设完全二叉树的高度是 h ,那么完全二叉树的节点个数就是一个范围。
最多:2^0 + 2^1 + 2^2 + …… + 2^(h - 2) + 2^(h - 1) = 2^h - 1
最少:2^0 + 2^1 + 2^2 + …… + 2^(h - 2) + 1 = 2^(h - 1)
2、二叉树的顺序结构及堆的实现
2.1、二叉树的顺序结构
顺序结构存储就是使用 数组 来存储,一般使用 数组 只适合表示 完全二叉树,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。
2.2、堆的概念和结构
堆是一种使用顺序结构的完全二叉树。从数据存储形式上分为 大堆 和 小堆 。、
大堆:树种所有的父节点都大于或等于子节点。
小堆:树种所有的父节点都小于或等于子节点。
由图可以得到 父节点 与 子节点 的下标关系:
leftchild = parent * 2 + 1
rightchild = parent * 2 + 2
parent = (child - 1) / 2 (因为整型会自动取整,所以不需要考虑奇偶)
2.3、堆的实现
2.3.1、结构定义及初始化
因为堆是采用顺序结构定义的,所以需要借助顺序表实现:
typedef int HPDataType;
typedef struct Heap
{
HPDataType* a;
int capacity;
int size;
}HP;
void HeapInit(HP* php)
{
assert(php);
php->a = NULL;
php->size = php->capacity = 0;
}
2.3.2、堆的插入
因为堆在存储数据时,对于数据的顺序有要求,所以我们在插入数据时,需要书写相关的程序来调整数据的顺序。
如图所示,假设我们建立的是一个 大堆 ,那么我们在进行尾插一个 较大的数据 时就会对整个数据结构造成影响,打乱大堆应有的数据存储顺序。所以我们需要对这个数据进行 向上调整 。
void HeapPush(HP* php, HPDataType x)
{
assert(php);
if(php->size == php->capacity)
{
int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newCapacity);
if(tmp == NULL)
{
perror("realloc fail");
exit(-1);
}
php->a = tmp;
php->capacity = newCapacity;
}
php->a[php->size] = x;
php->size++;
//向上调整
AdjustUp(php->a, php->size - 1);
}
向上调整 :
主要思想为,让 子节点 与 父节点 进行大小比较,如果孩子比父亲大,那么就 交换 孩子与父亲,直到父亲大于等于孩子 或 孩子节点下标为零为止。
实现代码如下:
void Swap(HPDataType* p1, HPDataType* p2)
{
HPDataType tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void AdjustUp(HPDataType* a, int child)
{
int parent = (child - 1) / 2;
while(child > 0) //最好不要写 parent >= 0,因为这样写可能会导致循环结束的逻辑不对
{
if(a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
如果我们实现的是小堆,那么只需要在 向上调整函数 里把 “>” 改成 “<” 就可以了。
if(a[child] < a[parent])
2.3.3、堆的删除
想要删除 堆顶元素 ,有两种方案可以实现:
1、直接删除堆顶元素。
2、先交换堆顶元素与堆尾元素,再删除堆尾元素,最后把堆顶元素向下调整到它该在的位置。
如果我们选择方案一,那么在删除堆顶元素后,我们要把堆中的其他元素依次向前挪动一位,时间复杂度为 O(N),比较麻烦,其次,如果直接把堆中的元素依次向前挪动一位,就会打乱堆中数据原有的父子与兄弟关系,因此方案一不可取。
所以我们使用 方案二 来进行堆顶元素的删除。先交换堆顶与堆底的元素,再删除堆底元素,时间复杂度为 O(1)。方便快捷,不过要记得要把堆顶元素 向下调整 。
void HeapPop(HP* php)
{
assert(php);
assert(php->size > 0);
Swap(&php->a[0], &php->a[php->size - 1]);
php->size--;
//向下调整
AdjustDown(php->a, php->size, 0);
}
向下调整:
主要思想为,让 父节点 与 子节点 进行大小比较,如果父亲比 较大的 孩子小,那么就 交换 父亲与较大的孩子,直到父亲大于等于较大的孩子 或 孩子节点下标越界为止。
实现代码如下:
void AdjustDown(HPDataType* a, int n, int parent)
{
int child = parent * 2 + 1;
while(child < n)
{
if(child + 1 < n && a[child + 1] > a[child])
{
child++;
}
if(a[child] > a[parent])
{
Swap(&a[parent], &a[child]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
如果我们实现的是小堆,那么只需要在 向上调整函数 里把 “>” 改成 “<” 就可以了。
if(a[child] < a[parent])
2.3.4、取堆顶数据
HPDataType HeapTop(HP* php)
{
assert(php);
assert(php->size > 0);
return php->a[0];
}
2.3.5、堆的数据个数
int HeapSize(HP* php)
{
assert(php);
return php->size;
}
2.3.6、堆的判空
bool HeapEmpty(HP* php)
{
assert(php);
return php->size == 0;
}
3、堆的应用
3.1、堆的排序
在进行堆排之前,需要满足一个条件:给定数据的数据结构必须是堆。所以我们需要先写一个 建堆算法。
建堆有两种方式,分别为 向上调整建堆 和 向下调整建堆。
向上调整建堆:
这里可以复用上面写过的 向上调整函数 :
void BuildHeap(int* a, int n)
{
for(int i = 1; i < n; i++)
{
AdjustUp(a, i);
}
}
从第二层开始从上层至下层依次向上调整。
一共需要调整 F(h) 次,可以根据公式估算出 F(h) 的值约等于最后一项 2^(h - 1)*(h - 1)。
又因为高度为 h 的二叉树的节点个数 N = 2^h - 1,h = log(N + 1),所以 F(h) 可以写为 F(N) = (N + 1) * (log(N + 1) - 1) / 2,约等于N * logN,所以 向上调整建堆 的时间复杂度为 O(N * logN) 。
向下调整建堆:
这里可以复用上面写过的 向下调整函数 :
void BuildHeap(int* a, int n)
{
for(int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}
}
从倒数第二层开始从下层至上层依次向下调整。
根据计算,向下调整建堆的时间复杂度为 O(N) 。
所以我们选择向下调整建堆。
在选择完建堆方式之后,我们又遇到了一个问题:
如果我们想要 排升序 ,要建大堆还是建小堆呢?
首先考虑建小堆:
如果是建小堆,每次取堆顶数据固定在第一位,再处理其他数据时还需要重新建堆,太过于麻烦。要么就每次取堆顶数据放入新开辟的空间里,再把堆顶数据依次向下调整,这样理论上是可行的,但是却需要新开辟空间,不符合要求,所以排除建小堆。
再来考虑建大堆:
每次把堆顶最大的数与堆底数据进行交换,这样就把堆中最大的数据排到了最后。之后就不再看这最后一个数据,只处理前 N - 1 个数据,把堆顶数据向下调整,再选出堆顶数据作为次大的数与第N - 1 个数进行交换,这样重复操作,最终可以实现升序排列。
由于在堆排序过程中每个数字最多向下调整 log N 次,所以时间复杂度为 O(N * logN) ,再加上之前向下调整建堆的时间复杂度 O(N) ,所以整体堆排序复杂度为 O(N + N * logN)。省略 N,最终堆排序时间复杂度为 O(N * logN)。
完整实现代码如下:
void Swap(int* p1, int* p2)
{
int tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void AdjustDown(int* a, int n, int parent)
{
int child = parent * 2 + 1;
while(child < n)
{
if(child + 1 < n && a[child + 1] > a[child])
{
child++;
}
if(a[child] > a[parent])
//建大堆
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void HeapSort(int* a, int n)
{
for(int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}
//向下调整建大堆
//建好大堆后开始调整
int end = n - 1;
while(end)
{
Swap(&a[0], &a[end]);
AdjustDown(a, end, 0);
end--;
}
}
void TestHeap()
{
int array[] = {27, 15, 19, 18, 28, 34, 65, 49, 25, 37};
HeapSort(array, sizeof(array) / sizeof(array[0]));
for(int i = 0; i < sizeof(array) / sizeof(array[0]); i++)
{
printf("%d ", array[i]);
}
printf("\n");
}
int main()
{
TestHeap();
}
3.2、Top-K 问题
求数据集合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。
比如从N个数中找最大的前K个数字,我们能想到的方法有两种:
1、建立一个N个数的小堆,Pop K 次,依次取堆顶数据。
2、建立一个K个数的小堆,依次遍历数据,数据比堆顶的数据大就替换堆顶,再把堆顶向 下调整,最后小堆中就是最大的K个数据。
当N比较小时,我们使用方案一是可以的,但是如果N太大时呢?比如N = 100亿,这个时候这100亿个数据就需要占据40G内存,而一般的电脑的内存总大小都不够40G,所以方案一是不可行的。
所以我们需要使用方案二:
当N太大时,我们把数据都放在磁盘中,只取前 K 个数建小堆。
那么我们为什么一定要建小堆呢?
这是因为我们的目的是选出最大的K个数,如果我们建立的是大堆,而这N个数中最大的那个数字刚好排在前K个,就会导致最大的那个数据直接被排在了堆顶,这样这个最大的数字就把后N - K 个数字都挡在了堆外,无法进堆。所以我们一定要建小堆。
前K个数的小堆建好之后,依次遍历数据,数据比堆顶的数据大就替换堆顶,再把堆顶向下调整,最后小堆中就是最大的K个数据。
计算一下时间复杂度:
因为我们建立了一个K个数据的小堆,这部分操作的时间复杂度为 O(K)。
遍历所有数据的时间复杂度为 O(N - K)。
如果所有的数据都要进堆,并且向下调整,那么时间复杂度为O((N - K) * logK)。
所以总体时间复杂度为O(K + (N - K) * logK),省略K,最终时间复杂度为 O(N * logK) 。
空间复杂度为 O(K) 。
接下来把数据存放在磁盘当中进行举例验证:
#include <time.h>
#include <stdio.h>
#include <stdlib.h>
void Swap(int* p1, int* p2)
{
int tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void AdjustDown(int* a, int n, int parent)
{
int child = parent * 2 + 1;
while(child < n)
{
if(child + 1 < n && a[child + 1] > a[child])
{
child++;
}
if(a[child] < a[parent])
//建小堆
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void TestHeap5()
{
// 造数据
int n, k;
printf("请输入n和k:>");
scanf("%d%d", &n, &k);
srand(time(0));
FILE* fin = fopen("data.txt", "w");
if (fin == NULL)
{
perror("fopen fail");
return;
}
int randK = k;
for (size_t i = 0; i < n; ++i)
{
int val = rand() % 100000;
fprintf(fin, "%d\n", val);
}
fclose(fin);
/
// 找topk
FILE* fout = fopen("data.txt", "r");
if (fout == NULL)
{
perror("fopen fail");
return;
}
//int minHeap[5];
int* minHeap = malloc(sizeof(int)*k);
if (minHeap == NULL)
{
perror("malloc fail");
return;
}
for (int i = 0; i < k; ++i)
{
fscanf(fout, "%d", &minHeap[i]);
}
// 建小堆
for (int i = (k - 1 - 1) / 2; i >= 0; --i)
{
AdjustDown(minHeap, k, i);
}
int val = 0;
while (fscanf(fout, "%d", &val) != EOF)
{
if (val > minHeap[0])
{
minHeap[0] = val;
AdjustDown(minHeap, k, 0);
}
}
for (int i = 0; i < k; ++i)
{
printf("%d ", minHeap[i]);
}
printf("\n");
fclose(fout);
}
int main()
{
TestHeap5();
return 0;
}
以上就是堆相关基础知识的全部内容,如果有不妥的地方欢迎大佬指正,谢谢支持!