【数据结构】堆——一种特殊的二叉树结构

世间是否此山最高

于 2022-12-25 19:14:01 发布

阅读量452

点赞数 7

分类专栏：数据结构文章标签：数据结构算法 c语言

本文链接：https://blog.csdn.net/weixin_74078718/article/details/128430557

版权

数据结构专栏收录该内容

13 篇文章 0 订阅

订阅专栏

前言

在学习了各种基础数据结构之后，我们来学习一种本身具有更直接意义的数据结构类型——堆。堆本身是一种二叉树结构，可以被看做一种完全二叉树的数组对象。接下来我们一起更细致地、更全面地进行堆的学习。

1、二叉树的概念及结构

在进行堆的学习之前，我们首先需要了解二叉树的知识：

1.1、概念

一棵二叉树是节点的一个有限集合，该集合：

1、或者为空

2、由一个根节点加上两棵别称为左子树和右子树的二叉树组成

如上图所示：

1. 二叉树不存在度大于2的节点
2. 二叉树的子树有左右之分，次序不能颠倒，因此二叉树是有序树

需要注意的是：对于任意的二叉树都是由以下几种情况复合而成的：

二叉树节点的度：该节点含有的子树的个数称为该节点的度。

二叉树有一条非常重要的结论：对于任意一棵非空二叉树，如果度为 0 的节点个数为 y ，度为 2 的节点个数为 x ，则有 y = x + 1。

1.2、两种特殊的二叉树

1、满二叉树：一个二叉树，如果每一个层的节点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为K，且节点总数是2^K - 1，则它就是满二叉树。

第 k 层满时，叶子节点个数为 2^(K - 1)。

高度为 h 时，满二叉树的总结点个数为 2^h - 1。

同理：假设满二叉树有 N 个节点，则高度为 log（N + 1）。

2、完全二叉树：完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的。对于高度为h的，有n个节点的二叉树，当且仅当其每一个节点都与高度为h的满二叉树中编号从1至n的节点逐个对应时称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉树。

简单来说，完全二叉树前 h - 1 层是满的，最后一层可以不满，但是必须从左到右是连续的。

假设完全二叉树的高度是 h ，那么完全二叉树的节点个数就是一个范围。

最多：2^0 + 2^1 + 2^2 + …… + 2^(h - 2) + 2^(h - 1) = 2^h - 1

最少：2^0 + 2^1 + 2^2 + …… + 2^(h - 2) + 1 = 2^(h - 1)

2、二叉树的顺序结构及堆的实现

2.1、二叉树的顺序结构

顺序结构存储就是使用数组来存储，一般使用数组只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储。二叉树顺序存储在物理上是一个数组，在逻辑上是一颗二叉树。

2.2、堆的概念和结构

堆是一种使用顺序结构的完全二叉树。从数据存储形式上分为大堆和小堆。、

大堆：树种所有的父节点都大于或等于子节点。

小堆：树种所有的父节点都小于或等于子节点。

由图可以得到父节点与子节点的下标关系：

leftchild = parent * 2 + 1

rightchild = parent * 2 + 2

parent = (child - 1) / 2 （因为整型会自动取整，所以不需要考虑奇偶）

2.3、堆的实现

2.3.1、结构定义及初始化

因为堆是采用顺序结构定义的，所以需要借助顺序表实现：

typedef int HPDataType;
typedef struct Heap
{
    HPDataType* a;
    int capacity;
    int size;
}HP;

void HeapInit(HP* php)
{
    assert(php);
    php->a = NULL;
    php->size = php->capacity = 0;
}

2.3.2、堆的插入

因为堆在存储数据时，对于数据的顺序有要求，所以我们在插入数据时，需要书写相关的程序来调整数据的顺序。

如图所示，假设我们建立的是一个大堆，那么我们在进行尾插一个较大的数据时就会对整个数据结构造成影响，打乱大堆应有的数据存储顺序。所以我们需要对这个数据进行向上调整。

void HeapPush(HP* php, HPDataType x)
{
    assert(php);
    
    if(php->size == php->capacity)
    {
        int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
        HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newCapacity);
        if(tmp == NULL)
        {
            perror("realloc fail");
            exit(-1);
        }
        php->a = tmp;
        php->capacity = newCapacity;
    }

    php->a[php->size] = x;
    php->size++;
    //向上调整
    AdjustUp(php->a, php->size - 1);
}

向上调整：

主要思想为，让子节点与父节点进行大小比较，如果孩子比父亲大，那么就交换孩子与父亲，直到父亲大于等于孩子或孩子节点下标为零为止。

实现代码如下：

void Swap(HPDataType* p1, HPDataType* p2)
{
    HPDataType tmp = *p1;
    *p1 = *p2;
    *p2 = tmp;
}

void AdjustUp(HPDataType* a, int child)
{
    int parent = (child - 1) / 2;
    while(child > 0) //最好不要写 parent >= 0，因为这样写可能会导致循环结束的逻辑不对
    {
        if(a[child] > a[parent])
        {
            Swap(&a[child], &a[parent]);
            child = parent;
            parent = (child - 1) / 2;
        }
        else
        {
            break;    
        }
    }
}

如果我们实现的是小堆，那么只需要在向上调整函数里把 “>” 改成 “<” 就可以了。

if(a[child] < a[parent])

2.3.3、堆的删除

想要删除堆顶元素，有两种方案可以实现：

1、直接删除堆顶元素。

2、先交换堆顶元素与堆尾元素，再删除堆尾元素，最后把堆顶元素向下调整到它该在的位置。

如果我们选择方案一，那么在删除堆顶元素后，我们要把堆中的其他元素依次向前挪动一位，时间复杂度为 O(N)，比较麻烦，其次，如果直接把堆中的元素依次向前挪动一位，就会打乱堆中数据原有的父子与兄弟关系，因此方案一不可取。

所以我们使用 方案二 来进行堆顶元素的删除。先交换堆顶与堆底的元素，再删除堆底元素，时间复杂度为 O(1)。方便快捷，不过要记得要把堆顶元素向下调整。

void HeapPop(HP* php)
{
    assert(php);
    assert(php->size > 0);
    
    Swap(&php->a[0], &php->a[php->size - 1]);
    php->size--;
    //向下调整
    AdjustDown(php->a, php->size, 0);
}

向下调整：

主要思想为，让父节点与子节点进行大小比较，如果父亲比较大的孩子小，那么就交换父亲与较大的孩子，直到父亲大于等于较大的孩子或孩子节点下标越界为止。

实现代码如下：

void AdjustDown(HPDataType* a, int n, int parent)
{
    int child = parent * 2 + 1;
    while(child < n)
    {
         if(child + 1 < n && a[child + 1] > a[child])
        {
            child++;
        }
        if(a[child] > a[parent])
        {
            Swap(&a[parent], &a[child]);
            parent = child;
            child = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}

如果我们实现的是小堆，那么只需要在向上调整函数里把 “>” 改成 “<” 就可以了。

 if(a[child] < a[parent])

2.3.4、取堆顶数据

HPDataType HeapTop(HP* php)
{
    assert(php);
    assert(php->size > 0);
    
    return php->a[0];
}

2.3.5、堆的数据个数

int HeapSize(HP* php)
{
    assert(php);

    return php->size;
}

2.3.6、堆的判空

bool HeapEmpty(HP* php)
{
    assert(php);

    return php->size == 0;
}

3、堆的应用

3.1、堆的排序

在进行堆排之前，需要满足一个条件：给定数据的数据结构必须是堆。所以我们需要先写一个建堆算法。

建堆有两种方式，分别为 向上调整建堆 和 向下调整建堆。

向上调整建堆：

这里可以复用上面写过的向上调整函数：

void BuildHeap(int* a, int n)
{
    for(int i = 1; i < n; i++)
    {
        AdjustUp(a, i);
    }
}

从第二层开始从上层至下层依次向上调整。

一共需要调整 F(h) 次，可以根据公式估算出 F(h) 的值约等于最后一项 2^(h - 1)*(h - 1)。

又因为高度为 h 的二叉树的节点个数 N = 2^h - 1，h = log(N + 1)，所以 F(h) 可以写为 F(N) = (N + 1) * (log(N + 1) - 1) / 2，约等于N * logN，所以 向上调整建堆 的时间复杂度为 O(N * logN) 。

向下调整建堆：

这里可以复用上面写过的向下调整函数：

void BuildHeap(int* a, int n)
{
    for(int i = (n - 1 - 1) / 2; i >= 0; i--)
    {
        AdjustDown(a, n, i);
    }
}

从倒数第二层开始从下层至上层依次向下调整。

根据计算，向下调整建堆的时间复杂度为 O(N) 。

所以我们选择向下调整建堆。

在选择完建堆方式之后，我们又遇到了一个问题：

如果我们想要排升序，要建大堆还是建小堆呢？

首先考虑建小堆：

如果是建小堆，每次取堆顶数据固定在第一位，再处理其他数据时还需要重新建堆，太过于麻烦。要么就每次取堆顶数据放入新开辟的空间里，再把堆顶数据依次向下调整，这样理论上是可行的，但是却需要新开辟空间，不符合要求，所以排除建小堆。

再来考虑建大堆：

每次把堆顶最大的数与堆底数据进行交换，这样就把堆中最大的数据排到了最后。之后就不再看这最后一个数据，只处理前 N - 1 个数据，把堆顶数据向下调整，再选出堆顶数据作为次大的数与第N - 1 个数进行交换，这样重复操作，最终可以实现升序排列。

由于在堆排序过程中每个数字最多向下调整 log N 次，所以时间复杂度为 O(N * logN) ，再加上之前向下调整建堆的时间复杂度 O(N) ，所以整体堆排序复杂度为 O(N + N * logN)。省略 N，最终堆排序时间复杂度为 O(N * logN)。

完整实现代码如下：

void Swap(int* p1, int* p2)
{
    int tmp = *p1;
    *p1 = *p2;
    *p2 = tmp;
}

void AdjustDown(int* a, int n, int parent)
{
    int child = parent * 2 + 1;
    while(child < n)
    {
        if(child + 1 < n && a[child + 1] > a[child])
        {
            child++;
        }
        if(a[child] > a[parent])
        //建大堆
        {
            Swap(&a[child], &a[parent]);
            parent = child;
            child = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}

void HeapSort(int* a, int n)
{
    for(int i = (n - 1 - 1) / 2; i >= 0; i--)
    {
        AdjustDown(a, n, i);
    } 
    //向下调整建大堆
    
    //建好大堆后开始调整
    int end = n - 1;
    while(end)
    {
        Swap(&a[0], &a[end]);
        AdjustDown(a, end, 0);
        end--;
    }    
}

void TestHeap()
{
    int array[] = {27, 15, 19, 18, 28, 34, 65, 49, 25, 37};
    HeapSort(array, sizeof(array) / sizeof(array[0]));
    for(int i = 0; i < sizeof(array) / sizeof(array[0]); i++)
    {
        printf("%d ", array[i]);
    }
    printf("\n");
}

int main()
{
    TestHeap();
}

3.2、Top-K 问题

求数据集合中前K个最大的元素或者最小的元素，一般情况下数据量都比较大。

对于Top-K问题，能想到的最简单直接的方式就是排序，但是：如果数据量非常大，排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

比如从N个数中找最大的前K个数字，我们能想到的方法有两种：

1、建立一个N个数的小堆，Pop K 次，依次取堆顶数据。

2、建立一个K个数的小堆，依次遍历数据，数据比堆顶的数据大就替换堆顶，再把堆顶向下调整，最后小堆中就是最大的K个数据。

当N比较小时，我们使用方案一是可以的，但是如果N太大时呢？比如N = 100亿，这个时候这100亿个数据就需要占据40G内存，而一般的电脑的内存总大小都不够40G，所以方案一是不可行的。

所以我们需要使用方案二：

当N太大时，我们把数据都放在磁盘中，只取前 K 个数建小堆。

那么我们为什么一定要建小堆呢？

这是因为我们的目的是选出最大的K个数，如果我们建立的是大堆，而这N个数中最大的那个数字刚好排在前K个，就会导致最大的那个数据直接被排在了堆顶，这样这个最大的数字就把后N - K 个数字都挡在了堆外，无法进堆。所以我们一定要建小堆。

前K个数的小堆建好之后，依次遍历数据，数据比堆顶的数据大就替换堆顶，再把堆顶向下调整，最后小堆中就是最大的K个数据。

计算一下时间复杂度：

因为我们建立了一个K个数据的小堆，这部分操作的时间复杂度为 O(K)。

遍历所有数据的时间复杂度为 O(N - K)。

如果所有的数据都要进堆，并且向下调整，那么时间复杂度为O((N - K) * logK)。

所以总体时间复杂度为O(K + (N - K) * logK)，省略K，最终时间复杂度为 O(N * logK) 。

空间复杂度为 O(K) 。

接下来把数据存放在磁盘当中进行举例验证：

#include <time.h>
#include <stdio.h>
#include <stdlib.h>

void Swap(int* p1, int* p2)
{
    int tmp = *p1;
    *p1 = *p2;
    *p2 = tmp;
}

void AdjustDown(int* a, int n, int parent)
{
    int child = parent * 2 + 1;
    while(child < n)
    {
        if(child + 1 < n && a[child + 1] > a[child])
        {
            child++;
        }
        if(a[child] < a[parent])
        //建小堆
        {
            Swap(&a[child], &a[parent]);
            parent = child;
            child = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}

void TestHeap5()
{
	// 造数据
	int n, k;
	printf("请输入n和k:>");
	scanf("%d%d", &n, &k);
	srand(time(0));
	FILE* fin = fopen("data.txt", "w");
	if (fin == NULL)
	{
		perror("fopen fail");
		return;
	}

	int randK = k;
	for (size_t i = 0; i < n; ++i)
	{
		int val = rand() % 100000;
		fprintf(fin, "%d\n", val);
	}

	fclose(fin);
	
	/
	// 找topk
	FILE* fout = fopen("data.txt", "r");
	if (fout == NULL)
	{
		perror("fopen fail");
		return;
	}

	//int minHeap[5];
	int* minHeap = malloc(sizeof(int)*k);
	if (minHeap == NULL)
	{
		perror("malloc fail");
		return;
	}

	for (int i = 0; i < k; ++i)
	{
		fscanf(fout, "%d", &minHeap[i]);
	}

	// 建小堆
	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(minHeap, k, i);
	}

	int val = 0;
	while (fscanf(fout, "%d", &val) != EOF)
	{
		if (val > minHeap[0])
		{
			minHeap[0] = val;
			AdjustDown(minHeap, k, 0);
		}
	}

	for (int i = 0; i < k; ++i)
	{
		printf("%d ", minHeap[i]);
	}
	printf("\n");

	fclose(fout);
}

int main()
{
	TestHeap5();

	return 0;
}