【数据结构】堆——一种特殊的二叉树结构

目录

前言

1、二叉树的概念及结构

1.1、概念

1.2、两种特殊的二叉树

2、二叉树的顺序结构及堆的实现

2.1、二叉树的顺序结构

2.2、堆的概念和结构

2.3、堆的实现

2.3.1、结构定义及初始化

2.3.2、堆的插入

2.3.3、堆的删除

2.3.4、取堆顶数据

2.3.5、堆的数据个数

2.3.6、堆的判空

3、堆的应用

3.1、堆的排序

3.2、Top-K 问题


前言

在学习了各种基础数据结构之后,我们来学习一种本身具有更直接意义的数据结构类型——堆。堆本身是一种二叉树结构,可以被看做一种完全二叉树的数组对象。接下来我们一起更细致地、更全面地进行堆的学习。

1、二叉树的概念及结构

在进行堆的学习之前,我们首先需要了解二叉树的知识:

1.1、概念

一棵二叉树是节点的一个有限集合,该集合:

  1、或者为空

  2、由一个 根节点 加上两棵别称为 左子树 右子树 的二叉树组成

 如上图所示:

  1. 二叉树不存在度大于2的节点
  2. 二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序树

需要注意的是:对于任意的二叉树都是由以下几种情况复合而成的:

二叉树节点的度: 该节点含有的子树的个数称为该节点的度。

 二叉树有一条非常重要的结论:对于任意一棵非空二叉树,如果度为 0 的节点个数为,度为 2 的节点个数为,则有 y = x + 1

1.2、两种特殊的二叉树

1、满二叉树:一个二叉树,如果每一个层的节点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且节点总数是2^K - 1,则它就是满二叉树。

第 k 层满时,叶子节点个数为 2^(K - 1)

高度为 h 时,满二叉树的总结点个数为 2^h - 1

同理:假设满二叉树有 N 个节点,则高度为 log(N + 1)

2、完全二叉树:完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于高度为h的,有n个节点的二叉树,当且仅当其每一个节点都与高度为h的满二叉树中编号从1至n的节点逐个对应时称之为完全二叉树。 要注意的是满二叉树是一种特殊的完全二叉树。

简单来说,完全二叉树前 h - 1 层是满的,最后一层可以不满,但是必须从左到右是连续的

 假设完全二叉树的高度是 h ,那么完全二叉树的节点个数就是一个范围。

最多:2^0 + 2^1 + 2^2 + …… + 2^(h - 2) + 2^(h - 1)  =  2^h - 1 

最少:2^0 + 2^1 + 2^2 + …… + 2^(h - 2) + 1  =  2^(h - 1) 

2、二叉树的顺序结构及堆的实现

2.1、二叉树的顺序结构

顺序结构存储就是使用 数组 来存储,一般使用 数组 只适合表示 完全二叉树,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。

2.2、堆的概念和结构

堆是一种使用顺序结构的完全二叉树。从数据存储形式上分为 大堆 小堆 。、

大堆:树种所有的父节点都大于或等于子节点。

小堆:树种所有的父节点都小于或等于子节点。

 由图可以得到 父节点 子节点 的下标关系:

leftchild = parent * 2 + 1

rightchild = parent * 2 + 2

parent = (child - 1) / 2  (因为整型会自动取整,所以不需要考虑奇偶)

2.3、堆的实现

2.3.1、结构定义及初始化

因为堆是采用顺序结构定义的,所以需要借助顺序表实现:

typedef int HPDataType;
typedef struct Heap
{
    HPDataType* a;
    int capacity;
    int size;
}HP;

void HeapInit(HP* php)
{
    assert(php);
    php->a = NULL;
    php->size = php->capacity = 0;
}

2.3.2、堆的插入

因为堆在存储数据时,对于数据的顺序有要求,所以我们在插入数据时,需要书写相关的程序来调整数据的顺序。

 如图所示,假设我们建立的是一个 大堆 ,那么我们在进行尾插一个 较大的数据 时就会对整个数据结构造成影响,打乱大堆应有的数据存储顺序。所以我们需要对这个数据进行 向上调整 

void HeapPush(HP* php, HPDataType x)
{
    assert(php);
    
    if(php->size == php->capacity)
    {
        int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
        HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newCapacity);
        if(tmp == NULL)
        {
            perror("realloc fail");
            exit(-1);
        }
        php->a = tmp;
        php->capacity = newCapacity;
    }

    php->a[php->size] = x;
    php->size++;
    //向上调整
    AdjustUp(php->a, php->size - 1);
}

向上调整 :

主要思想为,让 子节点 父节点 进行大小比较,如果孩子比父亲大,那么就 交换 孩子与父亲,直到父亲大于等于孩子 或 孩子节点下标为零为止。

实现代码如下: 

void Swap(HPDataType* p1, HPDataType* p2)
{
    HPDataType tmp = *p1;
    *p1 = *p2;
    *p2 = tmp;
}

void AdjustUp(HPDataType* a, int child)
{
    int parent = (child - 1) / 2;
    while(child > 0) //最好不要写 parent >= 0,因为这样写可能会导致循环结束的逻辑不对
    {
        if(a[child] > a[parent])
        {
            Swap(&a[child], &a[parent]);
            child = parent;
            parent = (child - 1) / 2;
        }
        else
        {
            break;    
        }
    }
}

如果我们实现的是小堆,那么只需要在 向上调整函数 里把 “>” 改成 “<” 就可以了。

if(a[child] < a[parent])

2.3.3、堆的删除

想要删除 堆顶元素 ,有两种方案可以实现:

1、直接删除堆顶元素。

2、先交换堆顶元素与堆尾元素,再删除堆尾元素,最后把堆顶元素向下调整到它该在的位置。

如果我们选择方案一,那么在删除堆顶元素后,我们要把堆中的其他元素依次向前挪动一位,时间复杂度为 O(N),比较麻烦,其次,如果直接把堆中的元素依次向前挪动一位,就会打乱堆中数据原有的父子与兄弟关系,因此方案一不可取。

所以我们使用 方案二 来进行堆顶元素的删除。先交换堆顶与堆底的元素,再删除堆底元素,时间复杂度为 O(1)。方便快捷,不过要记得要把堆顶元素 向下调整

void HeapPop(HP* php)
{
    assert(php);
    assert(php->size > 0);
    
    Swap(&php->a[0], &php->a[php->size - 1]);
    php->size--;
    //向下调整
    AdjustDown(php->a, php->size, 0);
}

向下调整:

主要思想为,让 父节点  子节点 进行大小比较,如果父亲比 较大的 孩子小,那么就 交换 父亲与较大的孩子,直到父亲大于等于较大的孩子 或 孩子节点下标越界为止。

 实现代码如下:

void AdjustDown(HPDataType* a, int n, int parent)
{
    int child = parent * 2 + 1;
    while(child < n)
    {
         if(child + 1 < n && a[child + 1] > a[child])
        {
            child++;
        }
        if(a[child] > a[parent])
        {
            Swap(&a[parent], &a[child]);
            parent = child;
            child = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}

如果我们实现的是小堆,那么只需要在 向上调整函数 里把 “>” 改成 “<” 就可以了。

 if(a[child] < a[parent])

2.3.4、取堆顶数据

HPDataType HeapTop(HP* php)
{
    assert(php);
    assert(php->size > 0);
    
    return php->a[0];
}

2.3.5、堆的数据个数

int HeapSize(HP* php)
{
    assert(php);

    return php->size;
}

2.3.6、堆的判空

bool HeapEmpty(HP* php)
{
    assert(php);

    return php->size == 0;
}

3、堆的应用

3.1、堆的排序

在进行堆排之前,需要满足一个条件:给定数据的数据结构必须是堆。所以我们需要先写一个 建堆算法。

建堆有两种方式,分别为 向上调整建堆向下调整建堆。 

向上调整建堆

这里可以复用上面写过的 向上调整函数 

void BuildHeap(int* a, int n)
{
    for(int i = 1; i < n; i++)
    {
        AdjustUp(a, i);
    }
}

从第二层开始从上层至下层依次向上调整。

 一共需要调整 F(h) 次,可以根据公式估算出 F(h) 的值约等于最后一项 2^(h - 1)*(h - 1)。

又因为高度为 h 的二叉树的节点个数 N = 2^h - 1,h = log(N + 1),所以 F(h) 可以写为 F(N) = (N + 1) * (log(N + 1) - 1) / 2,约等于N * logN,所以 向上调整建堆 的时间复杂度为 O(N * logN) 


向下调整建堆:

这里可以复用上面写过的 向下调整函数

void BuildHeap(int* a, int n)
{
    for(int i = (n - 1 - 1) / 2; i >= 0; i--)
    {
        AdjustDown(a, n, i);
    }
}

从倒数第二层开始从下层至上层依次向下调整。

 根据计算,向下调整建堆的时间复杂度为 O(N)

所以我们选择向下调整建堆。


在选择完建堆方式之后,我们又遇到了一个问题:

如果我们想要 排升序 ,要建大堆还是建小堆呢?

首先考虑建小堆

如果是建小堆,每次取堆顶数据固定在第一位,再处理其他数据时还需要重新建堆,太过于麻烦。要么就每次取堆顶数据放入新开辟的空间里,再把堆顶数据依次向下调整,这样理论上是可行的,但是却需要新开辟空间,不符合要求,所以排除建小堆。

再来考虑建大堆

每次把堆顶最大的数与堆底数据进行交换,这样就把堆中最大的数据排到了最后。之后就不再看这最后一个数据,只处理前 N - 1 个数据,把堆顶数据向下调整,再选出堆顶数据作为次大的数与第N - 1 个数进行交换,这样重复操作,最终可以实现升序排列。

由于在堆排序过程中每个数字最多向下调整 log N 次,所以时间复杂度为 O(N * logN) ,再加上之前向下调整建堆的时间复杂度 O(N) ,所以整体堆排序复杂度为 O(N + N * logN)。省略 N,最终堆排序时间复杂度为 O(N * logN)

完整实现代码如下:

void Swap(int* p1, int* p2)
{
    int tmp = *p1;
    *p1 = *p2;
    *p2 = tmp;
}

void AdjustDown(int* a, int n, int parent)
{
    int child = parent * 2 + 1;
    while(child < n)
    {
        if(child + 1 < n && a[child + 1] > a[child])
        {
            child++;
        }
        if(a[child] > a[parent])
        //建大堆
        {
            Swap(&a[child], &a[parent]);
            parent = child;
            child = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}

void HeapSort(int* a, int n)
{
    for(int i = (n - 1 - 1) / 2; i >= 0; i--)
    {
        AdjustDown(a, n, i);
    } 
    //向下调整建大堆
    
    //建好大堆后开始调整
    int end = n - 1;
    while(end)
    {
        Swap(&a[0], &a[end]);
        AdjustDown(a, end, 0);
        end--;
    }    
}

void TestHeap()
{
    int array[] = {27, 15, 19, 18, 28, 34, 65, 49, 25, 37};
    HeapSort(array, sizeof(array) / sizeof(array[0]));
    for(int i = 0; i < sizeof(array) / sizeof(array[0]); i++)
    {
        printf("%d ", array[i]);
    }
    printf("\n");
}

int main()
{
    TestHeap();
}

3.2、Top-K 问题

求数据集合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

比如从N个数中找最大的前K个数字,我们能想到的方法有两种:

  1、建立一个N个数的小堆,Pop K 次,依次取堆顶数据。

  2、建立一个K个数的小堆,依次遍历数据,数据比堆顶的数据大就替换堆顶,再把堆顶向           下调整,最后小堆中就是最大的K个数据。

当N比较小时,我们使用方案一是可以的,但是如果N太大时呢?比如N = 100亿,这个时候这100亿个数据就需要占据40G内存,而一般的电脑的内存总大小都不够40G,所以方案一是不可行的。

所以我们需要使用方案二:

当N太大时,我们把数据都放在磁盘中,只取前 K 个数建小堆。

那么我们为什么一定要建小堆呢?

这是因为我们的目的是选出最大的K个数,如果我们建立的是大堆,而这N个数中最大的那个数字刚好排在前K个,就会导致最大的那个数据直接被排在了堆顶,这样这个最大的数字就把后N - K 个数字都挡在了堆外,无法进堆。所以我们一定要建小堆。

前K个数的小堆建好之后,依次遍历数据,数据比堆顶的数据大就替换堆顶,再把堆顶向下调整,最后小堆中就是最大的K个数据。

计算一下时间复杂度:

因为我们建立了一个K个数据的小堆,这部分操作的时间复杂度为 O(K)。

遍历所有数据的时间复杂度为 O(N - K)。

如果所有的数据都要进堆,并且向下调整,那么时间复杂度为O((N - K) * logK)。

所以总体时间复杂度为O(K + (N - K) * logK),省略K,最终时间复杂度为 O(N * logK)

空间复杂度为 O(K)

接下来把数据存放在磁盘当中进行举例验证:

#include <time.h>
#include <stdio.h>
#include <stdlib.h>

void Swap(int* p1, int* p2)
{
    int tmp = *p1;
    *p1 = *p2;
    *p2 = tmp;
}

void AdjustDown(int* a, int n, int parent)
{
    int child = parent * 2 + 1;
    while(child < n)
    {
        if(child + 1 < n && a[child + 1] > a[child])
        {
            child++;
        }
        if(a[child] < a[parent])
        //建小堆
        {
            Swap(&a[child], &a[parent]);
            parent = child;
            child = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}

void TestHeap5()
{
	// 造数据
	int n, k;
	printf("请输入n和k:>");
	scanf("%d%d", &n, &k);
	srand(time(0));
	FILE* fin = fopen("data.txt", "w");
	if (fin == NULL)
	{
		perror("fopen fail");
		return;
	}

	int randK = k;
	for (size_t i = 0; i < n; ++i)
	{
		int val = rand() % 100000;
		fprintf(fin, "%d\n", val);
	}

	fclose(fin);
	
	/
	// 找topk
	FILE* fout = fopen("data.txt", "r");
	if (fout == NULL)
	{
		perror("fopen fail");
		return;
	}

	//int minHeap[5];
	int* minHeap = malloc(sizeof(int)*k);
	if (minHeap == NULL)
	{
		perror("malloc fail");
		return;
	}

	for (int i = 0; i < k; ++i)
	{
		fscanf(fout, "%d", &minHeap[i]);
	}

	// 建小堆
	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(minHeap, k, i);
	}

	int val = 0;
	while (fscanf(fout, "%d", &val) != EOF)
	{
		if (val > minHeap[0])
		{
			minHeap[0] = val;
			AdjustDown(minHeap, k, 0);
		}
	}

	for (int i = 0; i < k; ++i)
	{
		printf("%d ", minHeap[i]);
	}
	printf("\n");

	fclose(fout);
}

int main()
{
	TestHeap5();

	return 0;
}


以上就是堆相关基础知识的全部内容,如果有不妥的地方欢迎大佬指正,谢谢支持!

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
1. 什么是二叉树二叉树一种树形结构,其中每个节点最多有两个子节点。一个节点的左子节点比该节点小,右子节点比该节点大。二叉树通常用于搜索和排序。 2. 二叉树的遍历方法有哪些? 二叉树的遍历方法包括前序遍历、中序遍历和后序遍历。前序遍历是从根节点开始遍历,先访问根节点,再访问左子树,最后访问右子树。中序遍历是从根节点开始遍历,先访问左子树,再访问根节点,最后访问右子树。后序遍历是从根节点开始遍历,先访问左子树,再访问右子树,最后访问根节点。 3. 二叉树的查找方法有哪些? 二叉树的查找方法包括递归查找和非递归查找。递归查找是从根节点开始查找,如果当前节点的值等于要查找的值,则返回当前节点。如果要查找的值比当前节点小,则继续在左子树中查找;如果要查找的值比当前节点大,则继续在右子树中查找。非递归查找可以使用栈或队列实现,从根节点开始,每次将当前节点的左右子节点入栈/队列,直到找到要查找的值或者栈/队列为空。 4. 二叉树的插入与删除操作如何实现? 二叉树的插入操作是将要插入的节点与当前节点的值进行比较,如果小于当前节点的值,则继续在左子树中插入;如果大于当前节点的值,则继续在右子树中插入。当找到一个空节点时,就将要插入的节点作为该空节点的子节点。删除操作需要分为三种情况:删除叶子节点、删除只有一个子节点的节点和删除有两个子节点的节点。删除叶子节点很简单,只需要将其父节点的对应子节点置为空即可。删除只有一个子节点的节点,需要将其子节点替换为该节点的位置。删除有两个子节点的节点,则可以找到该节点的后继节点(即右子树中最小的节点),将其替换为该节点,然后删除后继节点。 5. 什么是平衡二叉树? 平衡二叉树一种特殊二叉树,它保证左右子树的高度差不超过1。这种平衡可以确保二叉树的查找、插入和删除操作的时间复杂度都是O(logn)。常见的平衡二叉树包括红黑树和AVL树。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

世间是否此山最高

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值