二叉树 --- 堆_二叉树堆-CSDN博客

本文链接：https://blog.csdn.net/weixin_72068014/article/details/126240752

随着栈和队列的结束，二叉树的学习就开始了，能明显感觉到二叉树这一节的难度会有很大的提升

1.树概念及结构：
1.1树的概念

1.树是一种非线性的数据结构，它是由n（n>=0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。有一个特殊的结点，称为根结点，根节点没有前驱结点

2.除根节点外，其余结点被分成M(M>0)个互不相交的集合T1、T2、……、Tm，其中每一个集合Ti(1<= i <= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱，可以有0个或多个后继

3.因此，树是递归定义的。

注意：树形结构中，子树之间不能有交集，否则就不是树形结构：

1.2 树的相关概念：

节点的度：一个节点含有的子树的个数称为该节点的度；如上图：A的为6

叶节点或终端节点：度为0的节点称为叶节点；如上图：B、C、H、I...等节点为叶节点

非终端节点或分支节点：度不为0的节点；如上图：D、E、F、G...等节点为分支节点

双亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点；如上图：A是B的父节点

孩子节点或子节点：一个节点含有的子树的根节点称为该节点的子节点；如上图：B是A的孩子节点

兄弟节点：具有相同父节点的节点互称为兄弟节点；如上图：B、C是兄弟节点

树的度：一棵树中，最大的节点的度称为树的度；如上图：树的度为6

节点的层次：从根开始定义起，根为第1层，根的子节点为第2层，以此类推；

树的高度或深度：树中节点的最大层次；如上图：树的高度为4

堂兄弟节点：双亲在同一层的节点互为堂兄弟；如上图：H、I互为兄弟节点

节点的祖先：从根到该节点所经分支上的所有节点；如上图：A是所有节点的祖先

子孙：以某节点为根的子树中任一节点都称为该节点的子孙。如上图：所有节点都是A的子孙

森林：由m（m>0）棵互不相交的树的集合称为森林；

1.3 树的表示

树结构相对线性表就比较复杂了，要存储表示起来就比较麻烦了，既然保存值域，也要保存结点和结点之间的关系，实际中树有很多种表示方式如：双亲表示法，孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法。

用代码表现出来也就是这样：

typedef int DataType;
struct Node
{
 struct Node* _firstChild1; // 第一个孩子结点
 struct Node* _pNextBrother; // 指向其下一个兄弟结点
 DataType _data; // 结点中的数据域
};

2.二叉树概念及结构

一棵二叉树是结点的一个有限集合，该集合:

1. 或者为空

2. 由一个根节点加上两棵别称为左子树和右子树的二叉树组成

总结二叉树的特点：
1. 二叉树不存在度大于2的结点

2. 二叉树的子树有左右之分，次序不能颠倒，因此二叉树是有序树

注意：对于任意的二叉树都是由以下几种情况复合而成的：

2.3 特殊的二叉树：

1. 满二叉树：一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为K，且结点总数是，则它就是满二叉树。

2. 完全二叉树：完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的。对于深度为K 的，有n个结点的二叉树，当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉树。

2.4 二叉树的性质

2.5 二叉树的存储结构

二叉树一般可以使用两种结构存储，一种顺序结构，一种链式结构。

1. 顺序存储顺序结构存储就是使用数组来存储，一般使用数组只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储，关于堆我们后面的章节会专门讲解。二叉树顺序存储在物理上是一个数组，在逻辑上是一颗二叉树。

这次我们先不涉及链式结构，先把顺序结构实现：
3.二叉树的顺序结构及实现

3.1 二叉树的顺序结构

普通的二叉树是不适合用数组来存储的，因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储，需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事，一个是数据结构，一个是操作系统中管理内存的一块区域分段。

3.2 堆的概念及结构

这是大小堆结构，其中大堆表示最顶的是最大的，小堆则是最小的在最顶

下面我们就来实现一个堆：
还是先确定我们的接口，堆的接口也很简单，主要是插入删除比较复杂，因为插入删除必须保持堆的形态，所以才有向上调整和向下调整这两个很重要的函数

typedef int HPDatatype;

typedef struct Heap
{
	HPDatatype* a;
	int sz;
	int capacity;
}HP;
//初始化
void HeapInit(HP* php);
//销毁
void HeapDestroy(HP* php);
//插入数据
void HeapPush(HP* php, HPDatatype x);
//删除堆顶数据
void HeapPop(HP* php);
//判断堆是否为空
bool  HeapEmpty(HP* php);
//返回堆顶数据
HPDatatype HeapTop(HP* php);
//计算堆的数据的大小
int HeapSize(HP* php);
//堆数据打印
void HeapPrint(HP* php);
// 找最大的前K个，建立K个数的小堆
// 找最小的前K个，建立K个数的大堆
//O(NlogN)
void PrintTopK(HP* php, int k);

//对一个数组进行堆排序，利用向下调整的方式建堆处理

//向上调整
void Adjustup(HPDatatype* a, int child);
//向下调整
void Adjustdown(HPDatatype* a, int n, int parent);

我们先介绍堆的插入删除，其他的和前面的讲过的很相似：
在每次我们插入完数据以后，堆的形态会发生改变，我们可以通过改变父子节点来恢复堆的形态，我们知道父子节点的关系是左子节点是父节点的二倍我们就可以通过这点来向上调整。

那代码该怎么实现呢？

//向上调整
void Adjustup(HPDatatype* a, int child)
{
	int parent = (child - 1) / 2;//利用父子节点的关系
	while (child > 0)
	{
		if (a[parent] < a[child])
		{
			Swap(&a[parent], &a[child]);
			//迭代向上调整
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}

//插入数据并保持堆的形态
void HeapPush(HP* php, HPDatatype x)
{
	assert(php);
	//判断增容
	if (php->sz == php->capacity)
	{
		int newcapacity = php->capacity == 0 ? 4 : php->capacity * 2;
		HPDatatype* tmp = (HPDatatype*)realloc(php->a, newcapacity * sizeof(HPDatatype));
		if (tmp == NULL)
		{
			perror("malloc fail");
			exit(-1);
		}
		php->a = tmp;
		php->capacity = newcapacity;
	}
	php->a[php->sz] = x;
	php->sz++;
	//前面这里都是顺序表的插入
	Adjustup(php->a,php->sz-1);
}

接下来就是删除操作：顺序表的尾删十分方便，头删就很麻烦，要动其余的数据，而我们头部才是最大或者最小的数据，这样让删除变得困难，但是，我们可以反过来存储，例如我们要升序存储的时候，我们就可以大堆存储再交换首尾的元素，就可以得出最大的数据了，同

时利用向下调整的方式保持堆的形态，这里向下调整与向上调整很相似

//向下调整，保持堆的形态
void Adjustdown(HPDatatype* a,int n, int parent)
{
	//因为子节点有两个假设处理会很方便
	int minchild = 2 * parent + 1;//假设最小的是奇数
	while (minchild < n)
	{
		//假设失败的话，就把minchild变为较小的孩子
		if (minchild + 1 < n && a[minchild + 1] < a[minchild])//前一条件是控制边界，防止越界
		{
			minchild++;
		}
	    //孩子更大的话就交换
		if (a[minchild] < a[parent])
		{
			Swap(&a[minchild], &a[parent]);
			//迭代向下调整
			parent = minchild;
			minchild = 2 * parent + 1;
		}
		else
			break;
	}

}

//删除堆顶数据
void HeapPop(HP* php)
{
	assert(php);
	assert(!HeapEmpty(php));
	Swap(&php->a[0], &php->a[php->sz - 1]);//交换堆顶和最后一个数据
	php->sz--;
	Adjustdown(php->a, php->sz ,0);
}

把这两个接口实现了，其他的接口都很简单，就不多讲述，跟顺序表本质是一样的，我们只是用数组操作了二叉树罢了

//初始化
void HeapInit(HP* php)
{
	php->a = NULL;
	php->sz = php->capacity = 0;
}

//销毁
void HeapDestroy(HP* php)
{
	assert(php);
	free(php->a);
	php->a = NULL;
	php->sz = php->capacity = 0;
}

//交换函数
void Swap(HPDatatype* p1, HPDatatype* p2)
{
	HPDatatype tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//判断堆是否为空
bool  HeapEmpty(HP* php)
{
	assert(php);
	return php->a[0] == 0;
}

//返回堆顶数据
HPDatatype HeapTop(HP* php)
{
	assert(php);
	return php->a[0];
}

//计算堆的数据的大小
int HeapSize(HP* php)
{
	assert(php);
	return php->sz;
}
//堆的打印
void HeapPrint(HP* php)
{
	assert(php);
	for (int i = 0; i < php->sz; i++)
	{
		printf("%d ", php->a[i]);
	}
	printf("\n");
}

接下来讲一个排序算法，在我们之前学过一个冒泡排序，这个排序的效率是很低的，是

O(n^2)，这个排序就是利用了堆的思想，要排升序我们就以大堆的形式去排，然后首尾交换，再利用我们写的函数向下调整的方式去实现，那为什么不用向上调整呢?

因为向上调整算法是O(N*logN),而向下调整只需O(N),为什么呢？因为随着树的增长，最后一层的数据是最多的，占了全部数据的一半。而向下调整不用计算最后一排，向上调整就要计算，这里导致了效率的差异，

通过分析我们可以写出以下排序算法：

void HeapSort(int* a, int n)//利用堆的思想高效排序，时间复杂度是O(N*logN)
{
	//升序建大堆，建完后将最开始的那个和最后的换位置，再忽略最大的那个进行向下调整
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)
//这里i从最后的节点的父节点开始，因为向下调整不用计算最后一排
	{
		//建堆
		Adjustdown(a, n, i);
	}
	//取大的放后面
	int i = 1;
	while (i < n)
	{
		Swap(&a[0], &a[n - i]);
		//默认大的被删除了
		Adjustdown(a, n - i, 0);
		i++;
	}
}

最后讲一个topK的算法：

TOP-K问题：即求数据结合中前K个最大的元素或者最小的元素，一般情况下数据量都比较大。比如：专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

对于Top-K问题，能想到的最简单直接的方式就是排序，但是：如果数据量非常大，排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

最佳的方式就是用堆来解决，基本思路如下：

1. 用数据集合中前K个元素来建堆前k个最大的元素，则建小堆前k个最小的元素，则建大堆 2. 用剩余的N-K个元素依次与堆顶元素来比较，不满足则替换堆顶元素，将剩余N-K个元素依次与堆顶元素比完之后，堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

void CreateFile(const char* filename, int N)//创造随机数
{
	FILE* fin = fopen(filename, "w");
	if (fin == NULL)
	{
		perror("fin fail");
		exit(-1);
	}
	srand((unsigned int)time(NULL));
	//创造随机数
	for (int i = 0; i < N; i++)
	{
		fprintf(fin, "%d\n", rand()%1000);
		//这里为了更好观察，可以自己设置比1000大的数字来看算法是否正确
	}

	//关闭文件
	fclose(fin);
}

void PrintTopK(const char* filename, int K)//对一个数组进行堆排序，利用向下调整的方式建堆处理
{
	//在数据中找最大的建小堆，然后和每次进来的数据与最小的比较，如果比最小的大就插入并向下调整
	assert(filename);
	FILE* fout = fopen(filename, "r");
	if (fout == NULL)
	{
		perror("fout fail");
		exit(-1);
	}
	//创建一个小堆
	int* minheap = (int*)malloc(sizeof(int) * K);
	if (minheap == NULL)
	{
		perror("malloc fail");
		exit(-1);
	}
	//以小堆的形式放进K个数据
	for (int i = 0; i < K; i++)
	{
		fscanf(fout, "%d", &minheap[i]);
	}
	for (int i = (K - 2) / 2; i >= 0; i--)
	{
		Adjustdown(minheap, K, i);
	}
	//比较数据
	int value = 0;
	while (fscanf(fout, "%d", &value) != EOF)
	{
		//比较
		if (value > minheap[0])
		{
			minheap[0] = value;
			Adjustdown(minheap, K, 0);
		}
	}
	//打印出堆中的数据
	for (int i = 0; i < K; i++)
	{
		printf("%d ", minheap[i]);
	}
	free(minheap);
	fclose(fout);
}
int main()
{
	const char* filename = "data.txt";
	int K = 10;
	int N = 100000;
	//CreateFile(filename, N);
	PrintTopK(filename, K);
	return 0;
}

下面是测试的结果，满足要求：