【排序详解】TOP-K问题与基于完全二叉树的堆排序

无敌岩雀

已于 2024-01-02 11:11:00 修改

阅读量85

点赞数 2

分类专栏：数据之美——深度解析数据结构文章标签：算法数据结构

于 2023-09-24 21:11:07 首次发布

本文链接：https://blog.csdn.net/weixin_73494835/article/details/133250766

版权

数据之美——深度解析数据结构专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、Top-K

Topk 算法是一种用于解决 Top K 问题的算法，它的目标是从一个数据集中找出前 K 大的元素。下面是 TOpk 算法的基本步骤：

1、用数据集合中前K个元素来建堆

2、若求前k个最大的元素，则建小堆；前k个最小的元素，则建大堆。

3、用剩余的N-K个元素依次与堆顶元素来比较，不满足则替换堆顶元素将剩余N-K个元素依次与堆顶元素比完之后，堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

本文演示建小堆，求最大的前k个数据。

void AdjustUp(HPDataType*a,int child) {
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);		
			child = parent;
			parent = (parent - 1) / 2;
		}
		else 
		{
			break;
		}
	}
}

void AdjustDown(HPDataType* a, int n, int parent)
{
	int child = parent * 2 + 1;
	while (child < n) {
		if (child + 1 < n && a[child + 1] < a[child])
		{
			++child;
		}
		
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = child * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

这段代码也是一个堆排序算法中用于调整堆的函数。具体来说，包含了两个函数：AdjustUp和AdjustDown。

AdjustUp函数用于向上调整堆，即将插入的元素向上移动，使得堆满足堆的性质。传入参数a是一个指向数组的指针，child表示当前要调整的节点下标。函数首先计算父节点的下标（(child - 1) / 2），然后进入循环判断是否需要进行交换。如果当前节点的值小于父节点的值，则交换两个节点的值，并更新child和parent的值继续向上调整，直到达到根节点或不需要再进行交换。

AdjustDown函数用于向下调整堆，即将根节点下移到合适的位置，使得堆满足堆的性质。传入参数a是一个指向数组的指针，n表示堆中元素的个数，parent表示当前要调整的节点下标。函数首先计算左子节点的下标（parent * 2 + 1），然后进入循环判断是否需要进行交换。如果右子节点存在并且右子节点的值小于左子节点的值，则选择右子节点作为要交换的节点。然后判断选定的子节点的值是否小于父节点的值，如果是，则交换两个节点的值，并更新parent和child的值继续向下调整，直到到达叶子节点或不需要再进行交换。

void CreateNDate()
{
	int n = 1000000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL) {
		perror("fopen fail");
		return;
	}
	for (int i = 0; i < n; i++)
	{
		int x = (rand()+i) % 10000000;
		fprintf(fin, "%d\n", x);
	}
	fclose(fin);
}
void PrintTopK(const char *filename , int k)
{
	//1、建堆   用文件中的前k个元素
	FILE* fout = fopen(filename, "r");
	if (fout == NULL) {
		perror("fopen fail");
		return;
	}
	int * minheap=(int *)malloc(sizeof(int)*k);
	if (minheap == NULL) {
		perror("fopen fail");
		return;
	}
	for(int i = 0;i<k;i++)
	{
		fscanf(fout,"%d",&minheap[i]);
	}
 
	for (int i =( k - 1 - 1)/2; i >= 0; i--)
		AdjustDown(minheap, k, i);
 
	//2、剩余n-k个元素依次与堆顶元素交换，不满则替换
	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > minheap[0]) {
			minheap[0] = x;
			AdjustDown(minheap, k, 0);
		}
	}
	for (int i = 0; i < k; i++) {
		printf("%d ", minheap[i]);
	}
	fclose(fout);
}

这段代码的作用是创建包含随机整数的文件，并且从文件中打印出前k大的整数。

函数CreateNDate()用于创建一个名为"data.txt"的文件，其中包含1000000个随机整数。它使用srand(time(0))设置随机数生成器的种子，并使用循环将随机整数写入文件中。

函数PrintTopK(const char *filename , int k)用于打印文件中前k大的整数。它首先打开名为filename的文件，并读取前k个整数存储到一个大小为k的最小堆中。然后，它依次读取文件中剩余的整数，如果某个整数比堆顶元素大，则替换堆顶元素并进行堆调整。最后，它打印堆中的元素，即前k大的整数。

Topk 算法的时间复杂度为 O(nlogK)，其中 n 是数据集的大小。这种算法对于处理大规模数据集中的 Top K 问题非常高效，因为它只需维护一个大小为 K 的堆，而不需要对整个数据集进行排序。

二、堆排序

1、完全二叉树

一棵深度为k的有n个结点的二叉树，对树中的结点按从上至下、从左到右的顺序进行编号，如果编号为i（1≤i≤n）的结点与满二叉树中编号为i的结点在二叉树中的位置相同，则这棵二叉树称为完全二叉树。

2、堆排序详解

它是指利用堆这种数据结构所设计的一种选择排序。堆是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点。

它的思想可以概括为以下几个步骤：

构建最大堆（或最小堆）：将待排序的序列看作一个完全二叉树，并将其转换为一个最大堆（或最小堆）。最大堆的性质是每个节点都大于等于其子节点，最小堆的性质是每个节点都小于等于其子节点。

交换堆顶元素和末尾元素：将堆顶的元素（最大值或最小值）与堆的末尾元素进行交换。

调整堆结构：交换后，需要对新的堆顶元素进行调整，使得剩下的元素仍满足堆的性质。这一过程称为“堆化”，可以从堆顶开始向下递归地进行。

重复交换和调整步骤：重复执行步骤2和步骤3，直到堆中的所有元素都被排序完成。每次交换后，堆的规模减小，因此可以逐渐将有序的元素放在序列的末尾。

完成排序：经过多轮交换和调整后，最终就可以得到一个有序的序列。

void HeapSort(int* a, int n) {
	//1、建堆  升序建大堆   降序建小堆 
	for (int i = (n - 1 - 1) / 2; i >= 0; i--) {
		AdjustDown(a, n, i);
	}
	
	int end = n - 1;
	2、调整堆
	while (end > 0) {
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		end--;
	}
 
	for (int i =0; i < n; i++)
	{
		printf("%d ", a[i]);
	}

}

堆排序的时间复杂度为O(nlogn)，它是一种稳定的排序算法。由于堆排序需要构建和调整堆的过程，相比其他排序算法可能略显复杂，但在某些情况下可以提供较好的性能表现。

无敌岩雀

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
【排序详解】TOP-K问题与基于完全二叉树的堆排序

然后判断选定的子节点的值是否小于父节点的值，如果是，则交换两个节点的值，并更新parent和child的值继续向下调整，直到到达叶子节点或不需要再进行交换。一棵深度为k的有n个结点的二叉树，对树中的结点按从上至下、从左到右的顺序进行编号，如果编号为i（1≤i≤n）的结点与满二叉树中编号为i的结点在二叉树中的位置相同，则这棵二叉树称为完全二叉树。3、用剩余的N-K个元素依次与堆顶元素来比较，不满足则替换堆顶元素将剩余N-K个元素依次与堆顶元素比完之后，堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
复制链接

扫一扫