【排序详解】TOP-K问题与基于完全二叉树的堆排序

目录

一、Top-K

二、堆排序

1、完全二叉树

2、堆排序详解


一、Top-K

Topk 算法是一种用于解决 Top K 问题的算法,它的目标是从一个数据集中找出前 K 大的元素。下面是 TOpk 算法的基本步骤:

        1、用数据集合中前K个元素来建堆

        2、若求前k个最大的元素,则建小堆;前k个最小的元素,则建大堆。

        3、用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

本文演示建小堆,求最大的前k个数据。

void AdjustUp(HPDataType*a,int child) {
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);		
			child = parent;
			parent = (parent - 1) / 2;
		}
		else 
		{
			break;
		}
	}
}

void AdjustDown(HPDataType* a, int n, int parent)
{
	int child = parent * 2 + 1;
	while (child < n) {
		if (child + 1 < n && a[child + 1] < a[child])
		{
			++child;
		}
		
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = child * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

       这段代码也是一个堆排序算法中用于调整堆的函数。具体来说,包含了两个函数:AdjustUp和AdjustDown。

        AdjustUp函数用于向上调整堆,即将插入的元素向上移动,使得堆满足堆的性质。传入参数a是一个指向数组的指针,child表示当前要调整的节点下标。函数首先计算父节点的下标((child - 1) / 2),然后进入循环判断是否需要进行交换。如果当前节点的值小于父节点的值,则交换两个节点的值,并更新child和parent的值继续向上调整,直到达到根节点或不需要再进行交换。

AdjustDown函数用于向下调整堆,即将根节点下移到合适的位置,使得堆满足堆的性质。传入参数a是一个指向数组的指针,n表示堆中元素的个数,parent表示当前要调整的节点下标。函数首先计算左子节点的下标(parent * 2 + 1),然后进入循环判断是否需要进行交换。如果右子节点存在并且右子节点的值小于左子节点的值,则选择右子节点作为要交换的节点。然后判断选定的子节点的值是否小于父节点的值,如果是,则交换两个节点的值,并更新parent和child的值继续向下调整,直到到达叶子节点或不需要再进行交换。

        

void CreateNDate()
{
	int n = 1000000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL) {
		perror("fopen fail");
		return;
	}
	for (int i = 0; i < n; i++)
	{
		int x = (rand()+i) % 10000000;
		fprintf(fin, "%d\n", x);
	}
	fclose(fin);
}
void PrintTopK(const char *filename , int k)
{
	//1、建堆   用文件中的前k个元素
	FILE* fout = fopen(filename, "r");
	if (fout == NULL) {
		perror("fopen fail");
		return;
	}
	int * minheap=(int *)malloc(sizeof(int)*k);
	if (minheap == NULL) {
		perror("fopen fail");
		return;
	}
	for(int i = 0;i<k;i++)
	{
		fscanf(fout,"%d",&minheap[i]);
	}
 
	for (int i =( k - 1 - 1)/2; i >= 0; i--)
		AdjustDown(minheap, k, i);
 
	//2、剩余n-k个元素依次与堆顶元素交换,不满则替换
	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > minheap[0]) {
			minheap[0] = x;
			AdjustDown(minheap, k, 0);
		}
	}
	for (int i = 0; i < k; i++) {
		printf("%d ", minheap[i]);
	}
	fclose(fout);
}
 

这段代码的作用是创建包含随机整数的文件,并且从文件中打印出前k大的整数。

        函数CreateNDate()用于创建一个名为"data.txt"的文件,其中包含1000000个随机整数。它使用srand(time(0))设置随机数生成器的种子,并使用循环将随机整数写入文件中。

        函数PrintTopK(const char *filename , int k)用于打印文件中前k大的整数。它首先打开名为filename的文件,并读取前k个整数存储到一个大小为k的最小堆中。然后,它依次读取文件中剩余的整数,如果某个整数比堆顶元素大,则替换堆顶元素并进行堆调整。最后,它打印堆中的元素,即前k大的整数。

Topk 算法的时间复杂度为 O(nlogK),其中 n 是数据集的大小。这种算法对于处理大规模数据集中的 Top K 问题非常高效,因为它只需维护一个大小为 K 的堆,而不需要对整个数据集进行排序。

二、堆排序

1、完全二叉树

        一棵深度为k的有n个结点的二叉树,对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为i(1≤i≤n)的结点与满二叉树中编号为i的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。

2、堆排序详解

         它是指利用堆这种数据结构所设计的一种选择排序。堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。

        它的思想可以概括为以下几个步骤:

        构建最大堆(或最小堆):将待排序的序列看作一个完全二叉树,并将其转换为一个最大堆(或最小堆)。最大堆的性质是每个节点都大于等于其子节点,最小堆的性质是每个节点都小于等于其子节点。

        交换堆顶元素和末尾元素:将堆顶的元素(最大值或最小值)与堆的末尾元素进行交换。

        调整堆结构:交换后,需要对新的堆顶元素进行调整,使得剩下的元素仍满足堆的性质。这一过程称为“堆化”,可以从堆顶开始向下递归地进行。

        重复交换和调整步骤:重复执行步骤2和步骤3,直到堆中的所有元素都被排序完成。每次交换后,堆的规模减小,因此可以逐渐将有序的元素放在序列的末尾。

        完成排序:经过多轮交换和调整后,最终就可以得到一个有序的序列。

void HeapSort(int* a, int n) {
	//1、建堆  升序建大堆   降序建小堆 
	for (int i = (n - 1 - 1) / 2; i >= 0; i--) {
		AdjustDown(a, n, i);
	}
	
	int end = n - 1;
	2、调整堆
	while (end > 0) {
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		end--;
	}
 
	for (int i =0; i < n; i++)
	{
		printf("%d ", a[i]);
	}

}

        堆排序的时间复杂度为O(nlogn),它是一种稳定的排序算法。由于堆排序需要构建和调整堆的过程,相比其他排序算法可能略显复杂,但在某些情况下可以提供较好的性能表现。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无敌岩雀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值