目录
一、Top-K
Topk 算法是一种用于解决 Top K 问题的算法,它的目标是从一个数据集中找出前 K 大的元素。下面是 TOpk 算法的基本步骤:
1、用数据集合中前K个元素来建堆
2、若求前k个最大的元素,则建小堆;前k个最小的元素,则建大堆。
3、用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
本文演示建小堆,求最大的前k个数据。
void AdjustUp(HPDataType*a,int child) {
int parent = (child - 1) / 2;
while (child > 0)
{
if (a[child] < a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (parent - 1) / 2;
}
else
{
break;
}
}
}
void AdjustDown(HPDataType* a, int n, int parent)
{
int child = parent * 2 + 1;
while (child < n) {
if (child + 1 < n && a[child + 1] < a[child])
{
++child;
}
if (a[child] < a[parent])
{
Swap(&a[child], &a[parent]);
parent = child;
child = child * 2 + 1;
}
else
{
break;
}
}
}
这段代码也是一个堆排序算法中用于调整堆的函数。具体来说,包含了两个函数:AdjustUp和AdjustDown。
AdjustUp函数用于向上调整堆,即将插入的元素向上移动,使得堆满足堆的性质。传入参数a是一个指向数组的指针,child表示当前要调整的节点下标。函数首先计算父节点的下标((child - 1) / 2),然后进入循环判断是否需要进行交换。如果当前节点的值小于父节点的值,则交换两个节点的值,并更新child和parent的值继续向上调整,直到达到根节点或不需要再进行交换。
AdjustDown函数用于向下调整堆,即将根节点下移到合适的位置,使得堆满足堆的性质。传入参数a是一个指向数组的指针,n表示堆中元素的个数,parent表示当前要调整的节点下标。函数首先计算左子节点的下标(parent * 2 + 1),然后进入循环判断是否需要进行交换。如果右子节点存在并且右子节点的值小于左子节点的值,则选择右子节点作为要交换的节点。然后判断选定的子节点的值是否小于父节点的值,如果是,则交换两个节点的值,并更新parent和child的值继续向下调整,直到到达叶子节点或不需要再进行交换。
void CreateNDate()
{
int n = 1000000;
srand(time(0));
const char* file = "data.txt";
FILE* fin = fopen(file, "w");
if (fin == NULL) {
perror("fopen fail");
return;
}
for (int i = 0; i < n; i++)
{
int x = (rand()+i) % 10000000;
fprintf(fin, "%d\n", x);
}
fclose(fin);
}
void PrintTopK(const char *filename , int k)
{
//1、建堆 用文件中的前k个元素
FILE* fout = fopen(filename, "r");
if (fout == NULL) {
perror("fopen fail");
return;
}
int * minheap=(int *)malloc(sizeof(int)*k);
if (minheap == NULL) {
perror("fopen fail");
return;
}
for(int i = 0;i<k;i++)
{
fscanf(fout,"%d",&minheap[i]);
}
for (int i =( k - 1 - 1)/2; i >= 0; i--)
AdjustDown(minheap, k, i);
//2、剩余n-k个元素依次与堆顶元素交换,不满则替换
int x = 0;
while (fscanf(fout, "%d", &x) != EOF)
{
if (x > minheap[0]) {
minheap[0] = x;
AdjustDown(minheap, k, 0);
}
}
for (int i = 0; i < k; i++) {
printf("%d ", minheap[i]);
}
fclose(fout);
}
这段代码的作用是创建包含随机整数的文件,并且从文件中打印出前k大的整数。
函数CreateNDate()用于创建一个名为"data.txt"的文件,其中包含1000000个随机整数。它使用srand(time(0))设置随机数生成器的种子,并使用循环将随机整数写入文件中。
函数PrintTopK(const char *filename , int k)用于打印文件中前k大的整数。它首先打开名为filename的文件,并读取前k个整数存储到一个大小为k的最小堆中。然后,它依次读取文件中剩余的整数,如果某个整数比堆顶元素大,则替换堆顶元素并进行堆调整。最后,它打印堆中的元素,即前k大的整数。
Topk 算法的时间复杂度为 O(nlogK),其中 n 是数据集的大小。这种算法对于处理大规模数据集中的 Top K 问题非常高效,因为它只需维护一个大小为 K 的堆,而不需要对整个数据集进行排序。
二、堆排序
1、完全二叉树
一棵深度为k的有n个结点的二叉树,对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为i(1≤i≤n)的结点与满二叉树中编号为i的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。
2、堆排序详解
它是指利用堆这种数据结构所设计的一种选择排序。堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。
它的思想可以概括为以下几个步骤:
构建最大堆(或最小堆):将待排序的序列看作一个完全二叉树,并将其转换为一个最大堆(或最小堆)。最大堆的性质是每个节点都大于等于其子节点,最小堆的性质是每个节点都小于等于其子节点。
交换堆顶元素和末尾元素:将堆顶的元素(最大值或最小值)与堆的末尾元素进行交换。
调整堆结构:交换后,需要对新的堆顶元素进行调整,使得剩下的元素仍满足堆的性质。这一过程称为“堆化”,可以从堆顶开始向下递归地进行。
重复交换和调整步骤:重复执行步骤2和步骤3,直到堆中的所有元素都被排序完成。每次交换后,堆的规模减小,因此可以逐渐将有序的元素放在序列的末尾。
完成排序:经过多轮交换和调整后,最终就可以得到一个有序的序列。
void HeapSort(int* a, int n) {
//1、建堆 升序建大堆 降序建小堆
for (int i = (n - 1 - 1) / 2; i >= 0; i--) {
AdjustDown(a, n, i);
}
int end = n - 1;
2、调整堆
while (end > 0) {
Swap(&a[0], &a[end]);
AdjustDown(a, end, 0);
end--;
}
for (int i =0; i < n; i++)
{
printf("%d ", a[i]);
}
}
堆排序的时间复杂度为O(nlogn),它是一种稳定的排序算法。由于堆排序需要构建和调整堆的过程,相比其他排序算法可能略显复杂,但在某些情况下可以提供较好的性能表现。