1 堆排序
- 堆排序是一个选择排序
这里我们可以直接用前面所讲的,先将数组中的数根据插入都插入到堆里,然后再一个一个取Top堆顶元素。但是我们要知道,这样做有两个不好的地方:
- 如果我们事先并没有实现堆的插入删除,就要重新写代码
- 空间复杂度太高
这里我们可以用以下思路。
思路
1、建堆:直接将数组建堆。先假设第一个数就在堆里,然后把后面的数依次向上调整。
- 本质:模拟堆插入的过程
- ⭐升序建大堆,降序建小堆 要重点理解!!!
- 时间复杂度:N*logN
2、向下调整:先将首尾交换,然后将交换过来的新根向下调整。(最后一个元素不参与调整)一直循环这个过程,直到所有的数都交换完毕。
- 本质:模拟堆删除的过程
- 时间复杂度:(N-1)*logN
总时间复杂度:O(N*logN)
代码实现
这里举例升序。
向上调整建堆
void HeapSort(int* a, int n)
{// O(N*logN)//向上调整建堆/*for (int i = 1; i < n; i++){AdjustUp(a, i);}*/// O(N)//向下调整建堆for (int i = (n-1-1)/2; i >= 0; --i){AdjustDown(a, n, i);}int end = n - 1;while (end > 0){Swap(&a[0], &a[end]);AdjustDown(a, end, 0);--end;}
}int main()
{int a[10] = { 4, 6, 2, 1, 5, 8, 2, 9 };int size = sizeof(a) / sizeof(a[0]);HeapSort(a, size);for (int i = 0; i < size; i++){printf("%d ", a[i]);}return 0;
}
大堆的向上向下调整代码实现
void Swap(HPDataType* p1, HPDataType* p2)
{HPDataType tmp = *p1;*p1 = *p2;*p2 = tmp;
}void AdjustUp(HPDataType* a, int child)
{int parent = (child - 1) / 2;//while (parent >= 0) 不能这样写,因为parent不可能<0while (child > 0) //用child判断{if (a[child] > a[parent]){Swap(&a[child], &a[parent]);//往上走child = parent;parent = (child - 1) / 2;//child = (child - 1) / 2;//parent = (parent - 1) / 2;}else{break;}}
}void AdjustDown(int* a, int size, int parent)
{int child = parent * 2 + 1;while (child+1 < size && child < size){if (a[child + 1] > a[child]){++child;}if (a[child] > a[parent]){Swap(&a[child], &a[parent]);parent = child;child = parent * 2 + 1;}else{break;}}}
注意
向下调整建堆
在实现HeapSort函数时,可以直接用向上调整建堆,也就是思路里写的那种办法。但是这里用向下调整建堆更加方便。从倒数第一个非子叶,也就是最后一个节点的父亲开始依次(以上的数)向下调整,这样就能建立出来一个小堆或者大堆。
//向下调整建堆for (int i = (n-1-1)/2; i >= 0; --i){AdjustDown(a, n, i);}
两大优势:
- 可以只写一个向下调整就解决了堆排序,而不需要用到向上排序
- 时间复杂度为O(N),效率高
2 Top K问题
TOP-K 问题:即求数据结合中前 K 个最大的元素或者最小的元素,一般情况下数据量都比较大 。 比如:专业前10 名、世界 500 强、富豪榜、游戏中前 100 的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决。
思路
1.、用数据集合中前K个元素来建堆
- 前k个最大的元素,则建小堆
- 前k个最小的元素,则建大堆
2、用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素。3、将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
代码实现
这里求前k个最大的元素——小堆。向上向下调整的代码不再赘述。
void CreateNDate()
{// 造数据int n = 10000000;srand(time(0));const char* file = "data.txt"; //文件指针FILE* fin = fopen(file, "w"); //以写的形式打开文件状态指针if (fin == NULL){perror("fopen error");return;}for (int i = 0; i < n; ++i){//写10000000个小于10000000的数int x = (rand()+i) % 10000000;fprintf(fin, "%d\n", x);}fclose(fin);
}void PrintTopK(const char* file, int k)
{FILE* fout = fopen(file, "r");if (fout == NULL){perror("fopen error");return;}// 开辟数组空间,建一个k个数小堆int* minheap = (int*)malloc(sizeof(int) * k);if (minheap == NULL){perror("malloc error");return;}// 读取前k个,建小堆for (int i = 0; i < k; i++){fscanf(fout, "%d", &minheap[i]);AdjustUp(minheap, i);}int x = 0;//读取后面的数比较进堆while (fscanf(fout, "%d", &x) != EOF){if (x > minheap[0]){minheap[0] = x;AdjustDown(minheap, k, 0);}}//打印前k个数for (int i = 0; i < k; i++){printf("%d ", minheap[i]);}printf("\n");free(minheap);fclose(fout);
}int main()
{CreateNDate(); //创造数据PrintTopK("Data.txt", 5); //取文件中最大的前5个数return 0;
}
注意
- 打开文件、写文件、关闭文件
- 随机数、随机数的种子、产生随机数
- 随机数最多3万个!!在int x = (rand()+i) % 10000000;中,rand()后面+i可以有效的减少产生重复值。
- 如果产生的随机数在x以内:%x
那么问题来了:我们该如何确保打印出来的5个数据就是最大的五个数据呢?
- 去文件里面修改5个值,使他们大于1000万,这样这5个值就一定是最大的5个值了,然后查看打印出来的是否是修改后的5个数据。
3 建堆的时间复杂度分析
向下调整建堆
O(N)
向上调整建堆
O(N*logN)≈O(N)
向下调整快的原因:
- 向下调整是节点少的调整次数多,节点多的调整次数少,且最后一行不参与调整 。
- 向上调整是节点多调整次数也多,节点少调整次数也少,且最后一行参与调整 。