【数据结构】堆排序和Top-K问题(超详细)

文章目录

  • 堆排序
    • 向上调整建堆
    • 向下调整建堆
    • 堆排序调整过程
  • Top-K问题

堆排序

排升序要建大堆,排降序要建小堆(这里以排升序为例)
排序思想:
1.首先将待排序的n个数建成大堆(此时堆顶是n个数里最大的).
2.将堆顶的值与和最后一个数交换,此时最大的值在n的位置不用管,排序剩下n-1个数(此时根除外左子树和右子树各自依旧是大堆)
3.然后向下调整,选出n-1个数里最大的值,再和n-1个数的最后一个值交换,此时n-1位置放的是第二大的值
4.然后再排剩下的n-2个数,重复就能得到这升序。

以这个数组a[] = { 4,6,2,1,5,8,2,9 }为例
这里建堆有两种方法:

向上调整建堆

1.把数组的第一个数当成一个堆,然后往后插入值再向上调整
在这里插入图片描述
在这里插入图片描述
这种建堆的时间复杂度为O(NlogN)
在这里插入图片描述

向下调整建堆

2.找到最后一个数的位置,然后找到它的父亲,再调整。
在这里插入图片描述
在这里插入图片描述
这种方法的建堆时间复杂度为O(N)
在这里插入图片描述
我们建堆肯定首选时间复杂度低的咯,所以我们一般建堆都是用向下调整建堆。


//这里是排升序,所以要建大堆
//交换函数
void Swap(HDataType* p1, HDataType* p2)
{HDataType tmp = *p1;*p1 = *p2;*p2 = tmp;}//向下调整算法
void AdjustDown(HDataType* a, int size, int parent)
{//假设左孩子大int child = parent * 2 + 1;while (child < size){if (child + 1 < size && a[child + 1] > a[child])//确保有右孩子,如果错了,更新到右边{++child;}if (a[child] > a[parent]){Swap(&a[child], &a[parent]);parent = child;child = child * 2 + 1;}else{break;}}}
//向上调整算法
void AdjustUp(HDataType* a, int child)
{int parent = (child - 1) / 2;while (child > 0){if (a[child] > a[parent]){Swap(&a[parent], &a[child]);child = parent;parent = (parent - 1) / 2;}else{break;}}}
void Heapsort(HDataType* a, int n)
{建堆N*logN//for (int i = 1; i < n; i++)//{//	AdjustUp(a, i);//}//建堆Nfor (int i = (n - 1 - 1) / 2; i >= 0; i--){AdjustDown(a, n, i);}//排序N*logNint end = n - 1;while (end > 0){Swap(&a[0], &a[end]);AdjustDown(a, end, 0);--end;}
}int main()
{int a[] = { 4,6,2,1,5,8,2,9 };int sz = sizeof(a) / sizeof(a[0]);Heapsort(a, sz);for (int i = 0; i < sz; i++){printf("%d ", a[i]);}printf("\n");return 0;
}

堆排序调整过程

当在h层时:有2^h-1个元素, 从最顶上到最底下需要走最多h-1次
从最顶上到最底下 ,所有元素需要花费的次数为 2^h-1 * (h-1)

当在h - 1层时:有2^h-2个元素, 从最顶上到最底下需要走最多h-2次
从最顶上到最底下 ,所有元素需要花费的次数为 2^h-2 * (h-2)

最终需要花费的时间就是与上面的向上调整法的结果一样,时间复杂度为O(NlogN)。

堆排序筛选法建堆和堆调整过程结合到一起,时间复杂度是O(N)+O(NlogN),进一步堆排序时间复杂度为O(NlogN)量级。

Top-K问题

TopK问题是一种常见的算法问题,要求从一组元素中找到最大或最小的K个元素。这类问题在日常生活中也经常遇到,例如排名、销量、评分等。TopK问题可以通过排序的方式解决,但是效率较低,一种更高效的方法是利用堆这种数据结构,每次堆顶要么是最大或者最小的元素。这种方法的时间复杂度是N*logK,而且不需要在内存中读入全部的元素,适用于大数据集。

我们举个例:从数据个数为9的数组a[] = { 4,3,7,9,1,5,8,2,8 };中找到前k = 3个最大的数。
第一种方法:刚刚学的堆排序就派上用场了,但是时间复杂度为O(NlogN)
如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)
第二种方法:就是建N个大小的堆,建N个数的堆为O(N),获取堆顶元素,删除掉堆顶元素为O(logN),上述操作重复 k 次,所以时间复杂度为O(N+klogN)。
如果 N 是 10 亿数,内存中放不下,是放在文件中的,前面两个方法都不能用了。
第三种方法:建k个大小的堆,将剩下的N-k个数与堆顶进行比较,比堆顶大则替换,再进行向下调整,让其再成堆,重复以上动作即可。时间复杂度:O(k + (N-K)logK)。当 N 远大于 K 时,则为O(N
logK)。

结合文件操作演示

//交换函数
void Swap(HDataType* p1, HDataType* p2)
{HDataType tmp = *p1;*p1 = *p2;*p2 = tmp;}//向下调整算法
void AdjustDown(HDataType* a, int size, int parent)
{//假设左孩子小int child = parent * 2 + 1;while (child < size){if (child + 1 < size && a[child + 1] < a[child])//确保有右孩子,如果错了,更新到右边{++child;}if (a[child] < a[parent]){Swap(&a[child], &a[parent]);parent = child;child = child * 2 + 1;}else{break;}}}
//向上调整算法
void AdjustUp(HDataType* a, int child)
{int parent = (child - 1) / 2;while (child > 0){if (a[child] < a[parent]){Swap(&a[parent], &a[child]);child = parent;parent = (parent - 1) / 2;}else{break;}}}
void CreateNData()
{int n = 10000000;srand(time(0));const char* file = "data.txt";FILE* fin = fopen(file, "w");if (fin == NULL){perror("fopen fail");return;	}for (int i = 0; i < n; i++){int x = (rand() + i) % 10000000;fprintf(fin, "%d\n", x);}fclose(fin);}void PrintTopK(const char* file, int k)
{FILE* fout = fopen(file, "r");if (fout == NULL){perror("fopen fail");return;}//建一个k个数的小堆int* minheap = (int*)malloc(sizeof(int) * k);if (minheap == NULL){perror("malloc fail");return;}//读取前k个,建小堆for (int i = 0; i < k; i++){fscanf(fout, "%d", &minheap[i]);AdjustUp(minheap, i);}int x = 0;while (fscanf(fout, "%d", &x) != EOF){if (x > minheap[0]){minheap[0] = x;AdjustDown(minheap, k, 0);}}for (int i = 0; i < k; i++){printf("%d ", minheap[i]);}printf("\n");fclose(fout);
}int main()
{CreateNData();PrintTopK("data.txt", 5);return  0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/706817.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌握Midjourney系列:3D 微缩场景

嘿&#xff0c;AI绘画爱好者们&#xff01;需要一些酷炫的视觉效果来提升你的下一个项目吗&#xff1f; 我们为你准备了超过十个极棒的 Midjourney 提示&#xff0c;让你轻松制作出精美的 3D 微缩场景。 这些提示非常适合用来美化你的文章或是纯粹为了乐趣而使用。记住&#…

计算机SCI期刊,中科院2区TOP,对国人相当友好,一周内出版!

一、期刊名称 ISA Transactions 二、期刊简介概况 期刊类型&#xff1a;SCI 学科领域&#xff1a;计算机科学 影响因子&#xff1a;7.3 中科院分区&#xff1a;2区TOP 出版方式&#xff1a;订阅模式/开放出版 版面费&#xff1a;选择开放出版需支付$3950 三、期刊征稿范…

若依plus - cloud 创建新模块(详细教程)

1、拷贝一个system模块到同级目录下 如上我拷贝了一个school的目录 2、进入herefly-school目录&#xff0c;打开pom文件&#xff0c;修改如下两个名字 &#xff08;1&#xff09; &#xff08;2&#xff09;修改启动类名&#xff08;选中的地方&#xff09; &#xff08;3&am…

在线3D展示软件三维展示软件推荐哪家?

博维数孪、动动三维和sketchfab的在线网页3D展示软件工具选择哪一比较好&#xff1f; 选择在线3D展示软件时&#xff0c;需要考虑几个关键因素&#xff0c;包括软件的功能、用户界面、价格、社区支持和兼容性等。以上几款软件工具都有各自的优势&#xff0c;具体取决于需求和偏…

Java加密签名算法学习

文章目录 一、加解密1&#xff0c;RSA2&#xff0c;DES3&#xff0c;AES 二、不可逆加密1&#xff0c;MD52&#xff0c;SHA256 三、签名1&#xff0c;RSA2&#xff0c;DSA 签名是为了验证数据的来源和完整性 加密是为了保护数据的内容&#xff0c;使其对未授权的用户不可读 一、…

【算法】二分查找——在排序数组中查找元素的第一个和最后一个位置

本节博客主要是通过“在排序数组中查找元素的第一个和最后一个位置”总结关于二分算法的左右界代码模板&#xff0c;有需要借鉴即可。 目录 1.题目2.二分边界算法2.1查找区间左端点2.1.1循环条件2.1.2求中点的操作2.1.3总结 2.2查找区间右端点2.1.1循环条件2.1.2求中点的操作2.…

JavaScript-基本数据类型和变量

基本数据类型 JavaScript支持数字、字符串和布尔值3种基本数据类型 字符串型 字符串型是JavaScript用来表示文本的数据类型&#xff0c;字符串通常由单引号或双引号括起来&#xff0c;如果字符串存在特殊字符&#xff0c;可以用转义字符代替 数字型 数字型也是JavaScript中的基…

每日一题——力扣206. 反转链表(举一反三、思想解读)

一个认为一切根源都是“自己不够强”的INTJ 个人主页&#xff1a;用哲学编程-CSDN博客专栏&#xff1a;每日一题——举一反三题目链接 目录 菜鸡写法​编辑 代码点评 代码分析 时间复杂度 空间复杂度 专业点评 另一种方法​编辑 代码点评 代码逻辑 时间复杂度 空间…

Django Celery 的配置及使用---最详细教程

Django Celery 的配置及使用 Redis提供队列消息功能 一、安装redis 系统版本&#xff1a;Ubuntu 20.041、获取最新软件包 sudo apt update sudo apt install redis-server2、安装完成后&#xff0c;Redis服务器会自动启动。查看redis是否启动成功 sudo systemctl status …

iOS ------ 多线程基础

一&#xff0c;进程和线程 1&#xff0c;进程 定义&#xff1a; 进程是指在系统中正在运行的一个应用程序每个进程之间是独立的&#xff0c;每个进程均运行在其专有的且受保护的内存进程是系统进行资源分配和调度的一个独立单位 补充&#xff1a;iOS系统是相对封闭的系统&a…

工厂自动化升级改造(3)-Modbus与MQTT的转换

什么是MQTT,Modbus,见下面文章 工厂自动化升级改造参考(01)--设备通信协议详解及选型-CSDN博客文章浏览阅读608次,点赞9次,收藏6次。>>特点:基于标准的以太网技术,使用TCP/IP协议栈,支持高速数据传输和局域网内的设备通信。>>>特点:跨平台的通信协议,…

ArrayList和LinkedList的使用

ArrayList List<> list new ArrayList<>(); LinkedList