TOP-K问题和向上调整算法和向下调整算法的时间复杂度问题的分析

TOP-K问题

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大

比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。
举个例子:
有十亿个整形数据,我们的内存时4G,也就是102410241024*8个字节的空间,十亿个整形数据需要的是40亿个字节的空间,就占了内存的一半空间,这是不可行的

最佳的方式就是用堆来解决,基本思路如下:

  1. 用数据集合中前K个元素来建堆
    前k个最大的元素,则建小堆
    前k个最小的元素,则建大堆
  2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素,将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素

下面我们进行代码的实现:
首先我们生成1000个随机数,范围再十万以内,放入一个数组中:

srand(time(0));
int* a = (int*)malloc(sizeof(int) * 1000);
if (a == NULL)
{perror("malloc");return 0;
}
for (size_t i = 0; i < 1000; i++)
{a[i] = rand() % 100000;
}

然后我们随机将数组中的任意k个元素改为超过十万的数字,方便验证:

a[7] = 100000 + 1;
a[49] = 100000 + 2;
a[123] = 100000 + 3;
a[456] = 100000 + 4;
a[789] = 100000 + 5;

我们还要用到向下调整算法,以便于建堆:

void swap(int* p1, int* p2)
{int temp = *p1;*p1 = *p2;*p2 = temp;
}
void AdjustDown(int* a, int n, int parent)
{int child = (parent * 2) + 1;while (child < n){if (child + 1 < n && a[child + 1] < a[child]){child++;}if (a[child] < a[parent]){swap(&a[child], &a[parent]);parent=child;child = parent * 2 + 1;}else{break;}}
}

最后我们将a数组中的前k个元素插入到top_k函数的数组里,然后进行一次向下调整算法,将其调整为大堆,然后再用剩下的n-k个元素与堆顶元素进行比较,如果比他大进替换进堆,然后进行向下调整

void top_k(int* a, int n, int k)
{int i = 0;int* top = (int*)malloc(sizeof(int) * k);if (top == NULL){perror("malloc");return;}for (i = 0; i < k; i++){top[i] = a[i];}for (i = (k - 1 - 1) / 2; i >= 0; i--){AdjustDown(top, k, i);}for (i = k; i < 1000; i++){if (a[i] > top[0]){top[0] = a[i];AdjustDown(top, k, 0);}}

完整代码如下:

#include<stdio.h>
#include<stdlib.h>
#include<time.h>
#include<assert.h>
void swap(int* p1, int* p2)
{int temp = *p1;*p1 = *p2;*p2 = temp;
}
void AdjustDown(int* a, int n, int parent)
{int child = (parent * 2) + 1;while (child < n){if (child + 1 < n && a[child + 1] < a[child]){child++;}if (a[child] < a[parent]){swap(&a[child], &a[parent]);parent=child;child = parent * 2 + 1;}else{break;}}
}
void top_k(int* a, int n, int k)
{int i = 0;int* top = (int*)malloc(sizeof(int) * k);if (top == NULL){perror("malloc");return;}for (i = 0; i < k; i++){top[i] = a[i];}for (i = (k - 1 - 1) / 2; i >= 0; i--){AdjustDown(top, k, i);}for (i = k; i < 1000; i++){if (a[i] > top[0]){top[0] = a[i];AdjustDown(top, k, 0);}}for (i = 0; i < k; i++){printf("%d ", top[i]);}free(top);
}
int main()
{srand(time(0));int* a = (int*)malloc(sizeof(int) * 1000);if (a == NULL){perror("malloc");return 0;}for (size_t i = 0; i < 1000; i++){a[i] = rand() % 100000;}a[7] = 100000 + 1;a[49] = 100000 + 2;a[123] = 100000 + 3;a[456] = 100000 + 4;a[789] = 100000 + 5;int k = 5;top_k(a, 1000, k);
}

向上调整算法和向下调整算法的时间复杂度

因为堆是完全二叉树,而满二叉树也是完全二叉树,此处为了简化使用满二叉树来证明(时间复杂度本来看的就是近似值,多几个节点不影响最终结果):
在这里插入图片描述
我们令高度为h,节点个数n就等于2^(h)-1个
那么在向上调整算法中:
最坏情况下,最后一层的节点需要向上移动h-1次,依次类推,就得到总次数的表达式,然后再用错位相减法和n和h的关系就能求出时间复杂度f(n)了
在向下调整算法中:
最坏情况下,倒数第二层节点向下只移动一次,第一层最多移动h-1次

总结下来我们就会发现,向上调整算法中是多节点乘多层数的关系,而向下调整算法则是多节点乘少层数的关系,我们进行比较就会发现其实向下调整算法的效率更高,所以在平常的排序和建堆中我们 最常用的还是向下调整算法
在这里插入图片描述
向上调整算法的时间复杂度为:

n*log(n)

向下调整算法的时间复杂度为:

log(n)

因此,向下调整算法的效率是远大于向上调整算法的!
好了,今天的分享到这里就结束了,谢谢大家的支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/245075.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【java+vue+微信小程序项目】从零开始搭建——健身房管理平台(1)spring boot项目搭建、vue项目搭建、微信小程序项目搭建

项目笔记为项目总结笔记,若有错误欢迎指出哟~ 【项目专栏】 【java+vue+微信小程序项目】从零开始搭建——健身房管理平台(1)项目搭建 持续更新中… java+vue+微信小程序项目】从零开始搭建——健身房管理平台 项目简介Java项目搭建(IDEA)1.新建项目2.项目类型3.项目设置4…

MySQL 的 NULL 是怎么存储的?

目录 一、MySQL介绍 二、什么是NULL 三、MySQL 的 NULL 是怎么存储的 一、MySQL介绍 MySQL是一种关系型数据库管理系统&#xff08;RDBMS&#xff09;&#xff0c;它是一种开源软件&#xff0c;由瑞典MySQL AB公司开发&#xff0c;后被Sun Microsystems收购&#xff0c;现在…

难以置信,一个小小的需求让我捣鼓出一个提效的网站来

难以置信&#xff0c;一个小小的需求让我捣鼓出一个提效的网站来 需求介绍 事情是这样的&#xff0c;有个群友在业务当中碰到一个小小的需求&#xff0c;需求是这样的: 页面当中存在多个输入框&#xff0c;输入框的 value 值是一个数值组成的字符串&#xff08;盲猜应该是身份…

【面试经典150 | 二分查找】搜索二维矩阵

文章目录 写在前面Tag题目来源题目解读解题思路方法一&#xff1a;二分查找 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法&#xff0c;两到三天更新一篇文章&#xff0c;欢迎催更…… 专栏内容以分析题目为主&#xff0c;并附带一些对于本题涉及到的数据结构等…

【Unity动画】Unity 动画播放的流程

本文以2D为案例&#xff0c;讲解Unity 播放动画的流程 准备和导入2D动画资源 外部导入序列帧生成的 Unity内部制作的 外部导入的3D动画 2.创建动画过程 打开时间轴Ctrl6 选中场景中的一个未来需要播放动画的物体 回到时间轴点击Create一个新动画片段 拖动2D动画资源放入…

Redis数据库

服务器结构 struct redisServer {/* General */pid_t pid; /* Main process pid. */pthread_t main_thread_id; /* Main thread id */char *configfile; /* Absolute config file path, or NULL */char *executable; /* Absolut…

科研小白必收藏,手把手教你写医学论文!

一篇完整的论文应包括标题、摘要、引言、方法、结果、讨论、致谢、参考文献八个部分&#xff0c;每个部分的写作都有技巧。 1.标题 标题一般采用名词词组或名词短语的形式&#xff0c;个别杂志也允许陈述句的形式。标题必须简单、明了&#xff0c;醒目。题目要新颖&#xff0c…

分享74个节日PPT,总有一款适合您

分享74个节日PPT&#xff0c;总有一款适合您 74个节日PPT下载链接&#xff1a;https://pan.baidu.com/s/18YHKkyJsplx-Gjj7ofpFrg?pwd6666 提取码&#xff1a;6666 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;收集整理更不易…

quickapp_快应用_父子组件传值

目录 页面级组件自定义组件(子组件)引入自定义组件(子组件)父组件给子组件传值子组件给父组件进行传值父组件调用子组件的方法 页面级组件 在pages中定义的组件被称为页面级组件。 页面级组件(等同于Vue页面)&#xff0c;通过路由配置可以进行页面跳转。 自定义组件(子组件)…

JS学习--类型转换

函数转换 parseInt() 转换之前&#xff0c;首先会分析该字符串。判断位置为0处的字符串&#xff0c;判断是否为有效数字&#xff0c;若否&#xff0c;直接返回NaN&#xff0c;不再继续&#xff1b; 若是&#xff0c;继续打印直到不为数字的地方停止 parseFloat() 转换之前&…

TA-Lib学习研究笔记(三)——Volatility Indicator

TA-Lib学习研究笔记&#xff08;三&#xff09;——Volatility Indicator 波动率指标函数组 Volatility Indicators: [‘ATR’, ‘NATR’, ‘TRANGE’] 1.ATR Average True Range 函数名&#xff1a;ATR 名称&#xff1a;真实波动幅度均值 简介&#xff1a;真实波动幅度均值…

CRM选型:避免盲目跟风,要选最适合自己的!

CRM系统品牌繁多&#xff0c;各有优劣。对CRM系统不够了解的企业该如何选到适合的CRM系统&#xff1f;针对这个问题&#xff0c;我们就来聊聊&#xff0c;如何判定CRM系统是否适合自身企业&#xff1f; 一、综合性 CRM系统应该具有很好的综合性能&#xff0c;能够管理客户的整…