【C++】哈希之位图

目录

  • 一、位图概念
  • 二、海量数据面试题

一、位图概念

假如有40亿个无重复且没有排序的无符号整数,给一个无符号整数,如何判断这个整数是否在这40亿个数中?

我们用以前的思路有这些:

  1. 把这40亿个数遍历一遍,直到找到为为止
  2. 排序+二分查找
  3. 位图解决

遍历一遍的时间复杂度为O(N);排序是O(N * logN),二分查找是O(logN),第二种还不如第一种。前面两种方法如果是针对比较小的数据的话,还行。但是如果是数据很大的,效率就低了。所以我们可以使用第三种方法,位图解决查找数据的问题。

位图概念:
位图是通过每一个比特位来判断一个数是否是在还是不在。一个二进制比特位只有两种状态,要么为0,要么为1,如果某个数据在,则对应映射的比特位为1;不在,对应的比特位为0。位图适用于海量数据处理,且数据无重复的场景,时间复杂度为O(1)

在这里插入图片描述

用位图解决前面的问题:

有40亿个无重复且没有排序的无符号整数,给一个无符号整数,如何判断这个整数是否在这40亿个数中?

首先要了解1G大约等于10亿个字节,1个整数等于4个字节,1个字节等于8个比特位。换算下40亿个整数大约是16G。但是我们不可能开出16G的内存去查找一个数,用位图就可以节省很多空间了。一个整数等于32个比特位,根据位图的概念,用每个比特位是1还是0来确定一个数到底在不在,1个整数的32个比特位可以用来确定32个数据的存在,所以16G除以32等于0.5G,即512M,这就是开辟的空间大小,是不是节省多了。

这里是我们自己模拟出来的一个简单的位图,主要有以下接口:

1️⃣构造
使用vector的接口resize开辟出N / 32 + 1的空间大小,每个位置初始化为0,为什么要除32?因为一个整数有32个比特位,这32个比特位存储在vector数组的一个位置里;为什么又要加1?因为假如开的空间大小是50,50/32等于1,那到底是一个位置还是2个位置?很明显是2个,第一个位置刚好满32个比特位,剩余18个比特位也要有位置放,因此要有第二个位置。

2️⃣将该比特位设置为1
每个数都有对应映射的比特位,将这个数除以32找到该数在数组中的位置,取模32找到映射的第几个比特位,1左移前面取模的位数,然后按位或将该比特位设置为1
在这里插入图片描述

3️⃣将该比特位设置为0
前面同上,先按位取反1左移前面取模的位数后的数,然后按位与将该比特位设置为0
在这里插入图片描述

4️⃣判断状态
前面同上,用按位与,映射的位置和1移动后的位都是1才说明这个数在
在这里插入图片描述

类的模板是非类型模板参数,传的是数据的大小。成员变量是vector类型,方便开辟空间。为什么1是左移?注意:左移不是真的往左边移,右移也不是真的往右边移,跟方向没关系。左移是往高位移动,右移是往低位移动;其次,还要看编译器,vs下是小端存储数据的,所以这里是左移。

代码:

namespace yss
{template<size_t N>class bitset{public://构造bitset(){_bit.resize(N / 32 + 1, 0);}//该比特位 置为1void set(size_t x){size_t i = x / 32;size_t j = x % 32;_bit[i] |= (1 << j);}//该比特位 置为0void reset(size_t x){size_t i = x / 32;size_t j = x % 32;_bit[i] &= ~(1 << j);}//该比特位的状态(在/不在)bool test(size_t x){size_t i = x / 32;size_t j = x % 32;return _bit[i] & (1 << j);}private:vector<int> _bit;};
}void Func1()
{yss::bitset<100> bs;bs.set(30);bs.set(60);bs.set(90);for (size_t i = 0; i < 100; i++){if (bs.test(i)){cout << i << "->" << "在" << endl;}else{cout << i << "->" << "不在" << endl;}}
}

40亿个数据,如下:

yss::bitset<-1>* bs = new bitset<-1>;//第一种写法
yss::bitset<4294967295>* bs = new bitset<4294967295>;//第二种写法

栈的空间有限,对于很大的数据,需要大量的内存空间,应该通过堆来申请。其他同上面代码。

二、海量数据面试题

1️⃣给定100亿个整数,设计算法找到只出现一次的整数?

思路:

  • 使用两个位图来实现,表示00(没有出现) - 01(出现一次) - 10 - 11 的情况(后面两个是出现2个及2个以上),本题是找到只出现一次的整数,所以最终判断这个整数在不在的条件是两个位图映射的比特位是不是01
  • 有100亿个整数,为了映射所有整数,一个位图开辟的空间大小是512M,即2的32次方个比特位,两个合起来是占1G内存

代码:

int main()
{vector<int> a{ 2,2,3,3,5,8,8,14,14,66 };bitset<-1>* bs1 = new bitset<-1>;//指针bitset<-1>* bs2 = new bitset<-1>;for (auto e : a){if (bs1->test(e) == false && bs2->test(e) == false){bs2->set(e);//00->01}else if (bs1->test(e) == false && bs2->test(e) == true){bs1->set(e);bs2->reset(e);//01->10}else{//}}for (size_t i = 0; i < -1; i++){if (bs1->test(i) == false && bs2->test(i) == true){cout << i << endl;// 5   66}}return 0;
}

2️⃣给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

思路:

  • 既然给两个文件,那么也要用两个位图。100亿个整数,跟前面一样,一个位图也是512M,两个位图刚好1G
  • 只需判断某个数据在两个位图是否存在即可,如果两个位图的对应映射的比特位都是1,就是交集;反之,有一个不是1,或者两个都是0就不是交集

代码:

int main()
{vector<int> a1{ 2,4,6,8,10,14,20 };vector<int> a2{ 1,3,4,5,7,9,10,17 };bitset<-1>* bs1 = new bitset<-1>;bitset<-1>* bs2 = new bitset<-1>;for (auto e : a1){bs1->set(e);}for (auto e : a2){bs2->set(e);}for (size_t i = 0; i < -1; i++){if (bs1->test(i) == true && bs2->test(i) == true){cout << i << endl;// 4  10}}return 0;
}

3️⃣1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

思路:

  • 步骤同问题1,在它的基础上增加了10->11的情况,即出现3次和3次以上,然后最后判断条件为出现1次和2次的数据打印出来

代码:

int main()
{vector<int> a{ 2,4,4,5,5,5,7,9,9,9,9 };bitset<-1>* bs1 = new bitset<-1>;bitset<-1>* bs2 = new bitset<-1>;for (auto e : a){if (bs1->test(e) == false && bs2->test(e) == false){bs2->set(e);//00->01 出现1次}else if (bs1->test(e) == false && bs2->test(e) == true){bs1->set(e);bs2->reset(e);//01->10 出现2次}else if (bs1->test(e) == true && bs2->test(e) == false){bs2->set(e);//10->11 出现3次}//3次以上}for (size_t i = 0; i < -1; i++){if ( (bs1->test(i) == false && bs2->test(i) == true)|| (bs1->test(i) == true && bs2->test(i) == false)){cout << i << endl;// 2  4  7}}return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/587826.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4月2号总结

java学习 一.final关键字 final英语翻译过来的意思是“最后&#xff0c;最终”的意思。 在java中&#xff0c;final有三个作用&#xff0c;修饰变量、修饰类、修饰成员方法。 1.修饰变量 final修饰的变量只能被赋值一次&#xff0c;不能被改变。 要是强行去改变final修饰…

服务器端口被扫会发生哪些故障?

在数字化时代&#xff0c;服务器作为支撑各种业务运行的核心基础设施&#xff0c;其安全性至关重要。然而&#xff0c;当服务器的端口被恶意扫描时&#xff0c;可能会引发一系列故障&#xff0c;给企业和个人带来不可估量的损失。那么&#xff0c;服务器端口被扫会发生哪些故障…

物联网实战--入门篇之(十)安卓QT--后端开发

目录 一、项目配置 二、MQTT连接 三、数据解析 四、数据更新 五、数据发送 六、指令下发 一、项目配置 按常规新建一个Quick空项目后&#xff0c;我们需要对项目内容稍微改造、规划下。 首先根据我们的需要在.pro文件内添加必要的模块&#xff0c;其中quick就是qml了&…

vue3项目运行正常但vscode红色波浪线报错

以下解决办法如不生效&#xff0c;可尝试 重启 vscode 一、Vetur插件检测问题 vetur 是一个 vscode 插件&#xff0c;用于为 .vue 单文件组件提供代码高亮以及语法支持。但 vue 以及 vetur 对于 ts 的支持&#xff0c;并不友好。 1、原因 如下图&#xff1a;鼠标放到红色波浪…

负载均衡集群

一、集群的基本原理 集群&#xff1a;数据内容是一致的&#xff0c;集群可以被替代 分布式&#xff1a;各司其职&#xff0c;每台服务器存储自己独有的数据&#xff0c;对外作为单点被访问是访问整体的数据&#xff1b; 分布式是不能被替代的&#xff1b;分布式分为MFS、GFS、…

Spring Boot | Spring Boot “整合JPA“

目录 &#xff1a; 一、Spring Data JPA”介绍“二、Spring Data JPA”要进行的操作“ :① 编写ORM “实体类” ( 编写“数据库表”对应的“实体类” 配置“映射关系”的“注解”)② 编写 Repository 接口 ( 继承“JpaRepository接口” 其中的“操作数据库”的方法 通过“注…

debian的使用笔记

1. XP风格任务栏 安装 debian-live-12.5.0-amd64-xfce.iso 后&#xff0c;把下面的任务栏删除&#xff0c;把上面的任务栏移到下面&#xff0c;然后设置如下选项 2. 命令自动补全 sudo apt install bash-completion 3. 找不到命令 sudo apt install command-not-found sudo…

拥塞控制算法系列之:Swift-谷歌2020年SIGCOM-包级别端到端TIMELY拥塞控制算法

核心要点&#xff1a; 谷歌 2020 SIGCOM基于delay的AIMD拥塞拆分EC和FC&#xff0c;时延敏感场景优势分别计算EC和FC的wnd&#xff08;最核心&#xff09;保障吞吐和低延迟。Swift 因利用延迟的简单性和有效性而闻名包级别的论文&#xff1a;https://dl.acm.org/doi/pdf/10.11…

【25考研】:四川大学计算机学院24届874考研考情分析

去年的考情分析也是我做的&#xff0c; 今年就在去年的基础上做了。保持形式不变&#xff0c;更改数据。 21考情&#xff1a; 万载月寒肠断客&#xff1a;四川大学计算机学院21届CS考研考情分析 22考情&#xff1a; 懒羊羊&#xff1a;四川大学计算机学院2022考研考情分析 2…

嵌入式数据库-Sqlite3

阅读引言&#xff1a; 本文将会从环境sqlite3的安装、数据库的基础知识、sqlite3命令、以及sqlite的sql语句最后还有一个完整的代码实例&#xff0c; 相信仔细学习完这篇内容之后大家一定能有所收获。 目录 一、数据库的基础知识 1.数据库的基本概念 2.常用数据库 3.嵌入式…

【已解决】Error: error:0308010C:digital envelope routines::unsupported

前言 场景&#x1f3ac; 使用 Ant Design &#xff0c; 执行 npm run dev 出现异常。 文章目录 前言场景&#x1f3ac; 异常信息解决方案方案一(推荐)MAC | Linux 电脑成功⬇️ Windows 电脑 方案2&#xff1a; 不懂留言 JavaPub 异常信息 我直接异常信息&#xff0c;你可以…

开源流程图表库(04):mxGraph,都是可视化编辑,导出使用。

mxGraph是一个用于创建和展示图形的JavaScript库。它提供了丰富的功能和工具&#xff0c;可以用于构建各种类型的图形应用程序&#xff0c;包括流程图、组织结构图、网络拓扑图等。 mxGraph的编辑器 一、mxGraph的特点和功能 以下是一些mxGraph的特点和功能&#xff1a; 强大…