位图和布隆过滤器(C++)

位图和布隆过滤器

  • 一、位图
    • 1. 引入
    • 2. 概念
    • 3. 代码实现
      • set
      • reset
      • 完整代码
    • 4. 位图的应用
  • 二、布隆过滤器
    • 1. 引入
    • 2. 概念
    • 3. 逻辑结构
    • 4. 特点
    • 5. 代码实现
    • 6. 布隆过滤器的应用
  • 三、哈希切割

一、位图

1. 引入

当面对海量数据需要处理时,内存不足以加载这些数据,这时普通的方法就不适用了。如果在这海量的数据是否存在,那么只判断状态只需要一个bit位即可,0就是不存在,1就是存在。

2. 概念

每一位都用来存放某种状态,适用于海量的数据,数据无重复的场景。通常是判断某个数据是否存在。

3. 代码实现

位操作

  1. |
    1 | 0 = 1
    1 | 1 = 1
    0 | 1 = 1
    0 | 0 = 0
  2. &
    1 & 0 = 0
    1 & 1 = 1
    0 & 1 = 0
    0 & 0 = 0

set

set运算

//把x映射的位置设为1
void set(size_t x)
{int i = x / 32;int j = x % 32;_a[i] |= (1 << j);
}

reset

reset位运算

//把x映射的位置设为0
void reset(size_t x)
{int i = x / 32;int j = x % 32;_a[i] &= ~(1 << j);
}

完整代码

namespace kpl
{template<size_t N>class bitset{public:bitset(){_a.resize(N / 32 + 1);}//把x映射的位置设为1void set(size_t x){int i = x / 32;int j = x % 32;_a[i] |= (1 << j);}//把x映射的位置设为0void reset(size_t x){int i = x / 32;int j = x % 32;_a[i] &= ~(1 << j);}bool test(size_t x){return _a[x / 32] & (1 << (x % 32));}private:vector<int> _a;};
}

4. 位图的应用

问题1:给定100亿个整数,计算只出现一次的数
问题2:找出现次数超过两次的所以整数
解答:可以使用两个位图控制,或者一个位图两个标志位控制

两个位图代码的实现:

namespace kpl
{
template<size_t N>class twobitset{public://把x映射的位置设为1void set(size_t x){//00  -->   01if (!_bs1.test(x) && !_bs2.test(x)){_bs2.set(x);}//01  -->   10else if (!_bs1.test(x) && _bs2.test(x)){_bs1.set(x);_bs2.reset(x);}}bool is_one(size_t x){return !_bs1.test(x) && _bs2.test(x);}private:bitset<N> _bs1;bitset<N> _bs2;};
}

二、布隆过滤器

1. 引入

客户端推荐新内容,每次推荐要过滤掉已经存在的历史记录。如果使用哈希表,太浪费空间。单独使用位图又不能除了字符串。
所以采用位图和哈希结合的方法即布隆过滤器。

2. 概念

布隆过滤器是一种概率性数据结构,使用多个哈希函数,将一个数据用多个哈希函数映射到一个位图结构中,因此被映射的位置的比特位一定为1。

  1. 查找
    分别计算每个哈希值对应的比特位存储是否为0,只要一个为0,则该元素一定不存在,否则可能存在在哈希表中(布隆过滤器对存在有误判)
  2. 删除
    不能直接支持删除工作,因为可能会影响其他的元素
    可以通过计数器来增加这一删除操作,但是会增加几倍的存储空间,同时因为不确定该元素是否存在,可能会误删。

3. 逻辑结构

布隆过滤器

4. 特点

优点:

  1. 增加和查询元素的时间复杂度为O(K)(K为哈希函数的个数)
  2. 哈希函数相互之间没有关系
  3. 布隆过滤器不需要存储元素本身,保密工作更好
  4. 有很大大的空间优势

缺点

  1. 存在误判,不能准确判断元素是否在集合中。(再建立白名单,保存不确定数据)
  2. 不能获取元素本身
  3. 一般不能删除元素

5. 代码实现

#include <bitset>
#include <string>
#include <vector>//哈希函数
struct BKDRHash
{size_t operator()(const string& str){size_t hash = 0;for (auto ch : str){hash = hash * 131 + ch;}return hash;}
};struct APHash
{size_t operator()(const string& str){size_t hash = 0;for (size_t i = 0; i < str.size(); i++){size_t ch = str[i];if ((i & 1) == 0){hash ^= ((hash << 7) ^ ch ^ (hash >> 3));}else{hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));}}return hash;}
};struct DJBHash
{size_t operator()(const string& str){size_t hash = 5381;for (auto ch : str){hash += (hash << 5) + ch;}return hash;}
};//布隆过滤器实现
template<size_t N,class K = string,class Hash1 = BKDRHash,class Hash2 = APHash,class Hash3 = DJBHash>
class BloomFilter
{
public:void Set(const K& key){size_t hash1 = Hash1()(key) % N;_bs.set(hash1);size_t hash2 = Hash2()(key) % N;_bs.set(hash2);size_t hash3 = Hash3()(key) % N;_bs.set(hash3);}//存在误判bool Test(const K& key){return _bs.test(Hash1()(key) % N) && _bs.test(Hash2()(key) % N) && _bs.test(Hash3()(key) % N);}private:bitset<N> _bs;
};

6. 布隆过滤器的应用

布隆过滤器的应用

三、哈希切割

给两个文件,分别有100亿个query,我们只要1G内存,如何寻找两个文件的交集?

答:
哈希切割

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/236237.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flash学习

FLASH介绍 FLASH是常用的&#xff0c;用于存储数据的半导体器件&#xff0c;它具有容量大&#xff0c;可重复擦写&#xff0c;按“扇区/块”擦除、掉电后数据可继续保存的特性。 常见的FLASH有NOR FLASH和NAND FLASH。 NOR和NAND是两种数字门电路&#xff0c;可以简单地认为F…

2023_Spark_实验二十三:Kafka的安装与基本操作

Kafka的安装与基本操作 一、前提工作 二、Kafka安装 三、Kafka基本操作 一、前提工作 必须安装了zookeeper 单机可参考&#xff1a;zookeeper单机安装与配置 集群可参考&#xff1a;zookeeper的集群安装 二、Kafka安装 上传kafka_2.11-2.4.1.tgz到/tools目录下 解压安装到…

【多传感器融合】BEVFusion: 激光雷达和视觉融合框架 NeurIPS 2022

前言 BEVFusion其实有两篇&#xff0c; 【1】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework. NeurIPS 2022 | 北大&阿里提出 【2】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation 2022 | MIT提出 本文先分…

Unity3D 导出的apk进行混淆加固、保护与优化原理(防止反编译)

​ Unity3D 导出的apk进行混淆加固、保护与优化原理&#xff08;防止反编译&#xff09; 目录 前言&#xff1a; 准备资料&#xff1a; 正文&#xff1a; 1&#xff1a;打包一个带有签名的apk 2&#xff1a;对包进行反编译 3&#xff1a;使用ipaguard来对程序进行加固 前…

SS8841 打印机驱动芯片,替代DRV8841/A5977/L6472/MP6518

SS8841 为打印机和其它电机一体化应用提供 一种双通道集成电机驱动方案。SS8841 有两路 H 桥驱动&#xff0c;每个 H 桥可提供最大峰值电流 2.5A 和均 方根电流 1.75A(在 24V 和 Ta 25C 适当散热条 件下)&#xff0c;可驱动两个刷式直流电机&#xff0c;或者一个双极 步进电机…

2023年亚太杯数学建模A题——深度学习苹果图像识别(

Image Recognition for Fruit-Picking Robots 水果采摘机器人的图像识别功能 问题 1&#xff1a;计数苹果 根据附件 1 中提供的可收获苹果的图像数据集&#xff0c;提取图像特征&#xff0c;建立数学模型&#xff0c;计算每幅图像中的苹果数量&#xff0c;并绘制附件 1 中所有…

ThermalLabel SDK for .NET 13.0.23.1113 Crack

ThermalLabel SDK for .NET 是一个 .NET 典型类库&#xff0c;它允许用户和开发人员创建非常创新的条码标签并将其发布在 zebra ZPL、EPL、EPSON ESC、POS 以及 Honeywell intermec 指纹中通过在 VB.NET 或 C# 上编写 .NET 纯代码来实现热敏打印机&#xff0c;以实现项目框架的…

【面试HOT200】回溯篇

系列综述&#xff1a; &#x1f49e;目的&#xff1a;本系列是个人整理为了秋招面试的&#xff0c;整理期间苛求每个知识点&#xff0c;平衡理解简易度与深入程度。 &#x1f970;来源&#xff1a;材料主要源于【CodeTopHot300】进行的&#xff0c;每个知识点的修正和深入主要参…

Golang语言基础之切片

概述 数组的长度是固定的并且数组长度属于类型的一部分&#xff0c;所以数组有很多的局限性 func arraySum(x [3]int) int{sum : 0for _, v : range x{sum sum v}return sum } 这个求和函数只能接受 [3]int 类型&#xff0c;其他的都不支持。 切片 切片&#xff08;Slic…

leetCode 131.分割回文串 + 动态规划 + 回溯算法 + 优化 + 图解 + 笔记

我的往期文章&#xff1a; leetCode 647.回文子串 动态规划 优化空间 / 中心扩展法 双指针-CSDN博客https://blog.csdn.net/weixin_41987016/article/details/133883091?spm1001.2014.3001.5501leetCode 131.分割回文串 回溯算法 图解 笔记-CSDN博客https://blog.csdn.n…

i己学助力构建幼教智能时代家园共育新模式

近日,为探索智能时代幼儿教育的智慧化解决方案,智能时代赢之道——2023幼教智能时代精英论坛在北京成功举办。在会议现场,来自全国各地的幼儿教育专家、园长、教师汇聚一堂,针对智能时代幼儿园所应该如何变革展开分享和讨论,“i己学智慧课堂”同期发布。 “在1-6年级阶段,平均…

HTML5+CSS3小实例:纯CSS实现文字组成肖像特效

实例:纯CSS实现文字组成肖像特效 技术栈:HTML+CSS 效果: 源码: 【HTML】 <!DOCTYPE html> <html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta name="viewport" conten…