Roaring Bitmap

news/2024/11/5 18:01:32/文章来源:https://www.cnblogs.com/chenny7/p/14676246.html

Roaring Bitmap

原理

Roaring Bitmaps 就是一种压缩位图索引，后文统称 RBM，RBM 的用途和 Bitmap 很差不多（比如说索引），只是说从性能、空间利用率各方面更优秀了。

RBM 的主要思想并不复杂，简单来讲，有如下三条：

我们将 32-bit 的范围 ([0, n)) 划分为 2^16 个桶，每一个桶有一个 Container 来存放一个数值的低16位；
在存储和查询数值的时候，我们将一个数值 k 划分为高 16 位(k % 2^16)和低 16 位(k mod 2^16)，取高 16 位找到对应的桶，然后在低 16 位存放在相应的 Container 中；
容器的话， RBM 使用两种容器结构： Array Container 和 Bitmap Container。Array Container 存放稀疏的数据，Bitmap Container 存放稠密的数据。即，若一个 Container 里面的 Integer 数量小于 4096，就用 Short 类型的有序数组来存储值。若大于 4096，就用 Bitmap 来存储值。

举个栗子，现在我们要将 821697800 这个 32 bit 的整数插入 RBM 中，整个算法流程是这样的：

821697800 对应的 16 进制数为 30FA1D08，其中高 16 位为 30FA，低16位为 1D08。
我们先用二分查找从一级索引（即 Container Array）中找到数值为 30FA 的容器（如果该容器不存在，则新建一个），从图中我们可以看到，该容器是一个 Bitmap 容器。
找到了相应的容器后，看一下低 16 位的数值 1D08，它相当于是 7432，因此在 Bitmap 中找到相应的位置，将其置为 1 即可。

上面说到，若一个 Container 里面的 Integer 数量小于 4096，就用 Short 类型的有序数组来存储值。若大于 4096，就用 Bitmap 来存储值。

先解释一下为什么这里用的 4096 这个阈值？因为一个 Integer 的低 16 位是 2Byte，因此对应到 Arrary Container 中的话就是 2Byte * 4096 = 8KB；同样，对于 Bitmap Container 来讲，2^16 个 bit 也相当于是 8KB。

然后，基于这两种 Container，在两个 Container 之间的 Union (bitwise OR) 或者 Intersection (bitwise AND) 操作又会出现下面三种场景：

Bitmap vs Bitmap
Bitmap vs Array
Array vs Array

RBM 提供了相应的算法来高效地实现这些操作。

一个C++ 开源实现版本

https://github.com/RoaringBitmap/CRoaring

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/827245.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

36 自然语言处理

36 自然语言处理

自然语言，人类语言将语言拆分，然后处理语音识别：语音转文字，本质是音素识别语音合成

阅读更多...

力扣新手村之1342、1672、412

力扣新手村之1342、1672、412

LeetCode： 1342[将数字变成0的操作次数] 1672[最富有客户的资产总量] 412[Fizz Buzz]1342[将数字变成0的操作次数] 题目链接 LeetCode1342[将数字变成0的操作次数] 详情实例实例1实例2实例3提示题解思路判断 num 是否为0 不为0则判断 num 是否为偶数 num 是偶数则除以2 nu…

阅读更多...

什么是java序列化?什么情况下需要序列化?

什么是java序列化?什么情况下需要序列化?

序列化的定义 Java 序列化是为了保存各种对象在内存中的状态，并且可以把保存的对象状态再读出来。序列化是一种用于处理对象流的机制，它将对象的内容转换成一种可以在网络之间传输的形式。反序列化则是将这种形式的对象恢复成原来的对象。实现方式序列化是通过实现Seri…

阅读更多...

国内首位聋人 Android 软件工程师体验通义灵码，“这真是太棒了”

国内首位聋人 Android 软件工程师体验通义灵码，“这真是太棒了”

通义灵码 @workspace 功能发布后，收到了非常多新老朋友的积极反馈，其中被一位特别的朋友留下了深刻的印象。Hi 大家好！我就是人见人爱、Bug 闪开的通义灵码！上个月，我上线了一项新能力：体验通义灵码 @workspace：轻松分析项目结构，结合代码仓库理解工程、查询问答等补…

阅读更多...

诛仙3：幻心千劫|单机安装教程|虚拟机一键端|GM工具包

诛仙3：幻心千劫|单机安装教程|虚拟机一键端|GM工具包

天给大家带来一款单机游戏的架设：诛仙3-幻心千劫-16职业。游戏版本：v4.4.0 只适用于单机娱乐，此教程是本人亲测所写，踩坑无数，如果你是小白跟着教程走也是可以搭建亲测视频演示 https://githubs.xyz/show/297.mp4游戏安装步骤此游戏架设需要安装虚拟机，没有虚拟机的请…

阅读更多...

2024.11.5总结

2024.11.5总结

哦哦哦A：题目可变为：从一个点 \(x\) 走到左侧或右侧第一个 \(\geq y(y \leq x)\) 的位置需要花费 \(l_{x}\) 或 \(r_{x}\) 的代价，多次查询最短路。首先观察一个点 \(x\) 只往 \(a\) 值高于自己的位置走能走到哪些点。找到左侧从 \(x\) 出发的后缀 \(\max\) ，右侧从 \(x…

阅读更多...

设计模式速览

设计模式速览

设计模式速览前言：资料来源吉大设计模式课程，自用只提取应试回忆关键部分，省略优缺点说明，详细应用之类，扩展挑了常出现的1. 概述 1.1 类间关系 1.1.1 依赖(dependency)：一个类A使用到了另一个类B，而这种使用关系是具有偶然性的、临时性的、非常弱的，但是B类的变化…

阅读更多...

try-catch-finally 中，如果 catch 中 return 了，finally 还会执行吗

try-catch-finally 中，如果 catch 中 return 了，finally 还会执行吗

finally 一定会执行，即使是 catch 中 return 了，catch 中的 return 会等 finally 中的代码执行完之后，才会执行。下面提供了一段示例代码和运行结果。问题的核心在于当catch块中有return语句时，finally块是否还会被执行。示例代码解析public …

阅读更多...

新基地能管表DLT645-2007采集

新基地能管表DLT645-2007采集

阅读更多...

Synchronized用过吗，其原理是什么

Synchronized用过吗，其原理是什么

synchronized 是由一对 monitorenter/monitorexit 指令实现的，monitor 对象是同步的基本实现单元。在 Java 6 之前，monitor 的实现完全是依靠操作系统内部的互斥锁，因为需要进行用户态到内核态的切换，所以同步操作是一个无差别的重量级操作，性能也很低。但在 Java 6 的时候…

阅读更多...

算法与数据结构——基数排序

算法与数据结构——基数排序

基数排序基数排序（radix sort）的核心思想与计数排序一致，也通过统计个数来实现排序。计数排序适用于数据量n较大但数据范围m比较小的情况。假设我们需要对n=106个学号进行排序，而学号是一个8位数字，这意味着数据范围m=108非常大，使用计数排序需要分配大量内存空间，而基…

阅读更多...

第二届全国高校软件测试开发教育峰会在韩山师范学院隆重举办！

第二届全国高校软件测试开发教育峰会在韩山师范学院隆重举办！

10月26日-27日，由测试开发校企联合培养联盟主办、韩山师范学院承办、测吧（北京）科技有限公司及<火焰杯>软件测试开发大赛组委会协办的第二届全国高校软件测试开发教育峰会在韩山师范学院隆重举行。本次峰会汇聚了来自全国各大高校的教师及企业嘉宾，旨在共同探讨软件测…

阅读更多...

推荐文章

最新文章