POLARDB IMCI 白皮书 云原生HTAP 数据库系统 一 列式数据是如何存储与处理的

c022ddb3dd8867d9393ba8c3fcbcf1f8.png

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共950人左右 1 + 2 + 3)新人会进入3群

第四部分将深入介绍列索引存储,这是PolarDB-IMCI处理分析查询的关键部分。PolarDB-IMCI支持高度调优的面向事务处理的云存储的基于行的存储引擎[14, 28]。然而,基于行的数据格式因其无法有效地访问分析查询而闻名。受领先的工业级数据库(例如Oracle [30]、SQL Server [32])的启发,PolarDB-IMCI通过内存中的列索引实现了双重数据格式,以增强OLAP功能。

89e5897002e9688980b58d5cf491a2a7.png

如图4所示,PolarDB-IMCI中的列索引作为现有行存储的补充存储。在PolarDB-IMCI中,表的列可以选择地参与列索引。PolarDB-IMCI将表的所有行分为多个行组,并进行追加式写入以提高写入性能。在行组中,数据的每一列都与一些统计元数据一起组织成数据包。为了提供快照隔离,每个行组都包含一个插入版本ID(VID)映射和一个删除版本ID映射来控制并发事务处理的可见性。由于行组是追加式的,因此删除操作需要显式提供给定主键的行ID以设置该行的删除版本。为此,PolarDB-IMCI实现了一个行ID定位器(即两层LSM树)来将主键映射到列索引中行的物理位置。

数据包布局。首先,将关系表分成多个行组,行组的大小可配置(即每个行组64K行),而剩余的行组则形成部分行组(例如,图4中的行组N)。为了实现快速数据摄取,行组是追加式的(§4.2)。也就是说,全尺寸的行组是不变的,而部分行组将以追加式方式完成。在行组内属于同一列的数据以压缩格式组织成数据包,以降低空间消耗。请注意,PolarDB-IMCI不会压缩部分数据包,因为它们会持续更新。

元数据。为了避免在查询执行过程中进行不必要的数据访问,PolarDB-IMCI为每个数据包维护一个包元数据。包元数据跟踪每个包的最小和最大值,以及采样直方图,这有益于列扫描。例如,当查询语句指定WHERE子句谓词时,可以使用所引用列的包元数据来检查是否可以跳过对该包的扫描。

为了更好地理解在数据包上进行DML操作的流程,现在我们描述如何在列索引数据结构上进行DML操作。

• 插入:将行插入列索引包括以下四个步骤。首先,列索引从其部分Packs中分配一个空的RID。其次,定位器通过主键更新插入的行的新RID(即在LSM树中添加新记录)。然后,列索引将行数据写入空槽中(例如,图4中行组N内的数据包)。最后,插入VID记录已插入数据的事务提交序列号(即时间戳)。由于插入VID映射维护每个插入数据的插入版本,因此也遵循只追加的写入模式。

• 删除:删除操作通过主键(PK)通过RID定位器检索行的RID,然后使用其事务提交序列号设置相应的删除VID。之后,从定位器中删除PK和RID之间的映射以确保数据一致性。

• 压缩:当部分包达到最大容量并且需要减少空间消耗时,其被转换为数据包,然后压缩到磁盘中。压缩过程采用写时复制模式,以避免访问争用。也就是说,在不更改部分包的情况下生成一个新的数据包,PolarDB-IMCI在压缩后更新元数据,以将部分包替换为新的数据包(即原子地更新指向新数据包的指针)。对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。此外,由于数据包是不可变的,当活动事务大于所有VID时,该数据包的插入VID映射是无用的,即没有活动事务引用该插入VID映射。在这种情况下,PolarDB-IMCI删除行组内的插入VID映射,以减少内存占用。

• 压缩:当部分包达到最大容量并且需要减少空间消耗时,其被转换为数据包,然后压缩到磁盘中。压缩过程采用写时复制模式,以避免访问争用。也就是说,在不更改部分包的情况下生成一个新的数据包,PolarDB-IMCI在压缩后更新元数据,以将部分包替换为新的数据包(即原子地更新指向新数据包的指针)。对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。此外,由于数据包是不可变的,当活动事务大于所有VID时,该数据包的插入VID映射是无用的,即没有活动事务引用该插入VID映射。在这种情况下,PolarDB-IMCI删除行组内的插入VID映射,以减少内存占用。

• 紧缩:删除操作可以在数据包中设置删除VID,为该数据包打洞。随着无效行数的增加,扫描性能和空间效率会下降。PolarDB-IMCI定期检测和重新排列底部的数据包,以保持列索引的无效行的低水位。例如,稀疏数据包,有效行少于一半,被选为下溢。然后,后台线程发出紧缩事务,每个迁移的有效行进行大量的更新操作,将选定数据包的所有有效行重新附加到部分包中。请注意,列索引的更新操作是原地的,因此在紧缩期间或之后,旧行仍然可以通过前台操作进行访问,从而实现非阻塞更新。在没有活动事务访问它们时,紧缩后的数据包将被永久删除。

972d4cb31fbc552742c258eac3c06ef0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/19441.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无聊猿惨遭亏本甩卖 “贵族”持有人沦为“大冤种

被称为NFT贵族的无聊猿(BAYC)正在进行挥泪大甩卖,歌手黄立成等持有者们近期不断抛售BAYC NFT,导致该系列NFT地板价一度跌至30 ETH(约5.7万美元)以下。 一年多以前,BAYC还是时尚界的宠儿&#x…

JavaCV实现byte[]转RTMP流

需求:通过私有的api我可以不断收到byte[]形式的视频数据,现在我需要处理这些数据,最终推送出RTMP流。 实现:通过管道流将不断收到的byte[]视频数据转化为输入流然后提供给JavaCV的FFmpegFrameGrabber使用,然后通过FFmp…

96、基于STM32单片机的温湿度DHT11 烟雾火灾报警器蓝牙物联网APP远程控制设计(程序+原理图+任务书+参考论文+开题报告+流程图+元器件清单等)

单片机及温湿度、烟雾传感器是烟雾报警器系统的两大核心。单片机好比一个桥梁,联系着传感器和报警电路设备。近几年来,单片机已逐步深入应用到工农业生产各部门及人们生活的各个方面。各种类型的单片机也根据社会的需求而开发出来。单片机是器件级计算机…

机器人xacro文件转换成urdf文件方法,并在rviz可视化

一、进入工作空间,source一下 cd cat_ws source devel/setup.bash二、进入xacro所在的文件夹,完成xacro文件到urdf文件的转换 cd src/kinova-ros/kinova_description/urdf/然后执行下面命令 rosrun xacro xacro.py two_arm_robot_example_standalone.…

华为路由器如何通过Console口进行基本配置

华为HCIA试听课程:不会传输层协议,HCIA都考不过https://mp.weixin.qq.com/s/oKAL8GvdrcHEb5O_8bEZZQ 思科CCNA试听课程:适合初学者:VLAN原理与配置https://mp.weixin.qq.com/s/toIJg1EVFImalrwzbTONTQ 组网图形 组网需求 通过Cons…

设计模式之责任链模式

文章目录 1、基本介绍2、包含角色3、场景推导4、责任链模式的优缺点5、使用场景 1、基本介绍 王二狗本来是干Android开发的,最近公司想让他把IOS的活也干了,但是Windows笔记本不能开发IOS,所以二狗提出买一台Mac笔记本电脑。这花钱的事需要领…

css animation 鼠标移入暂停会抖动

如图 实现一个赞助商横向滚动列表墙, 上下两排向右滚动,中间向左滚动,鼠标移入暂停当前行。 实现: // 使用animation.moving {animation: move 20s linear infinite; }keyframes move {0% {}100% {transform: translateX(-50%);…

node版本控制工具nvm使用笔记

由于不同的项目所需要的node环境不同,所以在运行支持node 12或者node 16版本的项目时卸载安装不同版本的node非常麻烦,恰巧公司有一个热心的同事告诉我可以使用nvm来进行版本控制,我使用了之后发现确实好用,写一篇笔记记录一下。 …

C#内存不够解决方法

今天在使用C#程序的时候,出现了下图的问题: 注意下图中我用红框标出的位置,实际是一个三维数组。 但是出现这个问题和三维数组没有关系。 他是提示内存不足。 百度了一下,C#在生成的过程中如果是生成对应的32位系统&#xff0c…

【优选算法】—— 滑动窗口类问题

本期,我给大家带来的是关于滑动窗口类算法的介绍,并通过具体的题目帮助大家思考理解。 目录 (一)基本概念 (二)题目讲解 1、难度:medium 1️⃣长度最小的子数组 2️⃣找到字符串中所有字⺟…

“坏邻居”导致的kafka生产者TPS下降原因排查

背景: 今天测试了两种不同的场景下kafka producer的tps性能数据,两种场景下都是使用3个线程,每个线程都是对应一个kafka producer,测试发送到kafka集群的消息的量,两个场景的区别是场景A只发送kafka消息,场…

开源代码分享(6)—考虑实时市场联动的电力零售商鲁棒定价策略(附matlab代码)

摘要:电力零售商作为连接电力批发市场与零售市场的桥梁,是电力市场化改革中的重要主体,其经营效率直接决定了市场化改革的成败。然而电力零售商在运营过程中面临着用电量需求和价格双重不确定性的市场风险,亟需通过优化市场行为以…