【运维 Pro】时序场景实践与原理 - 1. 分布与分区

【运维 Pro】: 是由 YMatrix 售前和售后团队负责的栏目。除了介绍日常的数据库运维和使用知识,我们更希望能够通过介绍这些知识背后的原理,让大家和我们一起感知数据库的美妙。

摘要

有别于其它场景,时序场景中的数据、查询都有着更为明显的特征;也因此,YMatrix 可以针对这些特征进行深度优化,最终带来出色的性能表现。

然而在时序场景中使用 YMatrix 时,会发现不同的使用方式有时会带来明显的性能差异;究其原因,只有针对时序场景精心设计,才能最大的发挥 YMatrix 在时序场景的性能优势。

我们会从 YMatrix 在时序场景中的最佳实践出发,深入逻辑和原理,一起讨论我们做什么、如何做、为什么。

作者:徐福贵|YMatrix 售后工程师 & 王任远|YMatrix MXUI 研发工程师

01 准备知识

作为本系列的第一篇文章,我们先简单介绍一些准备知识。

什么是时序数据

简单来说,时序数据就是: 设备标识 + 时间戳 + 指标 * N 。

以一个传感器记录的温度数据作为简单的例子:

  1. 设备标识:1 或多个字段组成的设备唯一标识

  2. 时间戳:指标采集时刻的时间戳

  3. 指标:设备采集到的许多不同的指标值

关于时序场景和时序数据的更多介绍,可以阅读 YMatrix 官方文档。(参考:时序数据模型)

使用 MARS3 存储引擎创建分区表

通常的,在时序场景会使用分区表进行存储。相比较其他数据库,YMatrix 针对时序场景进行了全方位优化,拥有诸多优势。这里我们以最新的 MARS3 存储引擎为例(其他存储类型也可参考),初步介绍如何针对使用场景创建表,以及其背后的基础逻辑。

MARS3 是在 YMatrix 5.1 中发布的最新存储引擎,相比 MARS2, 提供了数据更新与删除功能,并支持增删列,及 MVCC 机制,在 AP 和 TP 场景下都有明显的性能提升。

对应上面的例子,我们可以这样创建表:

CREATE TABLE  ts_demo(     ts timestamp WITH time zone,     device_id varchar(20) ,    temperature float)USING mars3DISTRIBUTED BY (ts, device_id)  -- 分布键:ts + device_idORDER BY (ts,device_id)         -- MARS3 特有排序列PARTITION BY RANGE(ts)          -- 分区键: ts(                               -- 分区策略:每天一个分区 START ('2023-07-01') INCLUSIVE  END ('2023-07-10') EXCLUSIVE  EVERY (interval '1 day'),  DEFAULT PARTITION default_p) ;

复制代码

针对时序场景,在创建表时,除了数据对应的字段类型,我们还需要重点关注和理解两个基础的问题:

02 如何选择分布键

在 YMatrix 中,一张表的数据会根据分布键和分布算法分散在不同节点上。

当执行查询时,如果涉及的数据均匀的分布在所有计算节点上,那么负载就会平均分配到每个节点上,自然能在并行执行时更充分的利用硬件资源,达到最佳性能表现。

反之,如果查询涉及的数据分布不均,那么执行查询时,就会出现数据量大的节点负载大,数据量小的节点负载小的问题;负载分布不均就意味着一些节点的资源未能充分利用,最终性能表现就可能不达预期。

因此,我们选择表的分区键,基本原则是让查询时涉及的数据尽可能均匀分布至各个节点上,数据分布越均匀,查询性能就越好。

要达到这一目的,首先需要理解时序场景查询的特点。

通常来讲,时序场景查询的条件均包含 时间戳(和设备标识 )的限定条件,比如:

1. 某一时刻,所有设备的某个指标的均值 。

--- SQL 1:求某一个时刻("2023/07/01 13:50:00") 所有设备的温度的平均值SELECT AVG(temperature) FROM test_demo WHERE ts = "2023/07/01 13:50:00"

复制代码

2. 指定时间段内,所有设备的某个指标的最大最小值。

--- SQL 2:求指定设备(D0001) 的在指定时间区间( [2023/07/01 13:00 ~ 14:00) )的温度的平均值SELECT AVG(temperature) FROM test_demoWHERE device_id = "D0001"AND ts >= "2023/07/01 13:50:00" AND ts < "2023/07/01 14:00:00";

复制代码

设备标识 + 时间戳

针对这两个典型的时序场景查询,使用 设备标识 + 时间戳 作为分布键,是最佳方案,可以使查询时涉及的数据分布更均匀。

此时,数据分布的情况如下:

扫描命中的数据

下图描述了这两个查询在执行时,命中数据的分布情况。从图中我们看出,命中的数据是在 2 个计算节点上均匀分布的,此时查询性能最佳。

SQL 1

扫描命中的数据

SQL 2

扫描命中的数据

为什么不能只用时间戳?

如果只用时间戳,会导致所有设备在某个时间点采集的数据都落在一个节点上,那么查询时只有一个数据节点的资源能够被充分利用。

扫描命中的数据

为什么不能只用设备标识?

这样的话一个设备的数据都在同一个计算节点上,当查询该设备的历史数据时,又仅有一个节点的资源能够被充分利用。

为什么不能用指标列?

一个指标列通常在一定取值范围内波动,并会有大量重复、空值;当指标列作为分布键,就会有大量同值数据分布在同一个节点上,不仅不能做到查询时涉及的数据均匀分布,连存储时的均匀分布都做不到。

03 如何选择分区键

由于几乎所有时序场景的查询,都包含时间戳作为限定条件,所以将时间戳作为分区键,无论是在插入数据还是在执行查询时,都能保证直接找到对应的分区,因此,将时间戳作为分区键,是最为合理的。

04 如何设计分区策略

简单来说,分区策略就是设置多长时间为一个分区。

分区机制对查询的加速主要在于能够能够减少查询时扫描数据的数量:当查询条件命中表中的某个分区时,数据库仅会对命中分区中的数据进行扫描,因此,查询条件命中的分区越少,其中的存储的数据越少,最终所扫描的数据就越少,执行速度也就越高。

因此,在设计分区策略时,我们的目标是尽可能的让查询条件命中的分区更少。

以两个典型的查询为例,我们来估算不同分区策略带来的查询开销差异:

  1. 指定的某个日期(如 7 月 3 日)的所有设备的平均温度。

  2. 指定的某周(如 7 月 3 日 ~ 7 月 9 日)某个设备的温度最大值/最小值。

假定每天的数据量为 N 条,有两种策略:

  1. 按日分区:每天一个分区,每个分区含 N 条数据

  2. 按周分区:每周一个分区,每个分区含 7N 条数据

对于按日分区策略,查询时扫描的分区和对应的数据量为:

对于按周分区策略,查询时扫描的分区和对应的数据量为:

由此可见,对于给定的查询,相比按周分区,按天分区策略在查询时扫描的数据量要小的多,所以效率要更高;而如果查询 1 被更频繁执行的,业务查询的整体耗时差异会更大。

总之,分区策略需要根据具体查询来设计。比如,当小时粒度的查询更多,那么按小时进行分区就会是更为合理的策略。

冷热数据:实际生产环境中,距离当前时间较远数据(冷数据)更有可能被按照更长的周期进行查询(比如按月),而距离当前时间较近(热数据)则更有可能被按照较短间隔查询(比如按小时)。因此,冷数据适宜设置更长的分区间隔(按月),热数据设置更小的分区间隔(按小时)。在最新的 YMatrix 5.1 中提供了降级存储功能,能够实现数据的全自动冷热分级。

本文为 YMatrix 原创内容,未经允许不得转载。

欲了解更多超融合时序数据库相关信息,请访问 “YMatrix 超融合数据库”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/106974.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python DVWA文件上传POC练习

首先&#xff0c;构造POC我们首先要明白漏洞利用的流程&#xff0c;然后要知道请求包的格式&#xff0c;然后才能针对性的POC 这里先选择低难度的文件上传&#xff0c;低难度的是没有任何过滤可以直接上传的&#xff0c;先上传一个php一句话木马&#xff0c;使用burpsuite抓包 …

C语言——qsort()函数_学习笔记

本文目录 一、qsort()介绍二、参数详解三、qsort()函数应用举例3.1 排序数组类型的数据3.2 排序结构体类型的数据 四、模拟实现qsort()函数4.1 冒泡排序简单介绍4.2 实现bubble_sort()函数 一、qsort()介绍 qsort()函数是一个库函数&#xff0c;包含在头文件 <stdliib.h>…

实验课一 -- 粒子群算法PSO

文章目录 算法说明&#xff1a;算法流程&#xff1a;代码实现&#xff1a;结果展示&#xff1a;结束 算法说明&#xff1a; 我看了下别人写的&#xff0c;这个粒子群算法的思想来源与鸟类捕食 我按我的理解解释一下&#xff1a; 很多只鸟在草原找食物&#xff0c;所有鸟刚开始…

如何使用bat脚本启动指定目录下的jar包

士别三日&#xff0c;当刮目相待。——《三国志》 为了将一个java程序封装成一个简单易用的小工具&#xff0c;使用bat脚本启动jar包。 在txt文档中&#xff0c;键入&#xff1a; echo off java -jar %~dp0core\demo.jar 注意&#xff1a; 1、其中“core”是文件夹的名称&am…

[学习笔记]DeepWalk图神经网络论文精读

参考资料&#xff1a;DeepWalk【图神经网络论文精读】 word2vec 相关论文&#xff1a; Efficient Estimation of Word Representations in Vector Space Distributed Representations of Words and Phrases and their Compositionality 随机游走Ramdom Walk简述 通过随机游…

软件设计模式(二):工厂、门面、调停者和装饰器模式

前言 在这篇文章中&#xff0c;荔枝将会梳理软件设计模式中的四种&#xff1a;工厂模式、Facade模式、Mediator模式和装饰器Decorator模式。其中比较重要的就是工厂模式和装饰器模式&#xff0c;工厂模式在开发中使用的频数比较高。希望荔枝的这篇文章能讲清楚哈哈哈哈&#xf…

【网络通信 -- WebRTC】FlexFec 基本知识点总结概述

【网络通信 -- WebRTC】FlexFec 基本知识点总结概述 【1】FlexFec 的保护方案 假设存在一组源数据包(D L)&#xff0c;其序列号从 1 开始运行到 D L 一维非交错行 FEC(1-D Non-interleaved Row FEC) : 一种连续的源数据包进行保护的方案&#xff0c;可用于恢复按行分组的源…

配置远程访问:让外部网络用户能够使用公司内部的OA办公系统

文章目录 前言1. 确认在内网下能够使用IP端口号登录OA办公系统2. 安装cpolar内网穿透3. 创建隧道映射内网OA系统服务端口4. 实现外网访问公司内网OA系统总结 前言 现在大部分公司都会在公司内网搭建使用自己的办公管理系统&#xff0c;如OA、ERP、金蝶等&#xff0c;员工只需要…

SpringBoot 基于 MongoTemplate 的工具类

一、 什么是MongoDB MongoDB基于分布式文件存储的数据库。由C语言编写。MongoDB是一个高性能&#xff0c;开源&#xff0c;无模式的文档型数据库&#xff0c;是当前NoSql数据库中比较热门的一种。 他支持的数据结构非常松散&#xff0c;是类似json的bjson格式&#xff0c;因此…

S/4 FI之FBL3N/FBL3H/FAGLL03/FAGLL03H的区别

SAP 系统中&#xff0c;为了显示财务凭证行项目&#xff0c;由于不同的时间开发的功能&#xff0c;但实际在使用的过程&#xff0c;到底有些什么样区别&#xff1f; 本文档就是想对这一个问题做一个整体上的说明。 FBL3N&#xff0c;就是传统的行项目报表&#xff0c;在最早的…

vue3之pinia简单使用

一、 Pinia介绍 pinia 是 Vue 的存储库&#xff0c;它允许您跨组件/页面共享状态。就是和vuex一样的实现数据共享。 依据Pinia官方文档&#xff0c;Pinia是2019年由vue.js官方成员重新设计的新一代状态管理器&#xff0c;更替Vuex4成为Vuex5。 Pinia 目前也已经是 vue 官方正式…

9.4 数据库 TCP

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);//判断数据库对象是否包含了自己使用的数据库if(!db.contains("Stu.db")){//不存在数据库&#xff0…