GaussDB整体性能慢分析

news/2024/11/30 14:44:31/文章来源:https://www.cnblogs.com/xxxmut/p/18567948

@

目录
  • 问题描述
  • 问题现象
  • 告警
  • 业务影响
  • 原因分析
  • 分析步骤
  • 分析定位方法
    • 步骤一
    • 步骤二
    • 步骤三
    • 步骤四
      • CPU满
      • I/O满或者I/O异常
      • 内存满
      • 网络异常
    • 步骤五
      • 并发问题
      • 数据库配置问题
      • 异常等待事件
      • 长时间性能下降
      • 短时性能抖动
      • 不优SQL

问题描述

整体性能慢。不满足客户作业对时延要求或者不满足客户预期。

问题现象

业务反馈业务接口时延高;或者数据库P80/P95等指标升高;有可能会出现大量慢SQL。

告警

  • 业务侧相关接口时延、成功率等告警。
  • 数据库内核P80/P95相关告警。

业务影响

业务时延受损,或者业务在预期时间内无法执行完成。

原因分析

在处理整体性能慢问题时,在投入分析系统数据之前,有可能的情况下建议先去和客户沟通,了解相关问题背景,如:客户的预期或者目标、是否有业务变更、业务作业类型等,从而明确性能调优的前提和目标。
整体性能慢,首先需要找到瓶颈点,准确的瓶颈点将会对性能调优指明方向。有可能优化掉一个瓶颈点,对性能不一定有百分百的效果,同时可能又会转移到另外一个瓶颈点,优化是一个不断迭代的过程,比较耗时。
整体性能慢原因可能有多种,常见有如下几种:

  1. 业务侧原因。
  2. 系统资源不足。
  3. 不优数据库内核资源使用。
  4. 并发问题。
  5. 数据库配置不优。
  6. 不优SQL。

分析步骤

在这里插入图片描述

分析定位方法

步骤一

了解整体性能慢背景,如:客户预期、业务类型、近期业务变化、系统是否发生变化等等。

步骤二

明确压力是否传递至内核,或者说瓶颈点是否在内核侧。
可以查询数据库所在主机的CPU使用率、数据库内核相关视图、或者OPS上相关指标,明确可能是业务侧问题还是数据库侧问题,通过下面排查项可以查看是否有相关的压力传递至数据库内核。

  • 数据库相关视图:
    • pg_stat_activity/pgxc_stat_activity(track_activities=on):关注state状态为非idle的会话。
    • dbe_perf.local_threadpool_status/dbe_perf.global_threadpool_status:关注session_info字段。
  • OPS上实例监控相关指标:
    • CPU占用率。
    • 活跃会话数量。

如果说数据库活跃会话极少,数据库的吞吐大概率是无法上来,参考步骤3;否则参考步骤4。

步骤三

如果数据库侧未明显感知到业务压力,或者压力不够大,资源消耗极低,比如:CPU不足10%、活跃会话数量个位数,则建议业务侧进行相关排查,比较常见的情况可能有如下原因:

  • 应用服务器资源耗尽,CPU/IO/内存不足。
  • 应用服务器和内核网络时延过高。
  • 应用服务器处理查询结果慢,导致事务内SQL语句下发至内核慢。

步骤四

排查数据库所在系统资源是否有异常。

CPU满

可通过OPS CPU使用率或者操作系统top命令查看CPU使用率;也可以使用sar命令,查看历史的CPU使用率。

$ cd /var/log/sa 
$ sar -f sa 
12:00:01 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle 
12:10:01 AM     all     41.40      0.00     10.14      0.05      0.00     48.42 
12:20:01 AM     all     41.37      0.00     10.15      0.05      0.00     48.42 
12:30:01 AM     all     41.40      0.00     10.18      0.06      0.00     48.36 
12:40:01 AM     all     41.40      0.00     10.16      0.05      0.00     48.40 
12:50:01 AM     all     41.31      0.00     10.11      0.03      0.00     48.55 
01:00:01 AM     all     41.40      0.00     10.13      0.02      0.00     48.44

找到CPU使用率高的进程,如果是数据库导致的CPU异常,通常预期是gaussdb进程占用较高。

$ top 
top - xxxxxx up 44 days,  1:06,  0 users,  load average: 34.91, 35.33, 35.14 
Tasks: 641 total,  10 running, 631 sleeping,   0 stopped,   0 zombie 
%Cpu(s): 41.3 us, 10.1 sy,  0.0 ni, 48.6 id,  0.0 wa,  0.0 hi,  0.1 si,  0.0 st 
KiB Mem : 19748899+total, 14801132 free,  8637000 used, 17405084+buff/cache 
KiB Swap:  4194300 total,        0 free,  4194300 used. 10027731+avail Mem PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND 
10678 Ruby      20   0   54.8g  38.2g  34.6g S  1398 20.3 126085:50 gaussdb 
58736 Ruby      20   0 4901420  53220   6520 S  22.8  0.0   2624:15 cm_agent 
57648 Ruby      20   0   12.9g  90624  10168 S  10.6  0.0   1208:55 etcd

如果为某段时间内CPU高,则可比较正常时间段和异常时间段的WDR报告中Top SQL order by CPU部分,可参考后续的文章WDR报告分析。
在这里插入图片描述
如果CPU一直较高,方法一:可直接使用WDR报告中SQL ordered by CPU Time部分,尝试优化分析相关语句,可参考后续文章WDR报告分析;方法二:按照CPU高进行分析。
如果短时间CPU异常,按照CPU高进行分析。
如果仍然无法分析出CPU消耗原因,可以生成异常时间段内的火焰图,找到内核代码函数的瓶颈点,可参考后续文章火焰图分析。

I/O满或者I/O异常

表现为iostat内%util满、或者r_await较高(一般大于3ms)、或者w_await较高(一般大于3ms)。
如果上述I/O的指标存在异常,比如I/O读写量上不去、时延较高,可联系操作系统相关同事分析,可能的原因有:

  1. 硬盘cache/raid写策略配置问题。
  2. 磁盘带宽被限流(OBS本身有流控)。

如果本身I/O量大,可以使用pidstat/iotop来分析I/O量消耗的线程。

  1. pidstat -dt -p gaussdb进程号
  2. iotop

通常是TPLworker线程消耗的I/O读写量异常,代表用户SQL消耗I/O多,其中TID表示内核线程的LWTID,可通过如下过程找到对应的在运行SQL语句:

  1. pidstat/iotop内目标TID。
  2. 通过查询pg_thread_wait_status视图的lwtid为上一步内的TID,获取对应的tid和sessionid。
  3. 查询pg_stat_activity视图内记录满足pid/sessionid为上一步内的tid/sessionid,即可找到造成I/O高的session信息,包括具体的语句。

接下来就可以单独去优化相关Query,减少I/O量,可参考单SQL性能慢分析。
另外,可以通过WDR报告内SQL ordered by Physical Reads部分识别对应时间段内造成I/O读取量较大的Query,可参考后续文章WDR报告分析。
在这里插入图片描述
对于I/O量一直很大,如果是用户语句导致,也可参照IO高进行处理。

内存满

内存不足有可能会导致程序执行缓慢。
首先需要找到内存占用异常的进程,此处仅考虑gaussdb内存占用异常情况,其它进程不具有代表性意义,此处不过多描述。
gaussdb进程内存占用异常,可参照内存高进行处理。

网络异常

网络异常常见的有几种情况:

  1. 网络不通:这种场景在业务刚上线的时候,有时候会遇到,表现为数据库无压力,或者无某些业务服务器的连接,可查询pg_stat_activity相关视图内在线client连接IP信息。
  2. 网络时延高:通常表现为业务侧数据反馈时延慢,内核侧时延短,通过使用ping命令即可验证猜测。
  3. 网络带宽满:这种场景可能会比较少,一般网络带宽比较大,如果遇到这种情况可以查看ops和应用侧相关网络流量曲线,通常随着压力增长网络流量会上升,有时会遇到网络压力不再上涨,而且未达到网卡理论上限,此时可找网络同事分析相关异常点。

步骤五

排查数据库内核是否使用不优。

并发问题

此问题主要由于并发更新,产生的锁等待,从而导致业务时延上涨、TPS下降、或者线程池满等。

数据库配置问题

正常情况下,客户环境上面的GUC配置是默认较优的,一般不需要特别调整。但某一些情况下,可能未使用默认配置或者客户环境有些微调的地方。常见的可能情况有:

  1. shared_buffers配置过小,导致buffer淘汰频繁。
  2. 排序等算子可使用的work_mem过小,导致异常下盘过多,建议根据业务情况适当优化。
  3. 线程池worker参数thread_pool_attr设置过小,导致业务排队。

异常等待事件

数据库内等待事件分为 STATUS、LWLOCK_EVENT、LOCK_EVENT、IO_EVENT。
识别异常等待事件通常是非常有效的整体性能慢的诊断手段详细可参考1.2.7 整体性能慢-等待事件分析。

长时间性能下降

长时间性能下降通常的场景,通常是指某段时间(小时级)性能抖动,比如: 过去8:00-9:00性能正常,但10:00-11:11性能出现较大的性能抖动,这种场景,可以比较两段时间内WDR报告,排查报告内差异点,可排查Top SQL、Top Wait Events、Load Profile、Cache/IO Stats、Object Stats等。

短时性能抖动

当前WDR快照默认为一小时一次,正常对于小时级的性能抖动,WDR足够覆盖这种场景。但当出现秒级性能抖动,因为性能视图多为累积值,WDR通常无法体现。

不优SQL

当前数据库内核默认是开启线程池的,由于某些或者某个不优SQL慢,导致业务整体性能差,或者占满整个内核线程池,从而可能会引发更加严重的业务阻塞。
此处仅描述不优SQL识别,对于不优SQL的调优,可参考1.2.1 单SQL性能慢分析,通常分为以下几种情况:

  • 当前正在执行的SQL大批量慢:这种场景比较常见,一般可以通过pg_stat_activity查询获取相关SQL,可结合当前语句执行时间长短识别,如:(now() - query_start) as duration。
  • 发现大量慢SQL:通过OPS慢SQL指标可发现慢SQL数量短时间增加,并结合OPS的P80/P95、TPS、QPS等指标识别慢语句对整体时延的影响,如果明确相关,可查询慢语句表statement_history,找到目标慢语句,此处注意要切到postgres库。
  • 过去某段时间业务反馈慢:
    1. 可以使用相应时间段的WDR,分析异常TOP SQL,可参考1.2.4 WDR报告分析。
    2. 另外通过active session profile(ASP),分析过去运行慢的SQL。




详情参考: https://support.huaweicloud.com/gaussdb/index.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/840901.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LED芯片/点阵数码显示IC-VK16K33A SOP28大电流数码管驱动,I2C通讯接口

产品品牌:永嘉微电/VINKA 产品型号:VK16K33A 封装形式:SOP28 概述 VK16K33A是一种带按键扫描接口的数码管或点阵LED驱动控制专用芯片,内部集成有数据 锁存器、键盘扫描、LED 驱动模块等电路。数据通过I2C通讯接口与MCU通信。SEG脚接LED阳 极,GRID脚接LED阴极,可支持16SEG…

GaussDB数据库存储过程介绍

@目录一、前言二、GaussDB中的定义三、存储过程的使用场景四、存储过程的使用优缺点五、存储过程的示例及示例解析1、GaussDB存储过程语法格式2、GaussDB存储过程语法示例3、存储过程的调用方法七、总结 一、前言 华为云数据库GaussDB是一款高性能、高安全性的云原生数据库,在…

GaussDB数据库SQL系列-游标管理

一、前言 在数据库中,游标(cursor)是一种非常重要的工具,用于在数据库查询结果集中进行定位和操作。游标提供了一种在多行数据结果集中逐行处理每一行的机制,允许开发人员对每一行的数据进行操作,如检索、过滤、修改等。本文将结合GaussDB数据库,简单的给大家做一介绍。…

以学校数据模型为例,掌握在DAS下使用GaussDB

@目录题目具体操作一、表的创建二、表数据的插入三、数据查询 目的: 这里以学校数据库模型为例,介绍GaussDB数据库、表等常见操作,以及SQL语法使用的介绍。 题目 假设A市B学校为了加强对学校的管理,引入了华为GaussDB数据库。 在B学校里,主要涉及的对象有学生、教师、班级…

RGB565小工具

RGB565颜色显示和编码 使用PySide6, UI使用Qt designer生成。 在项目中驱动显示屏,使用的是RGB565的颜色格式。 有些在线的工具,可以进行RGB565颜色的选取和复制颜色值编码,但是不能实时查看字符和背景的颜色效果。 于是做了个小工具,可单独选择RGB三个颜色通道的值,指定字…

GaussDB SQL基础语法示例-常见的条件表达式

一、前言 SQL是用于访问和处理数据库的标准计算机语言。GaussDB支持SQL标准(默认支持SQL2、SQL3和SQL4的主要特性)。 本系列将以《云数据库GaussDB—SQL参考》为主线进行介绍。 二、条件表达式的概念及GaussDB中的常见条件表达式 条件表达式是指在数据库中进行SQL语句查询时,…

GaussDB SQL基础语法示例-数组表达式

一、前言 SQL是用于访问和处理数据库的标准计算机语言。GaussDB支持SQL标准(默认支持SQL2、SQL3和SQL4的主要特性)。 本系列将以《云数据库GaussDB—SQL参考》在线文档为主线进行介绍。 欢迎使用GaussDB数据库数组表达式。在本文中,我们将介绍GaussDB数据库中数组表达式的概…

周蕊、王聪的第三次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/rjjc这个作业的目标 以小组为单位,完成一个电梯演讲作业姓名-学号 周蕊-2022329301039、王聪2022329301036视频链接: http://xhslink.com/a/EbZ16dimtNp0 1.产品介绍 1.1. 产品简介实验室是高校开展教学科研和自主…

Vulnhub Hackademic:RTB1

0x01:端口扫描 主机发现 nmap -sn 192.168.231.0/24主机ip:192.168.231.136 全端口扫描 nmap -sT -sC -sV -O -p- 192.168.231.136 -oA /root/scan扫描到两个端口,22ssh端口关闭,80http端口开放,其中http跑的是apache服务器 UDP扫描 nmap -sU --min-rate 10000 -p- 192.16…

支持无限加载的js图片画廊插件

在线演示 下载natural-gallery-js是一款支持无限加载的js图片画廊插件。该js图片画廊支持图片的懒加载,可以对图片进行搜索,分类,还可以以轮播图的方式来展示和切换图片。使用方法 在页面中引入下面的CSS和js文件。<link rel="stylesheet" href="../dis…

[豪の学习笔记] 操作系统#001

操作系统的概念、功能、特征、发展和分类,终端和异常,系统调用,操作系统体系结构,操作系统引导,虚拟机1.1.1 - 操作系统的概念、功能 操作系统(Operating System, OS)是指控制和管理整个计算机系统的硬件和软件资源,并合理地组织调度计算机的工作和资源的分配;以提供给用…

Vue Devtools的下载和安装

1.下载 下载地址:https://github.com/vuejs/vue-devtools/tree/v5.1.1 下载下来zip包。解压到指定文件夹 2.安装依赖 在这个目录,执行npm install命令进行依赖安装 4. 修改配置 打开解压目录vue-devtools-master下的shells/Chrome/manifest.json文件,将代码"persistent…