数据库监控运维方案,保障高性能及高可用

news/2024/11/13 9:24:16/文章来源:https://www.cnblogs.com/zhtelecom/p/18381203

        随着企业对数据高可用的需求日益增长,对于数据库的实时监控和故障自动恢复方案愈发重要。作为关系到企业运转的关键数据存储和管理体系,数据库的稳定和可用关系到企业业务的连续性与数据安全,一旦数据库遭遇性能瓶颈或发生故障,企业很可能会面临业务的暂停甚至数据丢失。

        北京智和信数据库监控与自愈方案实时监控数据库运行情况,在数据库性能出现波动或故障萌芽之时,迅速捕捉并做出应对,以保障数据库的高可用。

第1章 数据库监控范围与指标

        智和信通方案通过构建对关键指标的监控,实现对数据库性能和资源的实时追踪,识别并解决影响的数据库问题,保障数据库的高性能及高可用性,更全面地支持业务及应用的稳定、持续运行。

1.1.常见数据库

        方案支持的数据库涵盖MySQL、SQL Server、Oracle、Sybase、DB2、PostgreSQL、Redis、PostgreSQL、达梦、人大金仓、南大通用、ChinaDB、Polardb-O等国内外主流数据库。其他较为小众的数据库品牌也可通过灵活可配的模型库进行扩展适配。

1.2.常见资源监测点和指标

        本方案通过主动轮询和日志解析的方式对数据库的常见性能指标,如响应时间、连接数、慢查询、缓存信息、读写信息、表信息等进行监控,同时除内置的常见指标外,其他资源和指标也可以通过模型库不断进行拓展。

常见数据库监测点和指标

资源监测点

监测指标

基础信息

数据库名称、版本号、空间利用率、归档方式、用户名及权限等

Ping

连接状态、响应时长等

连接信息

连接数、并发连接数、活动连接数、连接失败数、当前打开线程数、最大连接数、被阻塞会话数、最大连接率、缓存线程数等

SGA缓存信息

读命中率、写命中率、利用率、缓冲池读命中率、缓冲池利用率等

IO读写信息

写速度、写次数、读速度、读次数等

进程信息

进程ID、占用CPU时间、占用内存大小等

表信息

表空间大小、可用表空间大小、表空间使用率、当前锁总数、死锁数、等待锁数等

操作信息

查询操作次数、插入操作次数、删除次数、修改次数、慢查询次数等

索引信息

索引请求数、磁盘索引请求数、索引命中率、已用缓存簇、未用缓存簇、缓存簇使用率等

 

1.3.数据库品牌型号及指标扩展

        方案采取用户自定义扩展数据库品牌、类型及其资源的方式,赋予用户强大的适配能力,最大可能地实现对不同时期、不同品牌、不同型号数据库的管控;支持自定义数据库类型、数据库资源、故障监视器、性能监视器、TRAP监视器等。

第2章 数据库实时监控

        随着信息化时代的不断发展,数据对企业的重要性愈加显露,而数据库作为企业信息系统的核心部分,承载着大量关键数据的存储和管理任务,对保障信息安全、促进数据交流共享、推动数据分析决策等起到重要作用。因此,对于数据库的监控管理不仅可以提高信息系统性能,还对保障数据的完整性和安全至关重要。

2.4.数据库图像化监控

2.4.1.自动发现数据库及其他设备

        智和信通具备独特的数据库自动发现技术,在网络可达范围内,仅需输入IP范围即可自动发现网络中的数据库及其他设备,识别数据库品牌、版本的信息,生成数据库内部资源拓扑,匹配故障与性能监视器,并自动发现数据库与其他设备的连接关系,生成可视化链路,通过可视拓扑动态展示数据库、链路的运行状态。

2.4.2.自动生成网络拓扑

        方案以图形化方式系统展现网络拓扑关系,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络,在拓扑中以不同颜色图标、光效展现数据库的实时状态信息。

2.4.3.可视化展示数据库资源

        在拓扑图的基础上,进一步展示数据库的细节,以图形方式展示数据的基础信息、连接信息、SGA缓存信息、IO读写信息、进程信息、表信息、锁信息、索引信息等核心指标,对数据库进行细化监控,实时告警,事前管理,降低故障发生率。

2.5.数据库性能态势感知

        实时监测并感知数据库的相关性能情况,多维度处理、分析、展示数据库性能态势,实现“可观、可管、可控”。

2.5.1.全面监控数据库性能

        全面采集数据库的各项性能指标,如表空间大小、表空间使用率、进程数量、读/写操作命中率、碎片程度、连接数、线程数等,并可按照时间范围、资源类型、性能指标等多种维度,以图形、表格等多种形式进行展示。

2.5.2.实时、历史性能分析

        对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。运维人员能随时把握数据库性能变化态势,防患于未然。

2.5.3.多数据库性能对比

        支持选择多台数据库进行同维度性能数据分析,提供可视化性能对比视图,通过性能对比分析数据库性能变化趋势。

 

2.6.日志与事件管理

        接收数据库主动发送如数据查询、数据插入、数据删除、数据库停止运行、数据库重启、连接失败等事件与日志消息,集中存储、解析处理后,将错误、告警、攻击行为等异常信息及时地通知用户。通过统一界面集中管理事件与日志,提高其完整性和可追溯性,帮助用户快速定位问题并采取相应的解决措施。

2.7.故障告警与智能收敛

        搭载多种告警机制,自定义配置告警阈值,具备主动的故障监控功能,从众多的事件和状态中,系统地将零散的状态信息,总结成为当前状态,并对异常状态进行告警,第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位产生告警的数据库,提升告警处理效率,极大降低因数据库故障带来的损失。

        告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,有效避免误报和漏报,直达故障根因。

2.8.数据库状态自动巡检

        可自定义巡检策略,预设执行时间进行自动化巡检,定期巡查数据库实时运行状态,并向指定邮箱发送结果报告,把握网络运行中的易出现问题的环节,做到预防为先。可自行选择要统计的网络范围、数据库类型、资源类型、数据库支撑的业务、数据库关联的链路等生成巡检报表。

第3章 数据库承载的业务状态拨测

        针对数据库所支撑的业务应用性能与用户体验进行检测分析,无需安装插件就可以为用户提供开箱即用的企业级主动拨测式业务监测。以拓扑形式展示每个业务流程中的每台相关设备,支持设备逻辑视图和面板视图,展示业务流程中涉及的所有的设备之间的链路关系,流程方向。

        构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、数据库、中间件、数据库、操作系统等进行实时监控分析,呈现业务各节点的实时运行状态,包括用户体验、节点可用性、节点负载等状态信息,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。

第4章 统计报表和大屏展示

        通过定义数据库相关数据报表的能力,实现数据库性能和状态的灵活展现和统计分析,通过对比、TOPN等分析方式并结合报表排序规则、过滤规则等能力,周期自动生成报表,帮助用户更好地了解数据库的各项负载情况和运行态势,为优化资源配置和性能调整提供依据。

        通过大屏展示核心运维数据态势,细粒度可达网络中数据库、数据库资源和链路。所有的网络故障与性能瓶颈都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。

第5章 数据库远程控制和编排式配置

        方案提供数据库远程控制的能力,采用“监控+运维+控制”的方式,将不同类型、不同型号的数据库统一纳入控制管理。通过智能算法对数据库的资源配置进行智能动态调整,当数据库出现性能瓶颈时,自动调优资源配置,优化数据库运行环境,当数据库发生故障时,自动启动自愈机制,快速恢复数据库的正常运行,最大限度地保障业务的稳定运行。

5.1.数据库远程配置执行

        将周期性、重复性、规律性的大量日常数据库配置工作,如创建/删除表、查看/修改表结构、启动/停止服务、定期备份数据库、重启数据库、修改数据库配置文件等,转化为依托于平台的自动执行工作流,实现对数据库的批量、定时自动化控制。

5.2.故障自愈以一键解锁数据库为例

        以数据库实时监控和日志、事件管理为基础,动态发现网络故障,智能判断告警类型及级别,利用自动化故障诊断和修复能力,实现对数据库常规故障的自动处置,特殊告警触发升级与工单,最终实现故障恢复,减少人工干预,提高运维效率。

        下面以一键解锁数据库为例,介绍如何通过智和网管平台实现数据库故障自愈。

        效果要求:当数据库锁表时,触发自动解锁,解锁表。

        第一步:将需要管理的数据库纳入平台进行监控,并将监视器设置为数据库出现锁表进行严重级别告警。

        第二步:进入安管模块的运维编排菜单,创建【数据库一键解锁】策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。

        第三步:配置触发方式。方式支持通过告警触发和通过时间触发两种方式进行,为实现故障自愈的效果,我们选择通过匹配告警的方式触发策略。

        编排流程配置完成后,设备出现对应的警后,立即触发数据库解锁作业流,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可循。

5.3.配置备份、对比与恢复

        支持配置文件批量备份、下载、周期性备份、查看等,对数据库的多个备份文件进行对比。定期自动对数据库配置进行巡检备份,并可进行对比分析,为用户管理网络做出合理的建议提供数据支撑,支持进行已备份配置间的对比分析和针对性的配置恢复。

第6章 数据库资产CMDB管理

        通过构建数据库资产数据库,将数据库的信息包括资产编号、资产名称、品牌型号、来源、购买日期、负责人等信息以及维保到期时间、维保单位等维保信息统一管理。

        动态感知纳入监控的数据库运行状态,并以图谱的方式呈现数据库与其他资产、配品配件、机房、机柜、网络链路、使用人等静态关联关系。

第7章 数据库运维工作全面无纸化

        结合数据库运维工作,如数据库采购、维修、更换等业务需求场景,自定义工单模板内的字段,并对字段排序进行调整,使工单根据业务的不同更加贴合用户实际使用情况。将数据库运维相关工作全面转为无纸化办公,简化运维工作流程,在每个处理流程的节点上责任到人。

第8章 应用价值

        北京智和信通为用户提供了一个全面高效的数据库监控运维方案,有效地对数据库进行监管,在实现性能监控的同时,融入更多的人工智能和大数据分析等前沿技术,预测潜在的性能瓶颈和故障风险,提前介入,实现从“被动响应”到“主动预防”的跨越。

        在提升业务稳定性和连续性方面,智和信通数据库监控运维方案通过采取严格的监控、预警、故障排查与自愈机制,快速响应并处置数据库运行中的各种问题,有效减少或避免服务中断问题的出现。通过实时监控发现数据库运行中的异常指标,如CPU使用率过高、内存占用过大等等这些性能下降预示,通过自动或手动地调整资源配置、清洗无效数据等操作,提升数据库整体稳定。

        在优化数据库性能、提升用户体验方面,随着业务量的增长,数据库面临着越来越大的性能压力,本方案通过对数据库性能的实时监控、回溯分析,帮助用户了解数据库基础性能、索引性能、查询性能、响应时间、事务处理速度、并发连接数等核心指标,为用户数据库性能调优提供基础数据。基于核心性能数据,运维人员可以更加精准地评估数据库的负载能力,对数据库进行合理地分配和调整,提升数据库处理能力和响应速度。

        此外,北京智和信通还注重用户体验,全平台提供了直观易用的监控界面和详尽的报告系统,让非技术背景的管理人员也能轻松掌握数据库健康状况。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/787588.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VL22 根据状态转移图实现时序电路

和上一题的第一段完全相同,第二段只是根据状态转移有部分改变,本体使用三段式状态机来写,第三段写法和上一题不一样。`timescale 1ns/1nsmodule seq_circuit(input C ,input clk ,input rst_n,output wire Y );…

Datawhale X 李宏毅苹果书 AI夏令营 深度学习01

神经网络的优化,通常我们使用梯度下降的方法对获取最优的参数,已达到优化神经网络的目的。另外,我们也可以对学习率进行调整,通过使用自适应学习率和学习率调度,最后,批量归一化改变误差表面,达到优化的目的。 同样,也会存在优化失败的时候,在收敛在局部极限值或者鞍点…

京东搜索重排:基于互信息的用户偏好导向模型

SIGIR 24: A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search 链接:https://dl.acm.org/doi/abs/10.1145/3626772.3661359 摘要:重排是一种通过考虑商品之间的相互关系来重新排列商品顺序以更有效地满足用户需求的过…

探索AC自动机:多关键词搜索的原理与应用案例

引言 目前,大多数自由文本搜索技术采用类似于Lucene的策略,通过解析搜索文本为各个组成部分来定位关键词。这种方法在处理少量关键词时表现良好。但当搜索的关键词数量达到10万个或更多时,这种方法的效率会显著下降,尤其是在需要与词典进行详尽对比的场景中。本文将介绍的A…

VL21 根据状态转移表实现时序电路

根据给的状态转移表知道有两个状态:第一列的为current_state,第二三列为next_state,且仅当current_state==11时候Y为1(使用()?:语法实现)。三段式状态机的流程: 第一段:时序逻辑,公式化写法 第二段:组合逻辑,这里要注意always @(*)是固定写法,不能像第一段写成时…

Vue3.5新增的baseWatch让watch函数和Vue组件彻底分手

Vue3.5新增了一个baseWatch,让watch函数和Vue组件彻底分手,他的实现和Vue组件以及生命周期没有一毛钱关系。前言 在Vue 3.5.0-beta.3版本中新增了一个base watch函数,这个函数用法和我们熟知的watch API一模一样。区别就是我们之前用的watch API是和Vue组件以及生命周期是一…

硬件设备snmp配置,snmp如何检测联通信

【1】山石网科防火墙 环境需求:设备与 prometheus 服务器之间需要放通UDP161端口,且网络能连通配置路径:系统——SNMP 1、配置SNMP代理 勾选‘启用’选项,并点击 应用 即可 2、配置SNMP主机 点击‘新建’,添加 zabbix服务器IP地址跟团体名,权限为 只读,点击 确定 完成新…

mmdetection中的dataset pipline

参考: 轻松掌握 MMDetection 整体构建流程(二) 商汤开源目标检测工具箱mmdetection代码详解(三)----------mmdetection数据的输入、处理过程 1. mmdetection中的数据加载流程 pipline中由一系列数据处理模块对数据集进行流水线般的处理要注意的是,上述pipline流程在3.x版本…

南沙信奥赛陈老师讲题:1331:【例1-2】后缀表达式的值

1331:【例1-2】后缀表达式的值 时间限制: 10 ms 内存限制: 65536 KB提交数:65784 通过数: 17299 【题目描述】从键盘读入一个后缀表达式(字符串),只含有0-9组成的运算数及加(+)、减(—)、乘(*)、除(/)四种运算符。每个运算数之间用一个空格隔开,不需要…

windows解决0x80070035找不到网络路径的问题

windows进行网络共享,无法访问,报错0x80070035,找了好几个办法都没有用.无意间尝试开启有密码保护的共享后,成功解决问题. 搜索高级共享->管理高级共享设置->密码保护的共享->勾选有密码保护的共享

使用nginx代理,简单实现一个静态网页功能(扫描二维码)

1、创建项目目录 mkdir my-image-page cd my-image-page2、准备图片和HTML文件上传图片:将 image.jpg 上传到 my-image-page 目录。创建HTML文件:在同一目录下创建一个 index.html 文件<!DOCTYPE html> <html lang="en"> <head><meta charset…