智能监控,高效观测 IT 系统瓶颈

前言

云原生时代的监控系统贯穿于移动端、前端、业务服务端、中间件、应用层、操作系统等,渗透 IT 系统的各个环节。因此,在构建 IT 系统之初,就需要考虑如何打造一个完善的监控系统。当面临大量业务流量数据时,借助监控进行问题排查,可以及时有效监测系统是否存活、是否健康。

为了有效观测 IT 系统瓶颈,观测云配备了完整且强大的异常检测能力。一方面,其内置多种异常检测库,满足多种场景,无需额外配置,一键开启。另一方面,支持自定义异常检测规则,配置简单易上手,满足业务多样需求。

开箱即用的官方模版库

进入监控 > 新建 > 官方模版库,即可看到观测云内置的包含主机、Docker、Elasticsearch、Redis、阿里云 RDS、阿里云 SLB、Flink 监控在内等数十种模版。

面对多场景的监控器模板,我们可以直接通过搜索快速定位目标监控器。假定我们需要监测系统主机 CPU 使用率,如果产生异常需要及时发送告警。我们可以直接在搜索栏输入关键词,比如 “CPU”,回车即可在结果列表中选择相关监控器模板,一键创建。

示例操作效果如下:

我们可以看到,系统已经为我们准备好了必备的一些参数,在此基础上,我们按需对检测频率、区间、告警策略等修改即可。

自定义异常数据检测

目前,针对系统不同的数据范围,观测云支持自定义对应的监控检测规则,实现全覆盖监测系统海量数据。

以上 13 种检测规则详情如下:

规则名称数据范围基本描述
阈值检测全部基于设置的阈值对指标数据进行异常检测。
突变检测指标(M)基于历史数据对指标的突发反常表现进行异常检测,多适用于业务数据、时问窗短的场景。
区间检测指标(M)基于动态阈值范围对指标的异常数据点进行检测,多适用于趋势稳定时间线。
离群检测指标(M)检测特定分组下检测对象的指标/统计数据是否存在离群偏差情况。
日志检测日志(L)基于日志数据进行业务应用的异常检测。
进程异常检测进程对象(O::host_processes)定时检测进程数据,了解进程异常情况。
基础设施存活检测对象(O)基于基础设施对象数据,设置存活条件,监控基础设施的稳定性。
应用性能指标检测链路(T)基于应用性能监测数据,设置阈值规则,检测异常情况。
用户访问指标检测用户访问数据(R)基于用户访问监测数据,设置阈值规则,检测异常情况。
安全巡检异常检测安全巡检(S)基于安全巡检产生的数据进行异常检测,可以有效感知主机健康状态。
可用性数据检测可用性数据(L::类型)基于可用性监测数据,设置阈值规则,检测异常情况。
网络数据检测网络(N)基于网络数据,设置阈值规则,检测网络性能的稳定性。
外部事件检测其他将第三方系统产生的异常事件或记录通过指定 URL 地址,以 POST 请求方式发送到 HTTP 服务器后生成观测云的事件数据。

如何配置?

在开始配置操作之前,我们需要了解观测云监控器实现监控能力的基本逻辑:当配置完监控器的事件通知规则后,会依据规则内我们设置的触发条件产生不同的事件。当检测到异常事件,则会发送告警通知。

我们以配置阈值检测为例:

步骤一:检测配置

  • 首先需要选择当前检测规则的【检测频率】和【检测区间】。前者指的是检测规则的执行频率,这里我们选择默认的 “5 分钟”;后者表示每次执行任务时,检测指标查询的时间范围。这里我们选择默认的 “最近 5 分钟”。
  • 在【检测指标】,我们可以针对不同的数据类型(包含指标、日志、基础设施、自定义对象、事件、应用性能监测、用户访问监测、安全巡检和网络等数据)作检测筛选。
  • 【触发条件】表示满足紧急、重要、警告、无数据、信息这五种等级的任意一种触发条件即会产生事件。

实际填写示例如下:

步骤二:事件通知
  • 我们可以自定义当前规则告警触发条件的【事件标题】,此处我们填入“各主机磁盘使用情况”。
  • 【事件内容】即满足触发条件时发送的事件通知内容。我们可以输入 Markdown 格式文本信息。

除了自定义事件的标题与内容外,我们也可以直接使用模板变量,通过使用字段来实现文案的渲染。模板可前往 事件通知模板 - 观测云文档

当监控器无法查询到检测对象的任何数据,存在数据断档,此时数据上报可能存在异常。因此,我们可以按需配置【无数据通知配置】。此处同样支持自定义或使用模板变量。

  • 如果监控器产生异常事件告警,且我们需要协同合作、密切跟进进度,那么选择【同步创建 Issue】后,会直接创建由事件触发的 Issue。我们可以选择 Issue 的等级和需投递的目标频道。同时,还可直接设置需要通知的成员,以便及时处理异常。

实际填写示例如下:

步骤三:告警配置

如我们前文所讲,当监控满足触发条件后,会立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、告警聚合及告警沉默(设置重复告警通知)。

步骤四:关联

每一个监控器都支持关联一个仪表板,也就是,通过关联仪表板功能能够自定义快速跳转的仪表板。这里我们选择 “CPU 监控视图”。

以上步骤完成后,点击保存即可。我们可以在监控器列表查看已创建好的监控器:

自定义模板库

当我们针对某种场景创建了一个监控器并配置触发条件,可以将其保存作为模版,以便下次编辑监控器配置条件,快速创建同类型监控器监测。

保存成功后,可前往监控 > 新建 > 自定义模板库页面查看已保存为模板的监控器:

无论我们基于以上何种方式创建了监控器,最终回到监控器列表中,我们可以查看在该条规则下产生的事件及与之关联的告警策略、视图等信息。

以下图为例,点击【查看相关事件】,即可前往对应的事件查看器。在这里,我们可以查看基于监控器检测规则下,事件的基础属性、历史趋势等。

结语

如何打造一个完整闭环、简洁好用的监控系统是观测云一直在探索的命题。接下来我们会继续探讨告警策略等更多功能妙用,敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/209171.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式-16-Spring源码中的设计模式

1-Spring之观察者模式 Java、Google Guava都提供了观察者模式的实现框架。Java提供的框架比较简单,只包含java.util.Observable和java.util.Observer两个类。Google Guava提供的框架功能比较完善和强大:通过EventBus事件总线来实现观察者模式。实际上&am…

生成式AI与大语言模型,东软已经准备就绪

伴随着ChatGPT的火爆全球,数以百计的大语言模型也争先恐后地加入了这一战局,掀起了一场轰轰烈烈的“百模大战”。毋庸置疑的是,继方兴未艾的人工智能普及大潮之后,生成式AI与大语言模型正在全球开启新一轮生产力革新的科技浪潮。 …

python命令行交互 引导用户选择宠物

代码 以下代码将在命令行中,引导用户选择一个或者多个宠物,并反馈用户选择的宠物 # -*- coding:UTF-8 -*- """ author: dyy contact: douyaoyuan126.com time: 2023/11/22 15:19 file: 在命令行中引导用户选择宠物.py desc: xxxxxx &qu…

Primavera Unifier 项目控制延伸:Phase Gate理论:1/3

序 Phase Gate 看到Phase Gate(阶段控制)的翻译是“工艺控制流程”,不知道为什么,总有一种隔靴搔痒的感觉,我琢磨了很久,觉得应该翻译成“阶卡(qia)”。所谓“Phase”就是“阶段”…

vsphere系列 :虚拟机配置直通GPU后,启动时出现 模块“DevicePowerOn”打开电源失败 的解决方案

vsphere中的虚拟机配置直通GPU后,启动时出现 模块“DevicePowerOn”打开电源失败 的解决方案 vsphere中的虚拟机配置直通GPU后,启动时出现 模块“DevicePowerOn”打开电源失败 的解决方案1、虚拟机配置GPU直通1、打开虚拟机选项2、点击编辑配置3、添加如…

工业I/O模块的功能和应用介绍

在工业领域中,不同的设备常常适配不同的通信协议,不同的协议之间无法直接互通,导致现场实施过程中困难重重。工业io模块可以将各种现场信号转化为数字信号,然后传输给控制器进行处理,实现不同设备之间的互通&#xff0…

使用C语言统计一个字符串中每个字母出现的次数

每日一言 Wishing is not enough; we must do. 光是许愿望是不够的; 我们必须行动。 题目 输入一个字符串,统计在该字符串中每个字母出现的次数 例如: 输入:i am a student 输出:a:2 d:1 e:1 i:1 m:1 n:1 s:1 t:2 u:1 大体思路…

joplin笔记同步 到腾讯云S3

创建存储桶 打开腾讯云的存储桶列表,点击“创建存储桶”,输入名称,选择地域(建议选择离自己较近的地域以降低访问时延)和访问权限(建议选择“私有读写”)。 s3 存储桶: 存储桶的名称…

Linux常用命令——blockdev命令

在线Linux命令查询工具 blockdev 从命令行调用区块设备控制程序 补充说明 blockdev命令在命令调用“ioxtls”函数,以实现对设备的控制。 语法 blockdev(选项)(参数)选项 -V:打印版本号并退出; -q:安静模式; -v&…

企业该怎么选择IP证书

IP证书是一种数字证书,它由权威的数字证书颁发机构(CA)颁发,部署在只有公网IP地址的站点上,用于在网络中验证身份和保护信息安全。IP证书可以在各种场景下保护网站的信息安全,比如网站vip登录,线…

Altium Designer学习笔记9

忽视了一个最大的问题,就是元器件的封装,不应该是根据AD系统的封装走,而应该是根据立创商城上的规格书,确认每个封装的大小,画出封装图,然后才是布局和走线。 1、确认电容的封装采用0805,贴片电…

UML建模图文详解教程01——Enterprise Architect安装与使用

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl Enterprise Architect概述 官方网站:https://www.sparxsystems.cn/products/ea/;图示如下: Enterprise Architect是一个全功能的、基于…