巧用静默,原来真的可以告警零误报!

前言

在当今的信息技术环境中,系统的稳定性和安全性至关重要。然而,在进行计划内的升级维护时,监控系统往往会产生大量的误报警告,给运维人员带来不必要的困扰。为了解决这一问题,组织可以通过合理设置静默规则,确保监控系统在升级维护期间仍能准确反映系统状态,同时避免因升级维护活动而产生的大量误报。本文将深入探讨这一解决方案的原理和配置方法,并展示其实际应用场景,帮助用户更好地管理系统升级维护过程中的告警信息,提高系统运维效率。

静默管理

观测云提供灵活好用的静默管理功能,您可以在监控>静默管理中对当前工作空间下不同的监控器、智能巡检、自建巡检、SLO、告警策略的全部静默规则进行管理。当设置静默后,静默对象在规定的静默时间内不会向任何告警通知对象发送告警通知。需要明确的是,静默指的是满足条件的事件不发送告警,但事件依然产生。

如何配置?

您可以在监控>静默管理>新建静默规则中配置所需要的静默规则,从而帮助您在已知情况或计划内的升级维护期间,屏蔽所选静默范围内的告警通知,有效过滤得到重要异常情况告警。

步骤一:选择静默范围

观测云支持您按照需求基于四个维度:监控器、告警策略、监控器标签、自定义来设置静默范围,具体说明如下:

静默维度说明
基于监控器选择需要静默的监控器;可多选。
基于告警策略选择告警策略,若监控器属于所选告警策略则会被静默;可多选。
基于监控器标签选择标签,若监控器属于所选标签则会被静默;可多选。
自定义可以基于任意维度选择要静默的监控器;可多选;
可以选定相关的监控器、智能巡检、自建巡检、SLO、告警策略作为静默对象,点击 即可跳转到详情页查看详情。

由于监控器在发送告警通知前会先产生 「事件」,所以,无论您选择基于以上哪一种静默维度配置规则,观测云都支持您进一步基于事件维度进行告警静默。您可以通过上图中下拉列表提供的字段进行标签筛选,或是手动输入 key、value 进行绑定。这样,当监控器产生的事件满足标签筛选条件时则不发送告警通知,反之正常告警。

值得注意的是,当您确定好静默范围时,针对所填的标签存在几种情况,实施逻辑如下:

步骤二:定义静默时间

完成配置静默范围,您就可以自定义不发送告警信息的时间范围。您可以选择「仅一次」,即可以自定义告警静默的时区、开始时间和结束时间,还可以快速设定为1小时/6小时/12小时/1天/1周。或是选择「重复」,即支持自由选定静默时间段、周期和到期时间,从而重复静默。

步骤三:配置通知对象

首先,您可以为静默规则的产生和修改配置一个或多个通知对象,当然您需要提前于监控>通知对象管理中建立所需的通知对象,支持通过邮件、机器人(企业微信、钉钉、飞书)、Webhook 进行设置。

关于如何在通知对象管理配置对象,可参见:通知对象管理 - 观测云文档

其次,设定通知对象后,您需要自定义相关的通知内容以确保被通知人能够了解静默的详细情况,以便后续及时更新。最后,支持您选择通知时间为:立刻、静默开始前 15 分钟、静默开始前 30 分钟、静默开始前 1 小时触发通知行为。

场景示例

以上就是配置静默规则的全部过程,下面我们将从实际场景出发,讲述利用自定义配置静默规则进行告警降噪。

假设在 hecs1 主机单独升级维护期间,为了防止监控系统内产生大量的相关告警通知,给运维人员造成很大困扰。我们需要预先设置静默规则来有效的控制误报情况。因此,我们要基于主机监控器,并选择 host:hecs1

作为事件属性,这样我们就静默了 hecs1 主机的事件告警通知,而除 hecs1 主机以外的其他主机将会正常发送告警通知,方便运维人员及时捕捉关键信息。

由于我们对该主机的升级维护是周期性的,因此我们设定静默时间为「重复」:每周四的 20 点至 22 点永远重复静默。同时,该静默规则我们将于静默前 15 分钟发送给相关的运维人员,以便可以根据实际情况进行灵活调整。

当然,您可以在静默管理的列表中统一管理和查看当前工作空间内的全部未过期的静默规则,包含其静默范围、静默类型、重复频率、静默时间、操作人以及其他相关操作。当然,您也可以直接切换禁用/启用某静默规则,这些操作也都会产生审计事件,可在观测云工作空间管理 > 基本设置 > 操作审计进行查看。

结语

总之,通过针对计划内的升级维护配置自定义静默规则,我们可以有效避免告警误报,提高监控系统的准确性和可靠性。这不仅有助于保障系统的稳定运行,也能提升运维人员的工作效率,使其能够更专注地处理真正的问题。因此,合理设置静默规则是企业运维管理中的重要一环,值得我们深入思考和实践。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/258710.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot内置Tomcat线程数优化

Springboot内置Tomcat线程数优化 # 等待队列长度,默认100。队列也做缓冲池用,但也不能无限长,不但消耗内存,而且出队入队也消耗CPU server.tomcat.accept-count1000 # 最大工作线程数,默认200。(4核8g内存…

Windows下使用CMD修改本地IP

在网络适配器界面查看当前网线连接的哪个网口,我当前连的是 以太网 这个名字的: 在windows下使用管理员权限打开CMD命令工具,输入如下命令(如我想本地ip改成192.168.2.4): netsh interface ip set address "以太网" st…

人工智能从 DeepMind 到 ChatGPT ,从 2012 - 2024

本心、输入输出、结果 文章目录 人工智能从 DeepMind 到 ChatGPT ,从 2012 - 2024前言2010年:DeepMind诞生2012~2013年:谷歌重视AI发展,“拿下”Hinton2013~2014年:谷歌收购DeepMind2013年&…

Git的介绍和下载安装

Git的介绍和下载安装 概述 Git是一个分布式版本控制工具, 通常用来管理项目中的源代码文件(Java类、xml文件、html页面等)进行管理,在软件开发过程中被广泛使用 Git可以记录文件修改的历史记录并形成备份从而实现代码回溯, 版本切换, 多人协作, 远程备份的功能Git具有廉价的…

云上巴蜀丨云轴科技ZStack成功实践精选(川渝)

巴蜀——古政权必争之地 不仅拥有优越的战略位置 而且拥有丰富的自然资源,悠久的历史文化 如今的川渝经济、人口发展迅速 2023年前三季度,四川与重庆GDP增速均超过国家平均线,为6.5%为5.6% 川渝经济发展带动数字化发展浪潮 云轴科技ZSt…

《opencv实用探索·十四》VideoCapture播放视频和视像头调用

1、VideoCapture播放视频 #include <opencv2/opencv.hpp> #include <iostream>using namespace std; using namespace cv;int main() {// 定义相关VideoCapture对象VideoCapture capture;// 打开视频文件capture.open("1.avi");// 判断视频流读取是否正…

AGM离线下载器使用说明

AGM专用离线下载器示意图&#xff1a; 供电方式&#xff1a; 通过 USB 接口给下载器供电&#xff0c;跳线 JP 断开。如果客户 PCB 的 JTAG 口不能提供 3.3V 电源&#xff0c;或仅需烧写下载器&#xff0c;尚未连接用户 PCB 时&#xff0c;采用此种方式供电。 或者&#xff1a…

记录 | ubuntu降低内核版本的方法

降低 ubuntu 内核&#xff0c;比如降低到 4.15 版本&#xff0c;下载对应 4.15.0.128 内核离线安装&#xff0c;网址&#xff1a; http://archive.ubuntu.com/ubuntu/pool/main/l/linux/&#xff0c; 根据实际选择下载&#xff0c;我这里选择&#xff0c;安装的话采用 dpkg -i …

深入理解 Python 中的 eval 函数

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com eval 是 Python 中一个强大而灵活的函数&#xff0c;它允许将字符串作为代码执行。然而&#xff0c;由于其潜在的安全风险&#xff0c;使用时需要谨慎。本文将深入探讨 eval 函数的各个方面&#xff0c;包括基本…

MyBatis `saveBatch` 性能调优详解

文章目录 1. 引言2. MyBatis saveBatch 简介3. 常见性能问题3.1 SQL 语句拼接3.2 参数传递3.3 数据库连接数 4. MyBatis saveBatch 性能调优4.1 使用批量插入语句4.1.1 代码示例 4.2 使用MyBatis的foreach标签4.2.1 代码示例 4.3 使用VALUES构造器4.3.1 代码示例 4.4 调整批量大…

金融量化交易:使用Python实现遗传算法

大家好&#xff0c;遗传算法是一种受自然选择过程启发的进化算法&#xff0c;用于寻找优化和搜索问题的近似解决方案。本文将使用Python来实现一个用于优化简单交易策略的遗传算法。 1.遗传算法简介 遗传算法是一类基于自然选择和遗传学原理的优化算法&#xff0c;其特别适用…

这些接口自动化测试工具如果不知道,就真out了!

一、Postman Postman是一款广受欢迎的API测试工具&#xff0c;除了手动发送HTTP请求的基本功能&#xff0c;它还提供了自动化测试和脚本测试的功能&#xff0c;非常适合进行HTTP接口的自动化测试。 二、Rest-Assured Rest-Assured是一个Java库&#xff0c;专为REST服务的测试…