前言
在当今的信息技术环境中,系统的稳定性和安全性至关重要。然而,在进行计划内的升级维护时,监控系统往往会产生大量的误报警告,给运维人员带来不必要的困扰。为了解决这一问题,组织可以通过合理设置静默规则,确保监控系统在升级维护期间仍能准确反映系统状态,同时避免因升级维护活动而产生的大量误报。本文将深入探讨这一解决方案的原理和配置方法,并展示其实际应用场景,帮助用户更好地管理系统升级维护过程中的告警信息,提高系统运维效率。
静默管理
观测云提供灵活好用的静默管理功能,您可以在监控>静默管理中对当前工作空间下不同的监控器、智能巡检、自建巡检、SLO、告警策略的全部静默规则进行管理。当设置静默后,静默对象在规定的静默时间内不会向任何告警通知对象发送告警通知。需要明确的是,静默指的是满足条件的事件不发送告警,但事件依然产生。
如何配置?
您可以在监控>静默管理>新建静默规则中配置所需要的静默规则,从而帮助您在已知情况或计划内的升级维护期间,屏蔽所选静默范围内的告警通知,有效过滤得到重要异常情况告警。
步骤一:选择静默范围
观测云支持您按照需求基于四个维度:监控器、告警策略、监控器标签、自定义来设置静默范围,具体说明如下:
静默维度 | 说明 |
---|---|
基于监控器 | 选择需要静默的监控器;可多选。 |
基于告警策略 | 选择告警策略,若监控器属于所选告警策略则会被静默;可多选。 |
基于监控器标签 | 选择标签,若监控器属于所选标签则会被静默;可多选。 |
自定义 | 可以基于任意维度选择要静默的监控器;可多选; 可以选定相关的监控器、智能巡检、自建巡检、SLO、告警策略作为静默对象,点击 即可跳转到详情页查看详情。 |
由于监控器在发送告警通知前会先产生 「事件」,所以,无论您选择基于以上哪一种静默维度配置规则,观测云都支持您进一步基于事件维度进行告警静默。您可以通过上图中下拉列表提供的字段进行标签筛选,或是手动输入 key、value 进行绑定。这样,当监控器产生的事件满足标签筛选条件时则不发送告警通知,反之正常告警。
值得注意的是,当您确定好静默范围时,针对所填的标签存在几种情况,实施逻辑如下:
步骤二:定义静默时间
完成配置静默范围,您就可以自定义不发送告警信息的时间范围。您可以选择「仅一次」,即可以自定义告警静默的时区、开始时间和结束时间,还可以快速设定为1小时/6小时/12小时/1天/1周。或是选择「重复」,即支持自由选定静默时间段、周期和到期时间,从而重复静默。
步骤三:配置通知对象
首先,您可以为静默规则的产生和修改配置一个或多个通知对象,当然您需要提前于监控>通知对象管理中建立所需的通知对象,支持通过邮件、机器人(企业微信、钉钉、飞书)、Webhook 进行设置。
关于如何在通知对象管理配置对象,可参见:通知对象管理 - 观测云文档
其次,设定通知对象后,您需要自定义相关的通知内容以确保被通知人能够了解静默的详细情况,以便后续及时更新。最后,支持您选择通知时间为:立刻、静默开始前 15 分钟、静默开始前 30 分钟、静默开始前 1 小时触发通知行为。
场景示例
以上就是配置静默规则的全部过程,下面我们将从实际场景出发,讲述利用自定义配置静默规则进行告警降噪。
假设在 hecs1 主机单独升级维护期间,为了防止监控系统内产生大量的相关告警通知,给运维人员造成很大困扰。我们需要预先设置静默规则来有效的控制误报情况。因此,我们要基于主机监控器,并选择 host:hecs1
作为事件属性,这样我们就静默了 hecs1 主机的事件告警通知,而除 hecs1 主机以外的其他主机将会正常发送告警通知,方便运维人员及时捕捉关键信息。
由于我们对该主机的升级维护是周期性的,因此我们设定静默时间为「重复」:每周四的 20 点至 22 点永远重复静默。同时,该静默规则我们将于静默前 15 分钟发送给相关的运维人员,以便可以根据实际情况进行灵活调整。
当然,您可以在静默管理的列表中统一管理和查看当前工作空间内的全部未过期的静默规则,包含其静默范围、静默类型、重复频率、静默时间、操作人以及其他相关操作。当然,您也可以直接切换禁用/启用某静默规则,这些操作也都会产生审计事件,可在观测云工作空间管理 > 基本设置 > 操作审计进行查看。
结语
总之,通过针对计划内的升级维护配置自定义静默规则,我们可以有效避免告警误报,提高监控系统的准确性和可靠性。这不仅有助于保障系统的稳定运行,也能提升运维人员的工作效率,使其能够更专注地处理真正的问题。因此,合理设置静默规则是企业运维管理中的重要一环,值得我们深入思考和实践。