优维产品最佳实践第14期:让重要告警能有序跟进,最终根治

监控系统的首要任务是利用特定指标来反映系统内部的健康状态,当指标异常时,会触发告警。对于简单告警的处理,基于告警轨迹可清晰记录和观察告警的状态变化过程。

然而,对于一个复杂告警的处理,可能需要多角色多部门协同解决。

本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 1. 如何利用故障工单的高级能力去追踪每一次告警?

  • 2. 如何在工单流程中嵌入自动化的方式推动故障的修复?

「 背 景 」

监控系统的首要任务是追踪资源对象的运行状况,利用特定指标来反映系统内部的健康状态。当这些指标出现异常时,系统会触发告警,通知管理员需要关注,并且提供异常指标的上下文信息以支持后续的分析、处理和验证。因此,告警的生命周期对于及时而有效地处理系统异常情况至关重要。

对于简单故障的处理,我们基于事件轨迹可以清晰记录和观察告警的状态变化过程。

然而,对于一个复杂故障的处理可能会涉及如下流程

这个流程需要协同多个角色的参与,以解决故障。显然,单纯依赖事件中心的事件轨迹无法满足复杂故障的需要,尤其是在多用户和多部门需要协同合作的情况下。因此,将告警转化为故障工单的方式来追踪和处理将成为明智的选择。

「 配 置 说 明 」

优维监控平台直接支持对接到故障工单模块,当告警产生时,可以直接转故障工单去跟进整个事件的处理和流转。如下图所示:

当点击转故障工单后,会跳转到【发起工单】的步骤,此时根据系统内置的流程和表单,可以动态获取告警的上下文信息并回填到表单中。

当然,您也可以自定义流程和表单,以符合实际的业务环境。

>> 表单回填

当告警发生时,通过转故障工单,可以通过关联脚本的方式获取告警的上下文信息,并回填到表单中。例如:

您可以在故障录入这个节点把所有表单项都使用事件上下文去填充,也可以人为去填写一些内容。

提交工单后,工单就根据设定好的流程流转到相关部门或相关人员中以进一步处理。

>> 历史追溯

当这个流程结束后,也意味着故障生命周期的结束。此时,您可以通过工单历史非常方面了解在处理故障时每一个步骤的具体过程,这为故障的历史回溯和归档提供了非常便捷的工具。

另外,当故障的处理需要多部门协调时,比如需要研发参与以修复bug,可以在表单中填写bug的相关信息,而后触发后置脚本去自动创建bug卡片,以触发后续的研发修复流程。

总的来说,故障转事件中心为您提供了一个强大,灵活和高效的故障跟进和处理过程,以流程的方式去记录和追踪故障的每一个处理步骤,以实现故障的闭环和为后续的故障复盘提供支撑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/178499.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB(一):CentOS7离线安装MongoDB单机版与简单使用

CentOS7离线安装MongoDB单机版与简单使用 1、概述2、安装社区版2.1、前置条件2.2、下载.tgz文件2.3、解压文件2.4、安装MongoDB Shell 3、运行MongoDB服务端3.1、关于ulimit3.2、目录设置3.3、创建mongod.conf3.4、运行MongoDB3.5、检查MongoDB是否已运行 4、使用MongoDB4.1、操…

【cfeng-work】架构演进和漫谈

架构漫谈和入门 内容管理 intro分层架构MVC模式分层架构大数据时代的复杂架构 前端架构后端架构运维端架构持续演进变化 本文主要是自己接触架构的一些输出漫谈 cfeng 在work中某次负责了后端一个服务的上线,多个模块一起上,结果上线失败,幸运…

Maven:通过相对路径向jar中添加依赖项

问:我有一个专有的jar,我想把它作为一个依赖项添加到我的pom中。 但我不想把它添加到存储库中。原因是我希望常用的maven命令(如mvn compile等)能够开箱即用。(无需要求开发人员自己将其添加到某个存储库中)。 我希望jar在源代码控制中的第三方库中&…

day22_mysql

今日内容 零、 复习昨日 一、MySQL 一、约束 1.1 约束 是什么? 约束,即限制,就是通过设置约束,可以限制对数据表数据的插入,删除,更新 怎么做? 约束设置的语法,大部分是 create table 表名( 字段 数据类型(长度) 约束, 字段 数据类型(长度) 约束 );1.1 数据类型 其实数据类型…

【经验记录】Ubuntu系统安装xxxxx.tar.gz报错ImportError: No module named setuptools

最近在Anaconda环境下需要离线状态(不能联网的情况)下安装一个xxxxx.tar.gz格式的包,将对应格式的包解压后,按照如下命令进行安装 sudo python setup.py build # 编译 sudo python setup.py install # 安装总是报错如下信息&am…

初识VBA代码及应用VBA代码第四节:如何录制宏

《VBA之Excel应用》(10178983)是非常经典的,是我推出的第七套教程,定位于初级,目前是第一版修订。这套教程从简单的录制宏开始讲解,一直到窗体的搭建,内容丰富,实例众多。大家可以非…

使用github copilot

现在的大模型的应用太广了,作为程序员我们当然野可以借助大模型来帮我们敲代码。 下面是自己注册使用github copilot的过程。 一、注册github copilot 1. 需要拥有github账号 ,登录github之后,点右侧自己的头像位置,下面会出现…

Linux编译器:gcc/g++的使用

我们在学习编译器时,我们不仅要只会使用编译器,还要理解程序的编译过程。一个程序存在两个不同的环境。第1种是翻译环境,在这个环境中源代码被转换为可执行的机器指令;第2种是执行环境,它用于实际执行代码。本篇文章将…

TrOCR模型微调【基于transformer的光学字符识别】

TrOCR(基于 Transformer 的光学字符识别)模型是性能最佳的 OCR 模型之一。 在我们之前的文章中,我们分析了它们在单行打印和手写文本上的表现。 然而,与任何其他深度学习模型一样,它们也有其局限性。 TrOCR 在处理开箱…

改进YOLOv8:结合ICCV2023|动态蛇形卷积,构建不规则目标识别网络

🔥🔥🔥 提升多尺度、不规则目标检测,创新提升 🔥🔥🔥 🔥🔥🔥 捕捉图像特征和处理复杂图像特征 🔥🔥🔥 👉👉👉: 本专栏包含大量的新设计的创新想法,包含详细的代码和说明,具备有效的创新组合,可以有效应用到改进创新当中 👉👉👉: �…

人工智能-深度学习之残差网络(ResNet)

随着我们设计越来越深的网络,深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力,在这种网络中,添加层会使网络更具表现力, 为了取得质的突破,我们需要一些数学基础知识。 ResNet沿…

碾压Fast Request!IDEA插件推荐:Apipost-Helper

IDEA是一款功能强大的集成开发环境(IDE),它可以帮助开发人员更加高效地编写、调试和部署软件应用程序。我们在编写完接口代码后需要进行接口调试等操作,一般需要打开额外的调试工具,而今天给大家介绍一款IDEA插件&…