产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?

一、简介

应急定界的方案旨在帮助运维人员以业务故障驱动为起点,第一时间的快速恢复业务。该场景的条件基础是通过构建一体化监控告警平台,纳管应用与基础组件,提供业务系统监测、及时告警、排查分析能。通过告警、指标、日志、链路等重要运维数据异常检测的能力,结合运维对象关系、告警发生时序关系快速智能的得出故障定界的结论,并匹配处置预案,用可观测的方式为运维人员提供决策依据。

二、需求背景

以金融行业为例,《金融科技发展规划(2022-2025)》以及银保监办[2022]2号文中均有强调,要求金融企业建立金融数据中心智能化运维机制,明确了要重视数据治理方面的工作并提出要合理运用大数据加强态势感知、故障预警和自愈,不断提高智能运维水平。

三、功能展示(部分)

1.跨业务系统故障分析

同时遍历管理多个业务系统,,从业务链路溯源,通过告警时序、对象拓扑关系快速定位故障源头。

2.单业务系统故障分析

单业务系统下事件问题的源端对象可能来自微服务、数据库、消息队列、云服务或网络组件等,通过分层分类的观测结合智能分析工具来准确定位处置对象。

3.应用交易指标分析

依据交易类型、交易渠道、分支机构等不同统计维度,通过聚焦热点异常维度和历史同环对比等分析工具,快速锁定具体的业务问题,并迅速采取对应交易类型限流或版本回滚等操作

4.微服务链路分析

对于由微服务化后的请求调用链路会十分复杂,造成业务链路故障的根因可能是服务器状态、数据访问、资源瓶颈等,对微服务多层链路和相关指标的可观测,是定位分布式架构下故障原因的必备手段。

四、落地实例

关键词:异常访问、快速定障、事后复盘

某国有大行在4月初的某天,手机银行系统突然爆出大量访问异常,包括用户登录异常、转账失败等。运维人员通过应急定界场景进行告警时序的排查,结合链路、指标、日志等维度数据,快速定位到是核心交易系统出现故障,经过深入挖掘发现是对公业务板块的问题,马上启动备用系统,快速恢复业务。经过数十分钟的抢修和复盘,表明此次事故是由于此时为企业工资发放高峰期,加上个人转账业务数量攀升,导致的系统瘫痪,后已全面恢复,并根据故障点进行了深度的维护升级。

在常规的业务运营中,出现生产事故是随时可能发生的事情,为了最大程度的减少损失,快速恢复业务,企业一定要尽量满足监管给到的1-5-10 等要求,因此需要搭建具备能够以业务故障驱动为起点的一体化告警平台,利用其中的多种场景组合,为业务运营的平稳高效打造出坚固屏障。

五、建设思路

1、 提升整体可观测能力

整合专业领域工具,提高业务故障驱动下的应急分析能力,数据统一汇总,破除信息孤岛,治理以运维对象和告警为主的关键数据。

2、工具化分析能力

将应急能力工具化,提升应急定界和处置的成功率,全面进行数据治理以支持复杂场景的分析效率和能力,形成系统化的定障机制沉淀。

3、自动化根因定位和恢复

实现运维数据关联的自动发现,自动匹配恢复预案,结合大模型实现交互式排障分析,完成一键推理总结。

六、风险预警场景建设收益

1、业务连续性提升

通过快速定界提升业务系统的故障恢复效率,提高业务连续性

2、提高技术赋能

赋能一线运维快速分析和定障的能力

3、获得经验沉淀

复盘事件整体思路和数据,制定对应预案

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/698576.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于uniapp+vue3+ts小程序项目实战之项目初始化

🚀 作者 :“二当家-小D” 🚀 博主简介:⭐前荔枝FM架构师、阿里资深工程师||曾任职于阿里巴巴担任多个项目负责人,8年开发架构经验,精通java,擅长分布式高并发架构,自动化压力测试,微服务容器化k…

专访安克创新CEO阳萌:仿生算法与存算一体芯片的兴起

在这篇博客中,我们将探讨人工智能的未来发展方向,特别是围绕大模型、存算一体芯片以及仿生算法的讨论。通过对安克创新CEO阳萌的专访内容进行分析,我们将尝试解答一些关于AI发展的关键问题,并对未来的技术趋势进行预测。 引言 …

Docker和Kubernetes之间的关系

Docker和Kubernetes在容器化生态系统中各自扮演着不同的角色 它们之间是互补的,而不是替代关系。 Docker是一个开源的容器化平台,它允许开发人员将应用程序及其依赖项打包到一个可移植的容器中,并确保这些容器可以在任何Docker环境中一致地…

如何利用AI生成答辩PPT?笔灵AI答辩PPT,智能识别关键点

很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路,一窍不通。但这并不是你们的错,对于平时没接触过相关方面,第一次搞答辩PPT的人来说,这是很正常的一件事。一个好的答辩PPT可以根据以下分为以下几部分来写。 1.研究的背景和…

MongoDB事务的理解和思考

3.2版本开始引入Read Concern,解决了脏读,支持Read Commit 3.6版本引入Session,支持多个请求共享上下文,为后续的事务支持做准备 4.0支持多行事务,但4.0的事务只是个过渡的版本 4.2开始支持多文档事务 1. Mongo的架…

OceanBase v4.3特性解析:新功能“租户克隆”的场景与应用指南

熟悉或曾用过OceanBase的朋友,对于“多租户”这一理念定不陌生。OceanBase的租户概念,与我们熟知的传统数据库实例颇为相似。举例来说,OceanBase的租户支持MySQL兼容模式,对于用户而言,选用一个MySQL兼容模式的租户&am…

HTML满屏漂浮爱心

目录 写在前面 满屏爱心 代码分析 系列推荐 写在最后 写在前面 小编给大家准备了满屏漂浮爱心代码&#xff0c;一起来看看吧~ 满屏爱心 文件heart.svg <svg xmlns"http://www.w3.org/2000/svg" width"473.8px" height"408.6px" view…

TiDB学习1:TiDB体系架构概览

1. TiDB体系结构 水平扩容或者缩容金融级高可用实时 HTAP云原生的分布式数据库兼容MySQ 5.7 协议 2. TiDBsever 处理客户端的连接SQL语句的解析和编译关系型数据与 kv 的转化(insert语句)SQL 语句的执行执行 online DDL垃圾回收(GC) 3. TiKV 数据持久化(行存)副本的强一致性和…

一、Windows 环境安装 Visual Studio — 全网最详细教程

目录 一、下载 Visual Studio 软件 二、运行安装程序、选择工作负载 三、完成安装&#xff0c;启动 Visual Studio 四、创建和运行代码 一、下载 Visual Studio 软件 Visual Studio 的下载网站如下&#xff1a; Visual Studio: 面向软件开发人员和 Teams 的 IDE 和代码编辑…

第33次CSP认证Q3:化学方程式配平

&#x1f344;题目描述 为了配平一个化学方程式&#xff0c;我们可以令方程式中各物质的系数为未知数&#xff0c;然后针对涉及的每一种元素&#xff0c;列出关于系数的方程&#xff0c;形成一个齐次线性方程组。然后求解这个方程组&#xff0c;得到各物质的系数。这样&#x…

【脚本】使用脚本备份docker中部署的mysql数据库

v1版本明文密码方式&#xff1a; #!/bin/bash# 定义 MySQL 容器名称和数据库信息 container_name"mysql_container" db_user"root" db_password"your_password"# 定义要备份的数据库列表 databases("database1" "database2"…

回归预测 | Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测

回归预测 | Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测 目录 回归预测 | Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测 1.Matlab实现…