MonitorRank 论文笔记

news/2025/3/7 1:36:28/文章来源:https://www.cnblogs.com/mianmaner/p/18756860

背景

MonitorRank 是最早使用随机游走的策略定位故障根因服务的方法,MonitorRank 把系统的服务分成三类:

  • 前端服务:负责接收用户的请求以及进一步调用下游请求以完成用户的请求。
  • 应用服务:负责真正处理用户请求的逻辑。
  • 数据服务:负责提供经过包装的数据。

(应用服务和数据服务又统称为后端服务)

在每个服务上,配置有传感器,会定时给出指标数据。通过服务之间的调用关系,可以形成一个调用拓扑图。图上的节点就是服务,边就是节点之间的调用关系。

框架

Metric Collection

将指标传递给一个称为Kafka的集中式代理系统,按更粗的时间粒度聚合(即设定的间隔)并存储到按时间分区的数据库中。

Batch Mode Engine

来自 Kafka 的指标数据也由批处理系统 Hadoop 使用,并存储在 Hadoop 的分布式文件系统 (HDFS) 上。 Hadoop 定期将指标数据的快照作为输入,并输出调用图和外部因素。

伪异常聚类:对于检测异常,这里使用历史度量数据文献中的各种检测算法之一。检测算法的输出是 { 异常的前端传感器、相应的metric、时间范围(时刻)}。由于这些检测到的异常可能不一定是真实的,因此我们将它们称为伪异常。对于每个伪异常,我们需要计算相应指标数据与所有其他传感器的相似度。

对于异常时刻t,相似度计算公式如下:

共享方差 δ2是相对于每个伪异常时刻 t 的所有传感器与异常的平均相关性 μ(t) 以及误差 ε(t)的

(这里与异常的相关性具体怎么计算原论文并没有体现)

image-20231124113738731

聚类算法的输入是 (a) 种子前端传感器 vfe(即 v1) (b) 来自历史数据的各种伪异常时刻(t1、····、tk) (c) 模式相似度得分传感器的数量(S(t1)、····、S(tk))

根据传感器的模式相似度得分将传感器(前端传感器除外)分为两组。一组由表示低模式相似性分数(接近零)的传感器组成,另一组包含显示高模式相似性分数(接近 μ(t))的传感器。我们将后一组称为给定伪异常时刻的异常簇。

Real-time Engine

对于每个传感器 vi,相对于异常传感器 vfe 的 metric 相似性得分 Si 的计算如下:

image-20231124113754753

(Sim(·,·)是两个时间序列数据之间的固定相似性函数)

基本思想是根据相似度分数在调用图上进行随机游走,通过在调用图中的邻居节点中随机选取下一个传感器。每个邻居节点的选取概率与其与给定异常的相关性成正比。

从任何一个怀疑的节点入手,每次都根据转移概率(目标节点和异常的相关性)从上一个节点的邻居中选择下一个节点。MonitorRank 假设在许多次随机游走过程中,被访问越多的节点越可能是根因,即被访问的概率就是根因排序依据的分数。

self-edges

实际上可能一个节点本身就是根因,只有其本身与异常的相关性很高,这会导致随机游走不得不游走到相关性很低的节点上。因此MonitorRank 额外定义了自环,自环的概率代表的就是一个节点本身就是根因的概率。

backward-edges

一旦随机游走时落入到了与给定异常不太相关的节点时,随机游走器很可能就自然的被困在调用图的分支内。因此 MonitorRank 给每一条边都引入了反向边,反向边的权重就代表了转移概率错误的概率

确定了转移概率 P 和偏好向量 u,PPV 就可以得到如下:

image-20231124113810981

PPV即为最终的的得分向量

为什么使用随机游走

MonitorRank 的灵感来自于生物有机体通过执行随机游走有效地搜索其目标(例如气味来源),即使来自生物体的感官数据并不可靠 。此外,随机游走算法也类似于诊断期间的人类行为。当监控团队的工程师除了调用图之外对系统一无所知时,自然诊断方法之一是按照调用图随机遍历传感器,优先查看行为不当的节点。

结果

  • RS、NEP、SC、TBAC为Baselines
  • Mean Average Precision (MAP) 反映整体性能

image-20231124113822556

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/894902.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MicroRank 论文笔记

任务 异常检测->根因定位(服务实例级别)(针对延迟问题) 贡献MicroRank 是第一种通过正常和异常trace提取信息来对微服务应用程序进行根本原因定位的方法 我们提出了一种基于扩展频谱分析的微服务环境中新颖的根本原因定位方法 我们将 OpenTelemetry trace API 纳入 Goog…

Log3T 论文笔记

挑战 ① 基于可用日志先验知识设计的日志解析器性能有限,且不具有泛化性 ② 一些日志解析器在日志本身差异性大时无法正常工作 ③ 劳动密集型模型调整 框架离线训练 使用 WordPiece 进行 Tokenization(子词模型),然后输入到 Transformer 中进行上下文特征集成,然后输入 si…

软件工程-作业2:第一次个人编程作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringClassof2023这个作业在哪里 https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringClassof2023/homework/13324这个作业的目标 系统化流程地完成软件开发,使用性能测试工具和单元测试以优化…

LLaVA 论文笔记

介绍 提出了 visual instruction-tuning,这是将指令微调扩展到多模态的首次尝试 相关工作 多模态的指令微调 Agent、指令微调 数据 使用 ChatGPT/GPT-4 来将数据转化为 multimodel instrustion-following data 为每一个图像生成三种 mulmodal instruction-following data,对于…

FastAPI 请求体参数与 Pydantic 模型完全指南:从基础到嵌套模型实战

title: FastAPI 请求体参数与 Pydantic 模型完全指南:从基础到嵌套模型实战 🚀 date: 2025/3/7 updated: 2025/3/7 author: cmdragon excerpt: 本教程深入探讨 FastAPI 请求体参数与 Pydantic 模型的核心机制,涵盖从基础模型定义到嵌套模型的高级用法。通过详细的代码示例…

主机、主机中的Ubuntu虚拟机、与ixm6ull开发板三者互ping且均能联网个人流程记录

1.0 设备连接要求笔记本通过网线连接到开发板,且笔记本通过 usb转type-c线连接到开发板的对应位置(USB TTL那个)。 笔记本需要连接WIFI。 笔记本、开发板、Ubuntu虚拟机启动且能够正常运行。2.0 打开WIFI的网络共享 控制面板 -> 网络和 Internet -> 网络和共享中心,选…

基于PID控制器的六自由度串联机器人控制系统的simulink建模与仿真

1.课题概述 基于PID控制器的六自由度串联机器人控制系统的simulink建模与仿真。2.系统仿真结果 (完整程序运行后无水印) 3.核心程序与模型 版本:MATLAB2022a 4.系统原理简介六自由度串联机器人控制系统是机器人学中的一个核心问题,其中PID控制器因其简单、实用和易于调整…

Windows快捷方式文件相对路径

前言全局说明Windows快捷方式相对路径 通常情况下创建快捷方式,使用的都是绝对路径,如果文件目录迁移到别的地方,不同路径下,那么这个快捷方式就失效了,如果使用相对路径,只要父文件夹不变,那么子文件夹中的快捷方式就能一直有效。一、说明 1.1 环境: Windows 11 家庭版…

基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真

1.程序功能描述 基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真,仿真输出计算违约点,资产价值波动率,信用溢价,信用溢价直方图等指标。 2.测试软件版本以及运行结果展示MATLAB2022A版本运行 (完整程序运行后无水印) 3.核心程序%计算违约点 DP …

Java笔记-17、Web后端基础 Java操作数据库

JDBCsun公司官方定义的一套操作所有关系型数据库的规范,即接口。 各个数据库厂商去实现这套接口,提供数据库驱动jar包。 我们可以使用这套接口(JDBC)编程,真正执行的代码是驱动jar包中的实现类。public void testUpdate() throws Exception {// 注册驱动Class.forName(&qu…

netcore后台服务慎用BackgroundService

在 .NET Core 开发中,BackgroundService 是一个非常方便的后台任务运行方式,但它并不适用于所有场景。 BackgroundService 一时爽,并发火葬场。 BackgroundService 适用于单实例的无状态后台任务,例如:定期清理任务(删除过期数据、日志清理) 轻量级定时任务(如定期检查…

基于遗传优化SVM的电机参数预测matlab仿真

1.算法运行效果图预览 (完整程序运行后无水印)输入:电机结构参数x1 x2 x3 x4 x5(分别是铁心高度 铁心厚度 绕组匝数 窗口宽度 导线截面积 ) 目标值:体积v、加速度ax、加速度ay和加速度az 2.算法运行软件版本 matlab2022a3.部分核心程序 (完整版代码包含详细中文注释和操作…