优维产品最佳实践第20期:控制台全链路监控

  • 之前我们会觉得cmdb自动发现没有上报很难排查,弄不清楚数据的上报链路;
  • 监控指标的数据断点很难定位,flink对现场来说是一个黑盒子;
  • apm数据更新不及时到底是上报异常还是入库失败呢?

现在控制台集成了对数据链路的监控,数据上报链路全透明,问题节点一目了然,极大的减少问题定位的难度。

「 全 链 路 监 控 」

全链路监控包括原始指标链路、告警链路、Trace原始链路、Trace聚合链路、资源发现链路、指标入库成功率报错。平台常用的数据链路都已纳管,可以清楚的判断数据链路是否异常。链路治理可以帮助我们分析整体情况,展示整个数据链路,但是个别的任务上报异常还是需要跟踪日志排查。

1.原始指标链路

监控原始指标的上报路径为agent(easy_process_sampler)--> receiver -->kafka -->raw_metric_process --> easy_tsdb

当我们发现监控平台大部分dashboard都出现断点或无数据的情况时,我们可以先查看该数据链路,查看各个节点的出入包量,如果发现某一个环节不断在累积,则可以定位是下一个节点出现了异常,没有消费,点击右上角的更多跳转到组件的详细页面查看。图中呈波浪状的情况是正常的,原因是raw_metric_process是批量消费kafka,再批量入库的,只要积压量不是随时间成正比增长,数据链路就是正常的。

2.告警链路

监控告警链路为:kafka-->stream -->kafka --> alert_channel_go -->notify

指标写入到kafka后经过流处理,匹配告警规则,符合告警条件就将告警写入到kafka中,alert_channel_go消费kafka的告警队列整合告警消息,通过notify发送给用户。

3.Trace原始指标链路

该链路是处理apm原始数据的入库的,agent (easy_trace_sampler)-->otelcol -->kafka --> span_loader --> clickhouse,当apm数据没有实时更新时可以查看该数据链路测处理情况。

4.Trace聚合链路

Trace聚合链路用于统计apm数据的成功率、失败率、延时等整体情况指标。


5.资源发现链路

cmdb自动发现的数据上报链路:agent --> receiver -->kafka --> data_loader -->easy_core

6.指标入库成功率报告

该页面主要展示一段时间内的指标入库情况,如果成功率持续呈比较低的情况,则需要针对该数据链路进行一个详细的排查。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/299288.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ如何做到不丢不重

目录 MQTT协议 如何保证消息100%不丢失 生产端可靠性投递 ​编辑 RabbitMQ的Broker端投 (1)消息持久化 (2)设置集群镜像模式 (3)消息补偿机制 消费端 ACK机制改为手动 总结 MQTT协议 先来说下MQTT…

Pinia

Pinia是vue专属的最新状态管理库,是Vuex状态管理工具的替代品,中文官网 安装 yarn add pinia # 或者使用 npm npm install pinia使用 创建一个 pinia 实例 (根 store) 并将其传递给应用: import { createApp } from vue import { createP…

中央空调真空喷射式排气装置真空脱气机工作原理安装示意图介绍

​ 1:中央空调真空喷射式排气装置真空脱气机介绍 中央空调真空喷射式排气装置真空脱气机是一种高科技的脱气除氧设备,主要用于脱除水系统中的残余气体。这些气体在水中的存在会对供暖及制冷水循环系统产生许多不利影响,如产生气阻、造成系统阻…

新/旧版本 QT 下载,全攻略【省资源下载币专用】

看到好多朋友找不到指定版本的QT下载路径,特此更新一篇新/旧版本 QT 下载攻略 收藏一下吧,需要的时候方便查找,能为你省下好多资源下载币。 通过图示可以看出,新旧版本的界限并没有那么明晰,如果你需要的版本两个链接…

Redis过期删除策略和内存淘汰策略

1、设置Redis键过期时间 Redis提供了四个命令来设置过期时间&#xff08;生存时间&#xff09;。 EXPIRE <key> <ttl> &#xff1a;表示将键 key 的生存时间设置为 ttl 秒。 PEXPIRE <key> <ttl> &#xff1a;表示将键 key 的生存时间设置为 ttl 毫秒。…

python打开opencv图像与QImage图像及其转化

目录 1、Qimage图像 2、opencv图像 3、python打开QImage图像通过Qlabel控件显示 4、python打开QImage图像通过opencv显示 5、python打开opencv图像并显示 6、python打开opencv图像通过Qlabel控件显示 1、Qimage图像 QImage是Qt库中用于存储和处理图像的类。它可以存储多种…

VS2020使用MFC开发一个贪吃蛇游戏

背景&#xff1a; 贪吃蛇游戏 按照如下步骤实现:。初始化地图 。通过键盘控制蛇运动方向&#xff0c;注意重新设置运动方向操作。 。制造食物。 。让蛇移动&#xff0c;如果吃掉食物就重新生成一个食物&#xff0c;如果会死亡就break。用蛇的坐标将地图中的空格替换为 #和”将…

哭了,为什么我年终总结的时候没看到这个

为啥我才知道还有这东西啊啊啊 今年终于不用自己写年终总结了&#xff0c;每年写总结写的我头都疼&#xff0c;这东西配享太庙&#xff01; 只要说清楚需求&#xff0c;几分钟就写好一篇啊。什么周报&#xff0c;月报&#xff0c;工作总结&#xff0c;会议纪要....都可以啊啊…

代码随想录第四十天(一刷C语言)|单词拆分

创作目的&#xff1a;为了方便自己后续复习重点&#xff0c;以及养成写博客的习惯。 单词拆分 思路&#xff1a;参考carl文档 动规五部曲分析如下&#xff1a; 1、确定dp数组以及下标的含义&#xff1a;dp[i] : 字符串长度为i的话&#xff0c;dp[i]为true&#xff0c;表示可…

项目联系 Spring Boot + flowable 快速实现工作流

总览 使用flowable自带的flowable-ui制作流程图 使用springboot开发流程使用的接口完成流程的业务功能 基于 Spring Boot MyBatis Plus Vue & Element 实现的后台管理系统 用户小程序&#xff0c;支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信…

【MySQL学习笔记009】事务

一、事务简介 事务是一组操作的集合&#xff0c;它是一个不可分割的工作单位&#xff0c;事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求&#xff0c;即这些操作要么同时成功&#xff0c;要么同时失败。 二、事务操作 1、操作1 查看/设置事务提交方式 select a…

科技云报道:开源才是大模型的未来?

科技云报道原创。 一年前&#xff0c;ChatGPT横空出世&#xff1b;7个多月后&#xff0c;Meta宣布开源LLaMA 2&#xff0c;并且可免费商用。 这一天&#xff0c;也成为大模型发展的分水岭。短时间内&#xff0c;LLaMA 2对一些闭源的大模型厂商造成了致命性的打击。 随后&…