KAFKA监控方法以及核心指标

文章目录

  • 1. 监控指标采集
    • 1.1 部署kafka_exporter
    • 1.2 prometheus采集kafka_exporter的暴露指标
    • 1.3 promethues配置告警规则或者配置grafana大盘
  • 2. 核心告警指标
    • 2.1 broker核心指标
    • 2.2 producer核心指标
    • 2.3 consumer核心指标
  • 3. 参考文章

探讨kafka的监控数据采集方式以及需要关注的核心指标,便于日常生产进行监控和巡检。


1. 监控指标采集

监控指标的采集方式使用promethues + kafka_exporter的方式采集kafka的指标,并通过promethues协议暴露出来。本文探讨kafka的采集监控方式,以及常用核心监控告警配置。

1.1 部署kafka_exporter

kafka_exporter的 下载地址 选择合适的版本下载,并解压,使用如下方法启动。

./kafka_exporter --kafka.server=127.0.0.1:9092 --web.listen-address=":9308"

确定metrics指标暴露出来后,就可以通过prometheus配置target进行指标采集

# 通过promethues协议暴露指标
curl http://localhost:9308/metrics

在这里插入图片描述

1.2 prometheus采集kafka_exporter的暴露指标

配置prometheus的指标采集任务

  - job_name: kafkastatic_configs:- targets: ['172.19.0.2:9308','172.19.0.3:9308','172.19.0.4:9308']labels:instance: kafka

在这里插入图片描述

1.3 promethues配置告警规则或者配置grafana大盘

再次不进行扩展。

2. 核心告警指标

kafka的指标很多,相关的指标含义可以参考 官网文档,本文将摘选出核心的指标,作为kafka集群的核心监控并配置相关的告警。

2.1 broker核心指标

Kafka的服务端度量指标是为了监控broker,也是整个消息系统的核心。因为所有消息都通过kafka broker传递,然后被消费,所以对于broker集群上出现的问题的监控和告警就尤为重要。broker性能指标有以下三类:

  • Kafka本身的指标
  • 主机层面的指标
  • JVM垃圾回收指标

kafka层面指标

指标名称指标说明参考值备注
进程进程进程存在 == 1
UnderReplicatedPartitions处于复制状态的parition<= 1在一个运行健康的集群中,处于同步状态的副本数(ISR)应该与总副本数(简称AR:Assigned Repllicas)完全相等,如果分区的副本远远落后于leader,那这个follower将被ISR池删除,随之而来的是IsrShrinksPerSec(可理解为isr的缩水情况,后面会讲)的增加。由于kafka的高可用性必须通过副本来满足,所有有必要重点关注这个指标,让它长期处于大于0的状态
ActiveControllerCount活跃的controller数量>=1controller的职责是维护partition leader的列表,当遇到这个值等于0且持续了一小段时间(<1秒)的时候,必须发出明确的告警
OfflinePartitionsCount离线的partition数量==0这个指标报告了没有活跃leader的partition数,任何partition都应该有一个Leader
OfflinePartitionsCount离线的partition数量==0这个指标报告了没有活跃leader的partition数,任何partition都应该有一个Leader
UncleanLeaderElectionsPerSec未清理领导选举/每秒<= 1这个指标如果存在的话很糟糕,这说明kafka集群在寻找partition leader节点上出现了故障
BytesInPerSecKafka的吞吐量根据机器规格调整不同机器的规格网卡带宽吞吐有差异,根据实际情况调整,如果单个broker的吞吐过高,意味着需要进行扩容了
BytesOutPerSecKafka的吞吐量根据机器规格调整不同机器的规格网卡带宽吞吐有差异,根据实际情况调整,如果单个broker的吞吐过高,意味着需要进行扩容了

机器层面指标( 跳转点: 返回producer核心指标)

指标名称指标说明参考值备注
Disk usage磁盘使用情况<= 70%
CPU usageCPU使用情况<= 60%
机器网卡入流量机器网卡入流量不同机器的规格网卡带宽吞吐有差异,根据实际情况调整,如果单个broker的吞吐过高,意味着需要进行扩容了
机器网卡出流量机器网卡出流量不同机器的规格网卡带宽吞吐有差异,根据实际情况调整,如果单个broker的吞吐过高,意味着需要进行扩容了

JVM指标 ( 跳转点: 返回producer核心指标)

指标名称指标说明参考值备注
MemHeapUsedM/MemHeapMaxMJvm 堆内内存使用率<= 60%

2.2 producer核心指标

producer通常不是写入的瓶颈,监控正常的机器指标和JVM指标即可, 参考机器层面指标 参考JVM指标

2.3 consumer核心指标

指标名称指标说明参考值备注
kafka_consumergroup_lag每个消费者的消息延迟<= 500这个监控是partition维度,该指标跟topic的数据写入有关系,需要根据实际情况调整

3. 参考文章

  • kafka监控官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/443607.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

svn 安装路径

SVN客户端安装&#xff08;超详细&#xff09; 一、SVN客户端安装 1、下载安装包地址&#xff1a;https://tortoisesvn.net/downloads.html 此安装包是英文版的&#xff0c;还可以下载一个语言包&#xff0c;在同界面的下方 一直点击下一步&#xff0c;直到弹出选择红框 然…

电子信息找工作选fpga还是嵌入式?

电子信息找工作选fpga还是嵌入式&#xff1f; 在开始前我分享下我的经历&#xff0c;刚入行时遇到一个好公司和师父&#xff0c;给了我机会&#xff0c;两年时间从3k薪资涨到18k的&#xff0c; 我师父给了一些嵌入式学习方法和资料&#xff0c;让我不断提升自己&#xff0c;感…

【产业实践】使用YOLO V5 训练自有数据集,并且在C# Winform上通过onnx模块进行预测全流程打通

使用YOLO V5 训练自有数据集,并且在C# Winform上通过onnx模块进行预测全流程打通 效果图 背景介绍 当谈到目标检测算法时,YOLO(You Only Look Once)系列算法是一个备受关注的领域。YOLO通过将目标检测任务转化为一个回归问题,实现了快速且准确的目标检测。以下是YOLO的基…

免费的ChatGPT网站(7个)

还在为找免费的chatGPT网站或者应用而烦恼吗&#xff1f;博主归纳总结了7个国内非常好用&#xff0c;而且免费的chatGPT网站&#xff0c;AI语言大模型&#xff0c;我们都来接触一下吧。 免费&#xff01;免费&#xff01;免费&#xff01;...&#xff0c;建议收藏保存。 1&…

使用ChatGPT学习大象机器人六轴协作机械臂mechArm

引言 我是一名机器人方向的大学生&#xff0c;近期学校安排自主做一个机器人方面相关的项目。学校给我们提供了一个小型的六轴机械臂&#xff0c;mechArm 270M5Stack&#xff0c;我打算使用ChatGPT让它来辅助我学习如何使用这个机械臂并且做一个demo。 本篇文章将记录我是如何使…

DDD学习使用

简介 DDD(Domain-Driven Design)&#xff1a;领域驱动设计。 Eric Evans “领域驱动设计之父” DDD不是架构&#xff0c;而是一种方法论&#xff08;Methodology&#xff09;微服务架构从一出来就没有很好的理论支撑如何合理的划分服务边界&#xff0c;人们常常为服务要划分多…

指针的深入了解6

1.回调函数 回调函数就是一个通过函数指针调用的函数。 如果你把函数的指针&#xff08;地址&#xff09;作为参数传递给另一个函数&#xff0c;当这个指针被用来调用其所指向的函数 时&#xff0c;被调用的函数就是回调函数。回调函数不是由该函数的实现方直接调用&#xff0…

vue实现瀑布流

每个色块宽度一致&#xff0c;高度自适应 <!DOCTYPE html> <html><head><meta charset"utf-8"><meta http-equiv"X-UA-Compatible" content"IEedge,chrome1"><meta name"renderer" content"we…

ModelArts加速识别,助力新零售电商业务功能的实现

前言 如果说为客户提供最好的商品是产品眼中零售的本质&#xff0c;那么用户的思维是什么呢&#xff1f; 在用户眼中&#xff0c;极致的服务体验与优质的商品同等重要。 企业想要满足上面两项服务&#xff0c;关键在于提升效率&#xff0c;也就是需要有更高效率的零售&#…

存内计算技术—解决冯·诺依曼瓶颈的AI算力引擎

文章目录 存内计算技术背景CSDN首个存内计算开发者社区硅基光电子技术存内计算提升AI算力知存科技存算一体芯片技术基于存内计算的语音芯片的实现挑战 参考文献 存内计算技术背景 存内计算技术是一种革新性的计算架构&#xff0c;旨在克服传统冯诺依曼架构的瓶颈&#xff0c;并…

TSINGSEE青犀智能分析网关V4—让加油站迈入AI智能检测时代

一、背景与需求 中国目前建设加油站超过10万个&#xff0c;作为高危场所对于烟火&#xff0c;危险区域管控、消防器材等管理要求严格&#xff0c;稍有不慎即酿成大祸。由于春节临近&#xff0c;加油站各类人员进出频繁&#xff0c;安全意识较低&#xff0c;依靠普通监控人力的…

探索半导体制造业中的健永科技RFID读写器的应用方案

一、引言 在当今高度自动化的工业环境中&#xff0c;无线射频识别&#xff08;RFID&#xff09;技术已经成为实现高效生产的重要一环。特别是在半导体制造业中&#xff0c;由于产品的高价值和复杂性&#xff0c;生产过程的追踪和管理显得尤为重要。健永科技RFID读写器以其出色…