如何使用Promethues监控系统指标并进行告警

公众号「架构成长指南」,专注于生产实践、云原生、分布式系统、大数据技术分享。

前言

从零开始:使用Prometheus与Grafana搭建监控系统

克服网络障碍:Prometheus如何通过间接方式采集目标服务数据

在以上二节,我们介绍了如何使用Prometheus的Pull和Push模式来采集系统指标并在 Grafana进行展现,本节我们介绍如何使用Prometheus的AlertManager进行邮件告警通知。

AlertManager介绍

Prometheus是一种用于监控和告警的开源系统,而Alertmanager是Prometheus生态系统中的一个组件,主要用于告警通知。

Alertmanager的主要功能是接收来自Prometheus服务器的告警,并采取适当的操作来通知相关的团队或个人。它通过提供一个统一的接口来处理警报通知,从而简化了告警管理的过程。

下面是Alertmanager的一些关键功能和特点:

  1. 告警路由和抑制:Alertmanager允许您配置灵活的警报路由规则,以便根据警报的标签和属性将其发送给特定的接收者。
  2. 多种通知方式:Alertmanager支持多种通知方式,包括电子邮件、短信、PagerDuty、Slack、Webhook等,不过对国内的钉钉和飞书支持性不是特别好,不过好在有开源扩展实现,后续章节介绍。
  3. 去重和分组:Alertmanager可以对接收到的告警进行去重和分组,以避免发送重复的通知。
  4. 面向团队的协作:Alertmanager提供了团队协作的功能,可以将警报发送给多个接收者。
  5. 高可用性和故障转移:Alertmanager支持高可用性配置,可以运行多个实例并使用负载均衡器来分发警报。

AlertManager配置

下载
docker pull prom/alertmanager:v0.25.0

配置

在本地data/prometheus/alertmanager/目录创建alertmanager.yml配置文件

route:group_by: ['alertname']group_wait: 30sgroup_interval: 5mrepeat_interval: 1hreceiver: 'web.hook'
receivers:- name: 'web.hook'webhook_configs:- url: 'http://127.0.0.1:5001/'
inhibit_rules:- source_match:severity: 'critical'target_match:severity: 'warning'equal: ['alertname', 'dev', 'instance']

Alertmanager的配置主要包含两个部分:路由(route)以及接收器(receivers),所有的告警信息都会从配置中的顶级路由(route)进入路由树,根据路由规则将告警信息发送给相应的接收器。

在Alertmanager中定义一组接收器,比如可以按照角色(比如系统运维,数据库管理员)来划分多个接收器。接收器可以关联邮件、Slack以及其它方式接收告警信息。

启动
docker run --name alertmanager -d -p 9093:9093  -v /data/prometheus/alertmanager:/etc/alertmanager prom/alertmanager:v0.25.0
查看运行状态

Alertmanager启动后可以通过9093端口访问,http://127.0.0.1:9093

Alert菜单下可以查看Alertmanager接收到的告警内容,Silences菜单下则可以通过UI创建静默规则。

关联Prometheus与Alertmanager

在Prometheus的架构中被划分成两个独立的部分,Prometheus负责产生告警,而Alertmanager负责告警产生后的后续处理。因此Alertmanager部署完成后,需要在Prometheus中设置Alertmanager相关的信息。

编辑Prometheus配置文件prometheus.yml,并添加以下内容,这里的10.211.55.2作者是本地IP

alerting:alertmanagers:- static_configs:- targets: ['10.211.55.2:9093']

报警规则配置

在prometheus.yml增加如下内容

rule_files:- /prometheus/rules/*.rules

因为在容器启动时用主机的/data/prometheus目录映射到容器的/prometheus目录,因此在主机/data/prometheus/目录创建rules文件夹,并创建告警文件hoststats-alert.rules

mkdir /data/prometheus/rules && cat <<"EOF"> /data/prometheus/rules/hoststats-alert.rules
groups:
- name: hostStatsAlertrules:- alert: hostCpuUsageAlert#报警规则,检测CPU使用率超过0.85,则进行告警expr: sum(avg without (cpu)(irate(node_cpu_seconds_total{mode!='idle'}[5m]))) by (instance) > 0.85#表示在满足警报条件后,要等待1分钟才能触发警报  for: 1mlabels:severity: pageannotations:#告警模板主题,$labels.instance,表示告警实例summary: "Instance {{ $labels.instance }} CPU usgae high"#告警内容description: "{{ $labels.instance }} CPU usage above 85% (current value: {{ $value }})"- alert: hostMemUsageAlert#内存监控expr: (node_memory_MemTotal - node_memory_MemAvailable)/node_memory_MemTotal > 0.85for: 1mlabels:severity: pageannotations:summary: "Instance {{ $labels.instance }} MEM usgae high"description: "{{ $labels.instance }} MEM usage above 85% (current value: {{ $value }})"
EOF

重启Prometheus

docker restart prometheus

重启完成之后,访问http://localhost:9090/config,查看altering配置是否生效,出现如下红色标识则表示生效

同时访问http://localhost:9090/rules,查看具体规则

邮件告警配置

在监控服务器执行以下命令,拉高cpu使用率,进行告警测试

cat /dev/zero>/dev/null

运行以下命令后查看CPU使用率情况,如下图所示:

sum(avg without (cpu)(irate(node_cpu_seconds_total{mode!='idle'}[5m]))) by (instance)

Prometheus首次检测到满足触发条件后,hostCpuUsageAlert显示有一条告警信息,状态为firing表示已经推送给了altermanager

访问http://127.0.0.1:9093查看告警信息

修改alertmanager.yml为以下内容,替换对应账号即可

global:smtp_smarthost: smtp.qq.com:465smtp_from: 9238223@qq.comsmtp_auth_username: 9238223@qq.comsmtp_auth_identity: 9238223@qq.comsmtp_auth_password: 123smtp_require_tls: false
route:group_by: ['alertname']receiver: 'default-receiver'group_wait: 30sgroup_interval: 5mrepeat_interval: 1h
receivers:- name: default-receiveremail_configs:- to: abc123@foxmail.comsend_resolved: true

global: 这是一个全局配置部分,用于配置全局的Alertmanager设置。

  • smtp_smarthost: 这是SMTP服务器的地址和端口,用于发送邮件通知。
  • smtp_from: 这是邮件发送方的邮件地址,即发送邮件的地址。

route: 用于配置警报的路由规则。

  • group_by: ['alertname']: 这是一个标签列表,用于按照警报名称(alertname)进行分组。
  • receiver: 'default-receiver': 这是指定默认接收者的名称,即接收警报通知的收件人。
  • group_wait: 30s: 在发送警报通知前等待的时间,以便将相同的警报分组在一起。
  • group_interval: 5m: 这是发送同一组警报通知之间的最小时间间隔。
  • repeat_interval: 1h: 这是在重复发送未解决的警报通知之前等待的时间间隔。

receivers: 接收者部分,用于配置接收告警通知的收件人。

  • name: default-receiver: 这是默认接收者的名称。
  • email_configs: 用于指定接收邮件通知的收件人和其他相关设置。
    • to: abc123@foxmail.com: 这是收件人的邮件地址,即接收警报通知的邮箱地址。
    • send_resolved: true: 这是一个布尔值,指示是否发送已解决的警报通知。在这个例子中,设置为true,表示发送已解决的警报通知。

重启

docker restart alertmanager

重启完成,访问http://127.0.0.1:9093/#/status,查看配置是否生效

告警测试

在目录服务器执行以下命令,拉高cpu,如果前面已执行则忽略

cat /dev/zero>/dev/null

查看prometheus已收到告警信息

等待一分钟左右,会推送给altermanager,altermanager等待30s,会推送至对应的邮箱,如下图

调整告警模版并测试

/data/prometheus/alertmanager目录下创建模版文件,这里的2006-01-02 15:04:05是go语言的日志格式,固定值

cat > /data/prometheus/alertmanager/notify-template.tmpl <<EOF
{{ define "test.html" }} 
{{ range .Alerts }}
=========start==========<br>
告警级别: {{ .Labels.severity }}<br>
告警类型: {{ .Labels.alertname }} <br>
故障主机: {{ .Labels.instance }} <br>
告警主题: {{ .Annotations.summary }} <br>
触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }} <br>
=========end==========<br>
{{ end }}
{{ end }}
EOF

关联告警模版

global:smtp_smarthost: smtp.qq.com:465smtp_from: 9238223@qq.comsmtp_auth_username: 9238223@qq.comsmtp_auth_identity: 9238223@qq.comsmtp_auth_password: 123smtp_require_tls: false
#添加模板
templates: 
#指定路径    - '/etc/alertmanager/notify-template.tmpl'   
route:group_by: ['alertname']receiver: 'default-receiver'group_wait: 30sgroup_interval: 5mrepeat_interval: 1h
receivers:- name: default-receiveremail_configs:- to: abc123@foxmail.comhtml: '{{ template "test.html" . }}'send_resolved: true

重启altermanager

docker restart alertmanager

最终结果

告警优化

观察以上告警有以下问题

  • 触发时间不对,用的是UTC时间
  • 无法区分告警与恢复邮件
  • 邮件标题看起来可读性比较差

因此针对以上问题进行调整

增加自愈模板

在以下时间增加28800e9,转换为东八区时间,即北京时间

{{ define "test.html" }} 
{{- if gt (len .Alerts.Firing) 0 -}}
{{ range .Alerts }}
<h1 align="left" style="color:red;">告警</h1>
<pre>
告警级别: {{ .Labels.severity }} 级 <br>
告警类型: {{ .Labels.alertname }} <br>
故障主机: {{ .Labels.instance }} <br>
告警主题: {{ .Annotations.summary }} <br>
告警时间:{{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}<br>  
</pre>
{{ end }}
{{ end }}
#增加自愈模板
{{- if gt (len .Alerts.Resolved) 0 -}}
{{ range .Alerts }}
<h1 align="left" style="color:green;">恢复</h1>
<pre>
告警名称:{{ .Labels.alertname }}<br>
告警级别:{{ .Labels.severity }}<br>
告警机器:{{ .Labels.instance }}<br>
告警详情:{{ .Annotations.summary }}<br>
告警时间:{{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}<br> 
恢复时间:{{ (.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}<br> 
</pre>
{{- end }}
{{- end }}
{{- end }}
邮件标题调整

在headers增加Subject则为邮件标题,这里我们进行判断如果告警邮件标题为:系统监控告警恢复后,标题改为:系统监控告警恢复

global:smtp_smarthost: smtp.qq.com:465smtp_from: 9238223@qq.comsmtp_auth_username: 9238223@qq.comsmtp_auth_identity: 9238223@qq.comsmtp_auth_password: 123smtp_require_tls: false
templates: #添加模板- '/etc/alertmanager/notify-template.tmpl'   #指定路径    
route:group_by: ['alertname']receiver: 'default-receiver'group_wait: 30sgroup_interval: 5mrepeat_interval: 1h
receivers:- name: default-receiveremail_configs:- to: abc123@foxmail.comhtml: '{{ template "test.html" . }}'send_resolved: trueheaders: { Subject: "系统监控告警{{- if gt (len .Alerts.Resolved) 0 -}}恢复{{ end }}" }  

再次测试

再次重启,拉高cpu进行测试,告警信息如下

恢复通知邮件

总结

本节我们介绍了Prometheus的Alertmanager以及如何利用它对指标进行告警,同时我们还讨论了如何通过邮件通知来实现告警,并对邮件模板进行了优化。在接下来的章节中,我们将进一步探讨如何使用Prometheus监控业务系统的业务指标,并实现全面的监控和告警通知。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/284201.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

股东来了投资者权益知识竞赛规则

股东来了投资者权益知识竞赛是中证中小投资者服务中心在中国证监会指导下&#xff0c;围绕中小投资者需求创办的全国性投教活动。《股东来了》&#xff08;2023&#xff09;由投资者服务中心联合北京、浙江、甘肃、新疆四地证监局共同举办&#xff0c;活动覆盖全国36个赛区及港…

【Python】__init__.py文件的使用

原文作者&#xff1a;我辈李想 版权声明&#xff1a;文章原创&#xff0c;转载时请务必加上原文超链接、作者信息和本声明。 文章目录 前言一、__init__.py文件1.不创建__init__.py文件2.创建__init__.py文件 二、使用1.设置公共参数2.写from .** import **3.__all__ import * …

PyQt6 简单介绍与安装

前言&#xff0c;主要由这两篇文章参考并总结部分内容而成&#xff0c;参考文章一 && 参考文章二 PyQt6 简单介绍与安装 1、简单介绍2、PyQt6安装3、PyQt6版本查看4、PyQt6模块4.1 界面承载部分( 控件 )4.2 界面框架部分&#xff08;布局&#xff09;4.3 界面组件部分&…

IDEA的debug调用(超详细)

借鉴链接&#xff1a;IDEA中的debug断点调试技巧 简述&#xff1a;会F8和F9就够吃饭了~ debug顶部栏 :::tips Show Execution Point (Alt F10)&#xff1a;如果你的光标在其它行或其它页面&#xff0c;点击这个按钮可跳转到当前代码执行的行&#xff0c;即断点的位置&#…

JDBC 数据库连接池

目录 一、什么是数据库连接池二、为什么需要数据库连接池&#xff1f;三、JDBC 数据库连接池的实现四、C3P0的使用1、加入c3p0 jar包2、配置xml文件3、c3p0-config.xml模板4、C3P0的使用 五、Druid的使用1、加入Druid jar包2、定义配置文件:3、Druid连接池的使用 六、HikariCP的…

瑞安籍侨领池万进荣任意大利瑞安同乡总会第五届会长

浙江温州瑞安是全国重点侨乡&#xff0c;拥有海外侨胞16万人、侨领2100多名、归侨侨眷近12万人&#xff0c;在世界100多个国家和地区建有70多个侨团组织。 意大利瑞安同乡总会第五届理事会会长团全体成员 青年部全体成员 各兄弟会长及代表 12月10日&#xff0c;意大利瑞安同乡…

【海报】新年海报 制作

准备一张写好文字的图片。 模型&#xff1a; 电商\lofi_v4.safetensors [9462506675] best quality,masterpiece,8k,(soft lighting:1.2),firecrackers,Chinese new year,<lora:全网首发丨新年红包封面_v1.0:1>, 虚假&#xff0c;不真实&#xff0c;绘画&#xff0c;线条…

关于“Python”的核心知识点整理大全27

目录 10.5 小结 第&#xff11;1 章 测试代码 11.1 测试函数 name_function.py 函数get_formatted_name()将名和姓合并成姓名&#xff0c;在名和姓之间加上一个空格&#xff0c;并将它们的 首字母都大写&#xff0c;再返回结果。为核实get_formatted_name()像期望的那样工…

企业常用的高速数据传输方式

数据传输是指在计算机系统或网络中&#xff0c;将数据从一个设备或节点发送到另一个设备或节点的过程。数据传输的速度和质量直接影响企业的业务效率、竞争力和安全性。随着信息技术的不断发展&#xff0c;企业面临着越来越多的数据传输需求&#xff0c;因此需要选择适用的高速…

如何在使用Docker快速部署StackEdit并实现公网访问本地编辑器远程办公

文章目录 1. docker部署Stackedit2. 本地访问3. Linux 安装cpolar4. 配置Stackedit公网访问地址5. 公网远程访问Stackedit6. 固定Stackedit公网地址 StackEdit是一个受欢迎的Markdown编辑器&#xff0c;在GitHub上拥有20.7k Star&#xff01;&#xff0c;它支持将Markdown笔记保…

Ngnix之反向代理、负载均衡、动静分离

目录 1. Ngnix 1.1 Linux系统Ngnix下载安装 1.2 反向代理 正向代理&#xff08;Forward Proxy&#xff09;&#xff1a; 反向代理&#xff08;Reverse Proxy&#xff09;&#xff1a; 1.3 负载均衡 1.4 动静分离 1. Ngnix Nginx是一个高性能的开源Web服务器&#xff0…

多个文件如何快速单独生码?文件批量建码的方法及步骤

​如何将多个文件批量生成单独的二维码&#xff1f;当需要将word、excel、pdf、ppt等类型的办公文件经常会通过扫描二维码的方式来让其他人查看。那么当我们需要将每个文件生成一个二维码时&#xff0c;有什么方法能够快速的一键批量建码呢&#xff1f;下面给大家分享一招&…