Prometheus服务器、Prometheus被监控端、Grafana、监控MySQL数据库、自动发现概述、配置自动发现、Alertmanager

目录

Prometheus概述

部署Prometheus服务器

环境说明:

配置时间

安装Prometheus服务器

添加被监控端

部署通用的监控exporter

Grafana

概述

部署Grafana

展示node1的监控信息

监控MySQL数据库

配置MySQL

配置mysql exporter

配置mysql exporter

配置prometheus监控mysql

自动发现机制

概述

基于文件自动发现

修改Prometheus使用自动发现

配置web2接受Prometheus监控

Alertmanager

概述

Alertmanager特性

部署Alertmanager

部署

配置文件

Prometheus与Alertmanager对接

配置Alertmanager通过邮件发送告警


Prometheus概述

  • Prometheus是一个开源系统监控和警报工具包,最初由 SoundCloud构建。
  • 也是一款监控软件,也是一个时序数据库。Prometheus 将其指标收集并存储为时间序列数据,即指标信息与记录时的时间戳以及称为标签的可选键值对一起存储。
  • 主要用在容器监控方面,也可以用于常规的主机监控。
  • 使用google公司开发的go语言编写。
  • Prometheus是一个框架,可以与其他组件完美结合。

部署Prometheus服务器

环境说明:

  • Prometheus:192.168.88.5
  • web1:192.168.88.100

配置时间

# 1. 查看时区[root@prometheus ~]# timedatectl Local time: Sun 2023-01-01 11:15:11 CSTUniversal time: Sun 2023-01-01 03:15:11 UTCRTC time: Sun 2023-01-01 03:15:11Time zone: Asia/Shanghai (CST, +0800)System clock synchronized: noNTP service: inactiveRTC in local TZ: no# 2. 如果时区不正确,则改为正确的时区[root@prometheus ~]# timedatectl set-timezone Asia/Shanghai# 3. 查看时间[root@prometheus ~]# date# 4. 如果时间不正确,则改为正确的时间[root@prometheus ~]# date -s "年月日 时:分:秒"

安装Prometheus服务器

  • 拷贝Prometheus相关软件包到服务器
  • 解压即部署
[root@prometheus ~]# cd prometheus_soft/[root@prometheus prometheus_soft]# tar xf prometheus-2.37.5.linux-amd64.tar.gz [root@prometheus prometheus_soft]# mv prometheus-2.37.5.linux-amd64 /usr/local/prometheus
  • 配置文件

    • 配置文件中包含三个配置块:globalrule_filesscrape_configs
    • global块控制 Prometheus 服务器的全局配置。我们有两个选择。第一个,scrape_interval控制 Prometheus 抓取目标的频率。您可以为单个目标覆盖它。在这种情况下,全局设置是每 15 秒抓取一次。该evaluation_interval选项控制 Prometheus 评估规则的频率。Prometheus 使用规则来创建新的时间序列并生成警报。
    • rule_files块指定我们希望 Prometheus 服务器加载的任何规则的位置。现在我们还没有规则。
    • 最后一个块,scrape_configs控制 Prometheus 监控的资源。由于 Prometheus 还将有关自身的数据公开为 HTTP 端点,因此它可以抓取和监控自身的健康状况。在默认配置中,有一个名为 的作业prometheus,用于抓取 Prometheus 服务器公开的时间序列数据。该作业包含一个单一的、静态配置的目标,即localhost的9090端口。Prometheus期望度量在/metrics路径上的目标上可用,所以这个默认作业是通过 URL 抓取的:http://localhost:9090/metrics。
  • 编写服务启动文件并启动服务

[root@prometheus ~]# vim /usr/lib/systemd/system/prometheus.service[Unit]Description=Prometheus Monitoring SystemAfter=network.target[Service]ExecStart=/usr/local/prometheus/prometheus \--config.file=/usr/local/prometheus/prometheus.yml \--storage.tsdb.path=/usr/local/prometheus/data/[Install]WantedBy=multi-user.target# 启动服务[root@prometheus prometheus_soft]# systemctl daemon-reload [root@prometheus prometheus_soft]# systemctl enable prometheus.service --now[root@prometheus prometheus_soft]# ss -tlnp | grep :9090LISTEN 0      128                *:9090             *:*    users:(("prometheus",pid=4396,fd=7)) 
  • 访问web页面:http://192.168.88.5:9090/

  • 查看监控自身的数据,如分配置给Prometheus运行的内存数量

添加被监控端

  • 监控方式:

    • 拉取:pull。监控端联系被监控端,采集数据
    • 推送:push。被监控端主动把数据发给监控端。在prometheus中,push的方式需要额外的组件pushgateway
  • 被监控端根据自身运行的服务,可以运行不同的exporter(被监控端安装的、可以与Prometheus通信,实现数据传递的软件)

  • exporter列表:Exporters and integrations | Prometheus

部署通用的监控exporter

  • node-exporter用于监控硬件和系统的常用指标
  • exporter运行于被监控端,以服务的形式存在。每个exporter所使用的端口号都不一样。
  • 在web1[192.168.88.100]上部署node exporter
# 1. 拷贝node_exporter到web1[root@prometheus ~]# scp prometheus_soft/node_exporter-1.5.0.linux-amd64.tar.gz 192.168.88.100:/root/# 2. 解压即部署[root@web1 ~]# tar xf node_exporter-1.5.0.linux-amd64.tar.gz [root@web1 ~]# mv node_exporter-1.5.0.linux-amd64 /usr/local/node_exporter# 3. 创建服务文件,并启动服务[root@web1 ~]# vim /usr/lib/systemd/system/node_exporter.service[Unit]Description=node_exporterAfter=network.target[Service]Type=simpleExecStart=/usr/local/node_exporter/node_exporter[Install]WantedBy=multi-user.target[root@web1 ~]# systemctl daemon-reload [root@web1 ~]# systemctl enable node_exporter.service --now[root@web1 ~]# ss -tlnp | grep :9100LISTEN 0      128                *:9100             *:*    users:(("node_exporter",pid=7371,fd=3)) 
  • 在Prometheus服务器上添加监控节点
# 1. 修改配置文件,追加以下内容。特别注意缩进[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml ...略...- job_name: "web1"static_configs:- targets: ["192.168.88.100:9100"]# 2. 重启服务[root@prometheus ~]# systemctl restart prometheus.service 
  • 查看添加结果

Grafana

概述

  • Grafana是一款开源的、跨平台的、基于web的可视化工具
  • 展示方式:客户端图表、面板插件
  • 数据源可以来自于各种源,如prometheus

部署Grafana

  • 装包、启服务
[root@prometheus ~]# yum install -y prometheus_soft/grafana-enterprise-9.3.2-1.x86_64.rpm[root@prometheus ~]# systemctl enable grafana-server.service --now
  • 初始化。访问http://192.168.88.5:3000。初始用户名和密码都是admin。第一次登陆时,要求改密码,本例中密码改为tedu.cn。如果登陆报错,请更换其他浏览器。

  • 修改主题

  • 对接Prometheus

 添加仪表盘

 查看仪表盘

展示node1的监控信息

  • grafana模板下载:Dashboards | Grafana Labs
  • 导入主机监控模板。

 

监控MySQL数据库

配置MySQL

[root@web1 ~]# yum install -y mysql-server[root@web1 ~]# systemctl enable mysqld --now[root@web1 ~]# mysqlmysql> create user dbuser1@localhost identified by '123456';mysql> grant all privileges on *.* to dbuser1@localhost;mysql> quit

配置mysql exporter

配置mysql exporter
# 1. 安装[root@prometheus ~]# scp prometheus_soft/mysqld_exporter-0.14.0.linux-amd64.tar.gz 192.168.88.100:/root/[root@web1 ~]# tar xf mysqld_exporter-0.14.0.linux-amd64.tar.gz [root@web1 ~]# mv mysqld_exporter-0.14.0.linux-amd64 /usr/local/mysqld_exporter# 2. 编写用于连接mysql服务的配置文件[root@web1 ~]# vim /usr/local/mysqld_exporter/.my.cnf[client]host=127.0.0.1port=3306user=dbuser1password=123456# 3. 创建service文件[root@web1 ~]# vim /usr/lib/systemd/system/mysqld_exporter.service[Unit]Description=mysqld_exporterAfter=network.target[Service]ExecStart=/usr/local/mysqld_exporter/mysqld_exporter \--config.my-cnf=/usr/local/mysqld_exporter/.my.cnf[Install]WantedBy=multi-user.target[root@web1 ~]# systemctl daemon-reload[root@web1 ~]# systemctl enable mysqld_exporter.service --now
配置prometheus监控mysql
  • 修改配置文件,启动服务
# 1. 在配置文件中追加内容[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml ...略...- job_name: "mysql"static_configs:- targets: ["192.168.88.100:9104"]# 2. 重启服务[root@prometheus ~]# systemctl restart prometheus.service 
  • 查看状态

  • 在Grafana中展示数据

 

 ​​​​​

自动发现机制

概述

  • 自动发现是指Prometheus自动对节点进行监控,不需要手动一个一个去添加,和Zabbix的自动发现、自动注册一个道理
  • Prometheus有多种自动发现发现,比如file_sd_configs基于文件自动发现、基于K8S自动发现、基于openstack自动发现、基于consul自动发现等。

基于文件自动发现

  • file_sd_configs实现文件级别的自动发现
  • 使用文件自动发现功能后,Prometheus会定期检查配置文件是否有更新
  • 如果有更新的话就将新加入的节点接入监控,服务端无需重启服务
修改Prometheus使用自动发现
  • 修改Prometheus
# 1. 备份现有配置文件[root@prometheus ~]# cp /usr/local/prometheus/prometheus.yml ~# 2. 修改配置文件,删除静态配置,添加自动发现配置[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml# 将scrape_configs及以下内容修改为:21 scrape_configs:22   - job_name: "prometheus"23     file_sd_configs:24       - refresh_interval: 120s25         files:26           - /usr/local/prometheus/sd_config/*.yml# 3. 重启服务[root@prometheus ~]# systemctl restart prometheus.service 
  • web中将没有任何监控项目

  • 创建自动发现规则文件
[root@prometheus ~]# mkdir /usr/local/prometheus/sd_config[root@prometheus ~]# vim /usr/local/prometheus/sd_config/discovery.yml- targets:- 192.168.88.5:9090- 192.168.88.100:9100- 192.168.88.100:9104
  • 大概2分钟之后,刷新target web页面

配置web2接受Prometheus监控
  • 将web1的node exporter拷贝到web2
[root@web1 ~]# scp -r /usr/local/node_exporter 192.168.88.200:/usr/local/[root@web1 ~]# scp /usr/lib/systemd/system/node_exporter.service 192.168.88.200:/usr/lib/systemd/system/
  • 启服务
[root@web2 ~]# systemctl daemon-reload [root@web2 ~]# systemctl enable node_exporter.service --now
  • 修改自动发现文件
[root@prometheus ~]# vim /usr/local/prometheus/sd_config/discovery.yml - targets:- 192.168.88.5:9090- 192.168.88.100:9100- 192.168.88.100:9104- 192.168.88.200:9100
  • 大概2分钟之后,刷新target web页面

  • 在Grafana上查看结果

Alertmanager

概述

  • Prometheus服务器中的告警规则向Alertmanager发送告警。然后,Alertmanager管理这些告警,包括静默、抑制、分组以及通过电子邮件、即时消息系统和聊天平台等方法发出通知。

  • 设置告警和通知的主要步骤是:

    • 设置和配置Alertmanager
    • 配置Prometheus与Alertmanager对接
    • 在普罗米修斯中创建告警规则
  • 在Prometheus中一条告警规则主要由以下几部分组成:

    • 告警名称:用户需要为告警规则命名
    • 告警规则:告警规则实际上主要由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间(During)后出发告警

Alertmanager特性

  • Alertmanager处理客户端应用程序(如Prometheus服务器)发送的警报。它负责重复数据删除、分组,并将其路由到正确的接收方集成
  • 分组:分组将性质相似的警报分类到单个通知中。这在较大的停机期间特别有用,此时许多系统同时发生故障,数百到数千个警报可能同时发出。
  • 抑制:抑制是当某一告警发出后,可以停止重复发送由此告警引发的其它告警的机制。
  • 静默提供了一个简单的机制可以快速根据标签对告警进行静默处理。如果接收到的告警符合静默的配置, Alertmanager则不会发送告警通知。静默设置需要在Alertmanager的Web页面上进行设置。

部署Alertmanager

部署
  • 解压即部署
# 1. 解压[root@prometheus ~]# cd prometheus_soft/[root@prometheus prometheus_soft]# tar xf alertmanager-0.25.0.linux-amd64.tar.gz [root@prometheus prometheus_soft]# mv alertmanager-0.25.0.linux-amd64 /usr/local/alertmanager# 2. 编写服务文件并启动[root@prometheus prometheus_soft]# vim /usr/lib/systemd/system/alertmanager.service[Unit]Description=alertmanager System[Service]ExecStart=/usr/local/alertmanager/alertmanager \--config.file=/usr/local/alertmanager/alertmanager.yml[Install]WantedBy=multi-user.target[root@prometheus ~]# systemctl daemon-reload [root@prometheus ~]# systemctl enable alertmanager.service --now
  • 访问http://192.168.88.5:9093可以访问web配置页面

配置文件
  • Alertmanager的配置主要包含两个部分:路由(route)以及接收器(receivers)。所有的告警信息都会从配置中的顶级路由(route)进入路由树,根据路由规则将告警信息发送给相应的接收器。

  • 在Alertmanager中可以定义一组接收器,比如可以按照角色(比如系统运维,数据库管理员)来划分多个接收器。接收器可以关联邮件,Slack以及其它方式接收告警信息。

  • 目前配置文件中只设置了一个顶级路由route并且定义的接收器为default-receiver。因此,所有的告警都会发送给default-receiver。

  • 因此在Alertmanager配置中一般会包含以下几个主要部分:

    • 全局配置(global):用于定义一些全局的公共参数,如全局的SMTP配置
    • 模板(templates):用于定义告警通知时的模板,如HTML模板,邮件模板等
    • 告警路由(route):根据标签匹配,确定当前告警应该如何处理
    • 接收器(receivers):接收器是一个抽象的概念,它可以是一个邮箱也可以是微信,Slack或者Webhook 等,接收器一般配合告警路由使用
    • 抑制规则(inhibit_rules):合理设置抑制规则可以减少垃圾告警的产生
Prometheus与Alertmanager对接
  • 编辑Prometheus配置文件,修改alerting配置
[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml ...略...8 alerting:9   alertmanagers:10     - static_configs:11         - targets:12           - localhost:9093...略...[root@prometheus ~]# systemctl restart prometheus.service 
  • 访问:http://192.168.88.5:9090/config,查看配置是否生效

配置Alertmanager通过邮件发送告警
# 1. 备份配置文件[root@prometheus ~]# cp /usr/local/alertmanager/alertmanager.yml ~# 2. 修改配置文件[root@prometheus ~]# vim /usr/local/alertmanager/alertmanager.yml global:smtp_from: 'zzg@tedu.cn'      # 发件人地址smtp_smarthost: 'localhost:25'   # 邮件服务器地址smtp_require_tls: false       # 是否使用TLS安全连接route:group_by: ['alertname']group_wait: 30sgroup_interval: 5mrepeat_interval: 1hreceiver: 'default-receiver'  # 接收器receivers:- name: 'default-receiver'    # 配置接收器为邮件email_configs:- to: 'root@localhost.localdomain'inhibit_rules:- source_match:severity: 'critical'target_match:severity: 'warning'equal: ['alertname', 'dev', 'instance']# 3. 定义告警规则[root@prometheus ~]# mkdir /usr/local/prometheus/rules[root@prometheus ~]# vim /usr/local/prometheus/rules/hoststats-alert.rulesgroups:- name: examplerules:- alert: InstanceDownexpr: up == 0for: 5m labels:severity: warnannotations:summary: "Instance {{ $labels.instance }} down"description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."- alert: hostMemUsageAlertexpr: (node_memory_MemTotal - node_memory_MemAvailable)/node_memory_MemTotal > 0.85for: 1m labels:severity: warnannotations:summary: "Instance {{ $labels.instance }} MEM usgae high"# 4. 在Prometheus中声明规则文件位置[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml ...略...15 rule_files:16   - /usr/local/prometheus/rules/*.rules...略...# 5. 重启服务[root@prometheus ~]# systemctl restart alertmanager.service [root@prometheus ~]# systemctl restart prometheus.service # 6. 安装并启动邮件服务[root@prometheus ~]# yum install -y postfix mailx[root@prometheus ~]# systemctl enable postfix --now
  • 查看加载的规则文件

  • 测试告警。
# 1. 将web1关机[root@web1 ~]# shutdown -h now# 2. 查看邮件[root@prometheus ~]# mail>N  1 zzg@tedu.cn           Sun Jan  1 18:59 227/10404 "[FIRING:1] InstanceDown (192.168.88.200:9100 prometheus warn)"

将告警邮件内容从【<!DOCTYPE ...】这一行到【</html>】复制,粘贴到一个文件中,如文件名为alert.html,用firefox打开,可以得到以下页面:

  • 查看Alertmanager

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/466728.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Github 2024-02-07 开源项目日报 Top9

根据Github Trendings的统计&#xff0c;今日(2024-02-07统计)共有9个项目上榜。根据开发语言中项目的数量&#xff0c;汇总情况如下&#xff1a; 开发语言项目数量Rust项目2TypeScript项目2Python项目2Ruby项目1HTML项目1NASL项目1Go项目1C项目1Svelte项目1C项目1 React Nat…

适用于Android 的 7 大短信恢复应用程序

对于 Android 用户来说&#xff0c;丢失重要的短信可能是一种令人沮丧的体验。幸运的是&#xff0c;有许多短信恢复应用程序可以帮助恢复丢失或删除的短信。在本文中&#xff0c;将与您分享 7 个最佳短信恢复应用程序&#xff0c;并帮助您找到可用于恢复已删除消息的最佳应用程…

车载诊断协议DoIP系列 —— 协议中的简易网络拓扑概述

车载诊断协议DoIP系列 —— 协议中的简易网络拓扑概述 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自己。江湖一碗…

【Spring】公司为什么禁止在SpringBoot项目中使用@Autowired注解

目录 前言 说明 依赖注入的类型 2.1 基于构造器的依赖注入 2.2 基于 Setter 的依赖注入 2.3 基于属性的依赖注入 基于字段的依赖注入缺陷 3.1 不允许声明不可变域 3.2 容易违反单一职责设计原则 3.3 与依赖注入容器紧密耦合 3.4 隐藏依赖关系 总结 参考文档 前言 …

HP Pavilion Laptop 15-cs3xxx原装出厂Win10.20H1系统

惠普笔记本HP Pavilion - 15-cs3030tx原厂Windows10系统镜像下载 链接&#xff1a;https://pan.baidu.com/s/1LmdJoN7F3BGvt49ovq-eww?pwdzgmt 提取码&#xff1a;zgmt 适用型号&#xff1a; 15-cs3001tx&#xff0c;15-cs3030tx&#xff0c;15-cs3031tx&#xff0c;15-cs…

Linux中ps/kill/execl的使用

ps命令&#xff1a; ps -aus或者ps -ajx或者 ps -ef可以查看有哪些进程。加上 | grep "xxx" 可以查看名为”xxx"的进程。 ps -aus | grep "xxx" kill命令&#xff1a; kill -9 pid 杀死某个进程 kill -l 查看系统有哪些信号 execl函数&#…

mysql经典4张表问题

1.数据库表结构关联图 2.问题&#xff1a; 1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数3.查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩4、查询名字中含有"风"字的学生信息5、查询课程名称为"数学"&…

Vulnhub靶机:DC1

一、介绍 运行环境&#xff1a;Virtualbox 攻击机&#xff1a;kali&#xff08;10.0.2.15&#xff09; 靶机&#xff1a;DC1&#xff08;10.0.2.54&#xff09; 目标&#xff1a;获取靶机root权限和flag 靶机下载地址&#xff1a;https://www.vulnhub.com/entry/dc-1,292/…

汽车零部件制造业MES系统解决方案

一、​汽车零部件行业现状 随着全球汽车产业不断升级&#xff0c;汽车零部件市场竞争日趋激烈&#xff0c;从上游的钢铁、塑料、橡胶等生产到下游的主机厂配套制造&#xff0c;均已成为全球各国汽车制造大佬战略目标调整的焦点&#xff0c;其意欲在汽车零部件行业快速开疆扩土&…

论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE

目录 人体姿态识别概述 论文框架 HPE分类 人体建模模型 二维单人姿态估计 回归方法 目前发展 优化 基于热图的方法 基于CNN的几个网络 利用身体结构信息提供构建HPE网络 视频序列中的人体姿态估计 2D多人姿态识别 方法 自上而下 自下而上 2D HPE 总结 数据集…

牛客周赛 Round 32 F.小红的矩阵修改【三进制状态压缩dp】

原题链接&#xff1a;https://ac.nowcoder.com/acm/contest/75174/F 时间限制&#xff1a;C/C 1秒&#xff0c;其他语言2秒 空间限制&#xff1a;C/C 262144K&#xff0c;其他语言524288K 64bit IO Format: %lld 题目描述 小红拿到了一个字符矩阵&#xff0c;矩阵中仅包含&q…

2024.2.12日总结

今天去拜年去了&#xff0c;白天基本上都在外面&#xff0c;明天也是要去拜年&#xff0c;这几天学习的时间挺少的&#xff0c;但是还是要抓紧这些时间快点写项目&#xff0c;要找一些好用的插件&#xff0c;把项目和仓库新建好&#xff0c;然后下一步按照原型图的样子把页面画…