【防火墙】防火墙监控没做好,断网2小时准备提桶跑路

news/2025/1/22 11:35:02/文章来源:https://www.cnblogs.com/o-O-oO/p/18685404

防火墙告警:该业务CPU负荷过多(81>= 80) ,发现吞吐量超过设备性能阈值,导致网络特别卡,客户端体现就是偶尔网络中断。

之前有篇文章是针对华三的防火墙指标数据采集做了介绍说明,可点击这里查看 网络监控:华三防火墙监控 这篇文章了解,在防火墙可观测性领域目前案例分享还是太少,而在实际项目中以及和星球好友沟通接触中发现华为防火墙的使用率还是挺高的。

日常华为防火墙运维看设备资源使用情况更多的可能是 Web 页面查看,但是华为防火墙自带的 Web 页面可看到的信息还是不够直观,如果运维管理多台防火墙那就非常不方便查看设备监控信息状态,故今天我将重点介绍下如何监控华为防火墙,实现防火墙的可观测性关键指标采集和展示。

关注指标

针对防火墙监控,我们需要明白防火墙的常规性能指标,以及日常运维关注的业务指标点。
根据经验我列出了网工运维比较关注的指标主要有如下几点:

上图是根据经验列出的常见指标信息,几乎大部分品牌防火墙关于这些指标都是可以拿到,关于这些指标的告警经验值大部分都需要根据实际设备性能来定义,这里可以用一个告警阈值万能公式:指标值 > 指标最大性能 * 80% ,如 CPU 和 内存 这些可以直接大于 80% 利用率即可触发告警。

如何采集

关于采集器还是利用夜莺开源的 Categraf 作为首选,基于夜莺架构体系或魔改架构体系,关于两个架构可查看 网络监控:架构选择 这篇文章了解。
具体采集配置文件在这里说明几个特别注意的点:

1、采集配置没有分开多文件
2、单配置文件中有多 [[instances]] 也就是 toml 中多个表数组实现多指标采集
3、枚举类型数据单独处理

这里要特别提及关于 HRP 指标如何处理,也就是得到的数据是枚举类型:

# 系统名称
[[instances.field]]
oid = ".1.3.6.1.2.1.1.5.0"
name = "device_name"
is_tag = true# 本端设备管理口MAC hwHrpLocalID
[[instances.field]]
oid = ".1.3.6.1.4.1.2011.6.122.51.1.1.0"
name = "hwHrpLocalID"
conversion = "hwaddr"
is_tag = true
inherit_tags = ["device_name"]# 对端设备管理口MAC hwHrpPeerID
[[instances.field]]
oid = ".1.3.6.1.4.1.2011.6.122.51.1.2.0"
name = "hwHrpPeerID"
conversion = "hwaddr"
is_tag = true
inherit_tags = ["device_name"]# 当前主备设备切换次数 hwHrpSwitchOverTimes
[[instances.field]]
oid = ".1.3.6.1.4.1.2011.6.122.51.1.4.0"
name = "Over_Times"
inherit_tags = ["device_name"]# firewall_HA状态 hwHrpState
[[instances.field]]
oid = ".1.3.6.1.4.1.2011.6.122.51.1.3.0"
name = "hwHrpState"
inherit_tags = ["device_name"][[instances.processor_enum]]metrics = ["*hwHrpState"][instances.processor_enum.value_mappings]normal = 1fault = 0

在配置文件中特别强调使用 [[instances.processor_enum]] 表数组处理防火墙HA状态的纸,由于 Prometheus 指标值限定为 float64 浮点数,故如果是非浮点数,同时可能的指标值就是限定在3~5个值之间的某一个值,即可通过枚举映射实现指标采集。

其他整体配置有几百行,就不展开细说,配置文件可公众号私信拿。

指标存储

指标采集完成后,可以通过 remote write 写入各种兼容的 Prometheus 格式数据的时序数据库中,日常用的最多的就是 VictoriaMetrics 时序库,我强烈推荐使用,可以利用在各种大小场景中,在最近的夜莺开发者大会上,看到很多国内大厂在可观测性指标领域都用上了这个时序库,或是单节点,或是集群,总有符合你需要的场景需求。

数据展示

这里还是利用 Grafana 实现,通过制作 Grafana 仪表板展示不同区域不同实例防火墙的指标数据,实现了开头所说,不要登录防火墙Web查看,可直观查看每个防火墙的性能状态指标。

以上防火墙指标监控就介绍到这里,下一篇我将分享下关于 SNMP Trap 如何监控,以及网络设备支持 Telemetry 协议,该如何用 Telemetry 上报指标数据并实现监控。

原创 小斐Lab 网络小斐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/873186.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nRF21540—低功耗蓝牙,蓝牙mesh、Thread和Zigbee和2.4 GHz私有协议范围扩展射频前端模块

nRF21540是一款射频前端模块(FEM),可用于改善短距离无线产品的传输范围和连接鲁棒性。作为一款辅助性设备,nRF21540是一种“即插即用型”的无线传输范围扩展器,可与nRF52和nRF53系列的高级多协议无线SoC搭配使用,所需的外部器件数量非常少。 nRF21540的+13dB RX增益和低…

Transformer 学习与解读

LLM学习笔记 注意力机制 sequence to sequence (seq2seq)输入N个向量,输出任意可能数量的向量(由机器决定);如果输出N个向量的任务就叫做Sequence Labeling 李沐课程讲义:https://zh-v2.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.ht…

JDK中的可视化故障处理工具

JDK提供了几个功能集成度更高的可视化工具,我们可以使用这些可视化工具以更加便捷的方式进行进程故障诊断和调试工作。 今天就简单介绍一些JDK中的可视化故障处理工具。 JHSDB:基于服务性代理的调试工具 在说JHSDB之前,先来了解一下JCMD和JHSDB这两个集成式的多功能工具箱,…

ExKMP Z函数

讲解Z函数(ExKMP),附模板及例题更新日志 20250122:开工。思路 我们定义 \(z_i\) 表示从 \(i\) 开始的后缀与整个字符串的最长公共前缀长度。 考虑它的作用,假如我们要字符串匹配,将模式串接在前面并以特殊字符分隔,然后 \(O(n)\) 遍历原串,当 \(z_i=|T|\)(\(T\) 为模式…

【资产梳理】 攻击面资产梳理可视化工具

免责声明: ⽂中所涉及的技术、思路和⼯具仅供以安全为⽬的的学习交流使⽤,任何⼈不得将其⽤于⾮法⽤途以及盈利等⽬的,否则后果⾃⾏承担。所有渗透都需获取授权!确定攻击面对于防御和进攻网络安全团队都至关重要。毫无疑问,可视化映射比简单的列表更有效。专家可以快速掌握…

OpenWRT24.10旁路由挂载USB移动硬盘,配置Samba4,作为NAS使用,解决中文不显示,乱码,解决断电重启后挂载失败问题

1. 为何选择OpenWRT 24.10,及如何配置旁路由,或者IPv6地址 看这篇:参OpenWRT24.10配置作为旁路由,并配置获取IPv4和IPv6地址 使用的OpenWRT固件是从这里下载的:https://openwrt.ai/ 2.挂载大容量USB移动硬盘 2.1 安装必备插件 kmod-fs-ntfs3 kmod-fs-ext4 kmod-fs-exfat…

如何迅速并识别处理MDL锁阻塞问题

TaurusDB推出MDL锁视图功能,帮助用户迅速识别并处理MDL锁阻塞问题,从而有效减少对业务的负面影响,提升数据库管理效率。摘要:TaurusDB推出MDL锁视图功能,帮助用户迅速识别并处理MDL锁阻塞问题,从而有效减少对业务的负面影响,提升数据库管理效率。本文分享自华为云社区《…

运维职业要求

摘抄知乎@Hi峰兄运维技能导图量化自己的技能深度 级别 水平 0   啥都不懂 1   理解基本概念,应用场景 2   基本的安装,配置,使用,常用配置修改,定位基本问题 3 根据实际情况定位、优化服务,了解服务核心模块运行机制,熟悉服务的各种使用方法 4 深…

关于RNN (循环神经网络)相邻采样为什么在每次迭代之前都需要将参数detach

转自:https://www.cnblogs.com/catnofishing/p/13287322.htmldetach到底有什么作用呢 首先要明确一个意识:pytorch是动态计算图,每次backward后,本次计算图自动销毁,但是计算图中的节点都还保留。 ​ 方向传播直到叶子节点为止,否者一直传播,直到找到叶子节点 我的答案是…

网站后台上传商品功能失效,如何排查和修复?

网站后台上传商品功能失效会影响正常的业务运营,因此需要尽快排查并修复。以下是详细的排查步骤和解决方案:确认前端页面加载情况: 首先,在浏览器中打开网站后台,检查页面是否完全加载,特别是上传商品相关的JavaScript和CSS文件。如果存在资源加载失败的情况,可能是由于…

云服务器频繁出现大流量提醒及访问异常

您好,当您频繁收到关于服务器流量过大的提醒,并且站点访问出现异常(如502 Bad Gateway或504 Gateway Timeout)时,这可能是由以下几个方面的原因造成的。下面我们将详细介绍这些问题及其对应的解决方案:流量来源分析:首先,确定流量来源是否合法。使用流量分析工具(如(网…

云服务器未预装网站管理系统

您好,当您购买新的云服务器时发现未预装网站管理系统,这通常是因为不同服务商提供的初始镜像有所不同。以下是一些常见原因及其解决方案:操作系统选择:在选择操作系统时,请注意某些版本可能默认不包含网站管理助手。如果您希望获得预装的建站工具,建议选择带有集成环境的…