大数据-之LibrA数据库系统告警处理(ALM-12045 网络读包丢包率超过阈值)

告警解释

系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。

用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”修改阈值。

平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。

该告警检测默认关闭。若需要开启,请根据“检查系统环境”步骤,确认该系统是否可以开启该告警发送。

告警属性

告警ID

告警级别

可自动清除

12045

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

NetworkCardName

产生告警的网口名。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

业务性能下降或者个别业务出现超时问题。

风险提示:在SUSE内核版本3.0以上或RedHat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导致该告警出现,对业务无影响,建议优先按照“检查系统环境”进行排查。

可能原因
  • 操作系统问题。
  • 网卡配置了主备bond模式。
  • 告警阈值配置不合理。
  • 网络环境异常。
处理步骤

查看网络丢包率

  1. 使用PuTTY工具,以omm用户登录集群中任意非告警节点,执行ping 告警节点IP地址 -c 100命令检查网络中是否存在丢包。

     说明: 
    • 告警节点IP地址:根据告警定位信息中的HostName字段值,在FusionInsight Manager的“主机管理”界面查询对应的IP地址,管理平面和业务平面IP都需要检查。
    • -c参数:检查次数,默认100次。
    • 是,执行步骤 10。
    • 否,执行步骤 2。

检查系统环境

  1. 使用PuTTY工具,以omm用户登录主OMS节点或者告警所在节点。
  2. 执行cat /etc/*-release命令,确认操作系统的类型。

    • RedHat,执行步骤 4。
       
    • SuSE,执行步骤 5。
       
    • 其他,执行步骤 10。

  3. 执行cat /etc/redhat-release命令,查询操作系统版本是否为RedHat 7.2。

     
    • 是,不能开启告警发送,执行步骤 6。
    • 否,执行步骤 10。

  4. 执行cat /proc/version命令,查询SuSE内核版本是否为3.0及以上。

    # cat /proc/version
    Linux version 3.0.101-63-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-branch revision 152973] (SUSE Linux) ) #1 SMP Tue Jun 23 16:02:31 UTC 2015 (4b89d0c)
    • 是,不能开启告警发送,执行步骤 6。
    • 否,执行步骤 10。

  5. 登录FusionInsight Manager,进入“系统设置 > 配置 > 阈值配置”页面。
  6. 在“阈值配置”页面左侧树形结构中选择“网络读信息 > 网络读包率信息 > 读包丢包率”,在弹出的右侧信息中,查看“发送告警”是否已经勾选。
  • 是,说明开启了告警发送,执行步骤 8。
  • 否,已经关闭告警发送,执行步骤 9。

 7.在弹出的右侧信息中,去勾选“发送告警”,屏蔽对“网络读包丢包率超过阈值”的检测,操作后的结果如下图所示。

  1. 8.在FusionInsight Manager的“告警管理”界面,搜索“12045”告警,将未自动清除的该告警全部手动清除,处理完毕。

检查网卡是否配置了主备bond模式

  1. 使用PuTTY工具,以omm用户登录告警所在节点,执行ls -l /proc/net/bonding命令,查看该节点是否存在“/proc/net/bonding”目录。

    • 是, 如下所示,则该节点配置了bond模式,执行步骤 11。
      # ls -l /proc/net/bonding/
      total 0
      -r--r--r-- 1 root root 0 Oct 11 17:35 bond0
    • 否,如下所示,则该节点未配置bond模式,执行步骤 13。
      # ls -l /proc/net/bonding/
      ls: cannot access /proc/net/bonding/: No such file or directory

  2. 执行cat /proc/net/bonding/bond0命令,查看配置文件中Bonding Mode参数的值是否为fault-tolerance。

    说明:

    bond0为bond配置文件名称,请以步骤 10查询出的文件名称为准。

    # cat /proc/net/bonding/bond0 
    Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)Bonding Mode: fault-tolerance (active-backup)
    Primary Slave: eth1 (primary_reselect always)
    Currently Active Slave: eth1
    MII Status: up
    MII Polling Interval (ms): 100
    Up Delay (ms): 0
    Down Delay (ms): 0Slave Interface: eth0
    MII Status: up
    Speed: 1000 Mbps
    Duplex: full
    Link Failure Count: 1
    Slave queue ID: 0Slave Interface: eth1
    MII Status: up
    Speed: 1000 Mbps
    Duplex: full
    Link Failure Count: 1
    Slave queue ID: 0
    • 是,该环境的网卡为主备bond模式,执行步骤 12。
    • 否,执行步骤 13。

  3. 检查该告警详情中NetworkCardName参数对应的网卡是否为备网卡。

    • 是,备网卡的告警无法自动恢复,请在告警管理页面手动清除该告警,处理完毕。
    • 否,执行步骤 13。 

 说明:

备网卡判断方式:查看配置文件/proc/net/bonding/bond0,NetworkCardName参数对应的网卡名称等于其中一个Slave Interface,但是不等于Currently Active Slave(当前主网卡),则该网卡为备网卡

检查阈值设置是否合理。

  1. 登录FusionInsight Manager,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调整)。

    • 是,执行步骤 16。
    • 否,执行步骤 14。

  2. 根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。如图1所示。

    图1 设置告警阈值

  3. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 16。

检查网络是否异常。

  1. 联系系统管理员,检查网络是否存在异常。

    • 是,恢复网络故障,执行步骤 17。
    • 否,执行步骤 18。

  2. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 18。

收集故障信息。

  1. 在主集群的FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
  3. 设置“主机”为告警所在节点和主OMS节点。
  4. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/171919.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

idea生成代码(一):实现java语言的增删改查功能(基于EasyCode插件)支持自定义模板【非常简单】

idea生成代码(一):实现java语言的增删改查功能(基于EasyCode插件)支持自定义模板【非常简单】 idea生成代码(二):实现java语言的增删改查功能(基于mybatis-plus代码生成器…

记录:unity脚本的编写6.0

目录 unity UI系统添加ui编写脚本 unity UI系统 在日常的游戏或者别的什么活动中,ui总是必不可少的一项,在java中也有关于GUI的内容,unity也不例外,这次就使用脚本控制在unity添加的各种ui组件,使他们可以完成一些我们…

【第2章 Node.js基础】2.4 Node.js 全局对象(一)

什么是Node.js 全局对象 对于浏览器引擎来说,JavaScript 脚本中的 window 是全局对象,而Node.js程序中的全局对象是 global,所有全局变量(除global本身外)都是global 对象的属性。全局变量和全局对象是所有模块都可以调用的。Node.is 的全局…

java 旋转方阵

public static void main(String[] args) {Scanner scanner new Scanner(System.in);// N阶方阵int n scanner.nextInt();// 构建方阵List<List<Integer>> matrix new ArrayList<>();for (int i 0; i < n; i) {List<Integer> row new ArrayLis…

书单 | 11月程序员新书播报

11月最新上架计算机书籍 1、人工智能&#xff08;第3版&#xff09; 美国经典人工智能教材第3版&#xff0c;人工智能的百科全书&#xff0c;新增深度学习及人工智能编程等内容&#xff0c;理论阐释结合动手实践&#xff0c;附赠PPT课件、配套视频及代码文件。 1.人工智能经典…

Vue中组件与插件:究竟有何不同?详细解析带你get到核心差异!

&#x1f3ac; 江城开朗的豌豆&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 &#x1f4dd; 个人网站 :《 江城开朗的豌豆&#x1fadb; 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! 目录 ⭐ 专栏简介 &#x1f4d8; 文章引言 一、组…

MySQL表的增删改查(进阶)

目录 数据库约束 约束的定义 约束类型 null约束 unique:唯一约束 default:默认值约束 primary key:主键约束(重要) foreign key:外键约束(描述两个表之间的关联) 表的设计 一般思路 三大范式 一对一 一对多 ​编辑 多对多 ​编辑 新增 查询 聚合查询 聚合函…

运动耳机哪个牌子好性价比高?运动耳机品牌排行榜前十名

​其实&#xff0c;选择运动耳机并不只是看外观&#xff0c;性能也同样重要。在选择时&#xff0c;我们需要考虑几个关键因素&#xff0c;例如稳固性、舒适度和音质等。这些都是运动耳机必备的要求&#xff0c;因为它们能帮助我们在运动时更加专注于锻炼&#xff0c;而不会被耳…

每天一点python——day67

#每天一点Python——67 #字符串判断方法&#xff1a;如图&#xff1a; #①判断指定字符串是否为合法标识符 shello,computer print(s.isidentifier()) #输出为False&#xff0c;不是合法标识符&#xff0c;这是因为标识符是由字母&#xff0c;数字&#xff0c;下划线组成&#…

识别代理IP:保障网络安全的重要一环

在互联网的世界中&#xff0c;代理服务器被广泛用于隐藏用户真实IP地址&#xff0c;带来了一些挑战&#xff0c;特别是在网络安全和欺诈检测方面。本文将探讨如何识别代理IP&#xff0c;以确保网络的安全性和可靠性。 1. 代理IP的背景与用途 代理服务器是位于用户和目标服务器…

uni.getLocation() 微信小程序 线上获取失败

开发版,体验版,用此方法都可以正确获取定位,但是在小程序的线上,总是获取失败 参考:uni-app微信小程序uni.getLocation获取位置&#xff1b;authorize scope.userLocation需要在app.json中声明permission&#xff1b;小程序用户拒绝授权后重新授权-CSDN博客 uniapp 中的 uni.…

提高软件测试覆盖率的5个重点

软件测试覆盖率是软件测试中的一个重要指标&#xff0c;它有利于保障软件质量、提高软件可靠性和可维护性。软件测试覆盖率能够发现并修复代码缺陷&#xff0c;确保代码的正确性&#xff0c;提高软件的稳定性&#xff0c;降低成本和风险。 因此进一步提高软件测试覆盖率对于软件…