OceanBase-OCP-【告警】-OCP频繁出现主机不可用告警

news/2024/11/18 20:20:02/文章来源:https://www.cnblogs.com/bayaim/p/18388030
 

一、先说,处理过程

OCP频繁出现主机不可用告警
--------------------------------------------------
一、环境
生产环境,监控9个节点,fgc、内存、OCP各个节点网络、NTP都是正常。
云平台底座 3.14-3.16.2,客户ocp是3.1.2-20211025说是升级完ocp会到3.2.4,客户OCP 1-1-1 集群,经常性OCP不可用告警,麻烦查下原因。
3.14-3.16.2   是云平台底座
ocp是3.1.2-20211025   说是升级完ocp会到3.2.4   但我看升完了也没变  ----------------------------------------------------
二、工单
工单标题 : OCP频繁出现主机不可用告警
OceanBean产品 : OCP
产品版本 : 3.14-3.16.2
问题类型 : 服务故障
问题描述 : 专有云信创环境,底座3.16.2版本 近期频繁出现主机不可用告警,告警期间排查告警主机正常未宕机,ocp与告警主机可以互通,agent进程正常未重启,请协助排查告警原因。
告警规则是否为opc_host表中心跳超时>30s后进行主机判断-------------------------------------------------
三、处理
总则:
这个比较难定位问题,但是不影响使用话,可以接受先不管查询OB主机不可用原因:三个节点的集群: 1- 1- 1
ocp跟主机可以相互ping通是吧
可以的,而且昨天告警的是个ocp机器
最近这个环境做过云平台升级10.252.208.76  是其中一个 OCP 
10.252.208.76 现在都是没问题的,这就是生产,观察好久了网络或者进程情况,这是第五次还是第六次的告警了。客户要结果================================
2022-12-15 23:49:45.740  INFO 82 --- [alarm-task-2,,6ef057187550] c.a.o.s.a.c.d.GroupMessageDistributor    : distribute done, channelId=100001, recipientCount=0, recipients=, message=[OCP告警通知] - 名称: 主机不可用  - 级别:停服 - 告警对象:service=OCP:svr_ip=10.252.208.76 - 概述:service=OCP:svr_ip=10.252.208.76 主机不可用 - 生成时间: 2022-12-15T23:49:36+08:00 - 详情:service=OCP:svr_ip=10.252.208.76 主机不可用, 请检查主机 10.252.208.76 是否可以访问,或者 OCP Agent pox_proxy 进程是否正常。网络繁忙或者网络不稳定情况也可能导致主机不可用。 - 链接:http://ocp-api.oat.ops.xc.picchealth.net:80/alarm/event/614
2022-12-15 23:49:45.740  INFO 82 --- [alarm-task-2,,6ef057187550] c.a.o.s.a.core.process.AlarmProcessor    : aggregate result distribute, channelId=100001, groupKey=host_unavailable, distributedNotificationsCount=1-------------------------------------------处理过程:这个应该是没有重启,看 pid 是一样的,没有日志应该就是请求卡住了,或者请求没有发送到 agent 端之前版本的限制了并发数量,之前遇到过离线的是线程被占满了,可以看下这个时间段的日志里面有没有其他的慢请求12.16 19:46:36 告警的这次,pos_proxy在一分钟内没日志,看下面的日志是不是重启了?2分钟没日志这个应该是没有重启,看 pid 是一样的,没有日志应该就是请求卡住了,或者请求没有发送到 agent 端按照以往我们处理的经验会有:看下经常不可用的机器上有没有积攒du进程,触发造成的,该工单诊断以来您的环境的现象属于进程请求卡住了,有时候进程异常了出现短暂不可用现象。处理总结:有没有这个指令,或者 ps -ef | grep du, 看下经常不可用的机器上有没有积攒du进程
OCP 3.1.2版本主机频繁告警不可用,日志里有 rpc read timeout,这个是已知问题吗?这个是依赖 rpc 请求来判断的,每分钟一次,遇到网络波动的话可能偶尔会出现
如果有网络波动,tsar应该可以佐证,但是tasr都是正常的
这个波动不一定体现在网络负载上,可以看下 ocp-agent 端 pos_proxy 的日志在这个时间段是否有请求问题原因:
1、各个OCP到主机之间网络正常
2、 ps -ef | grep du  机器上有没有积攒du进程
3、OCP 3.1.2版本主机频繁告警不可用,日志里有 rpc read timeou处理建议:
1、当前告警不影响生产使用,如果出现可以忽略,或增加告警产生频率时间间隔。下次再出现时候我们在具体分析原因
看了下 ocp-agent 端没有收到请求,server 端显示执行命令 10s 超时了,这个校验请求是通过 RPC 请求来发送的,受影响的因素比较多,之前提供过一个参数来增加主机状态监测的容错,可以先修改下这个参数增加下容错,想彻底解决的话可以考虑升级 ocp 版本
可以在系统参数里面查询下 ocp.host.check.unavailable-time-threshold 这个配置项,默认应该是 60000 可以改成 180000 试下,这个作用就是连续 3 次监测失败才会发送主机离线的告警如果云底座没有调整网络策略的话应该没太关系才对,升级到 3.2.4 版本的话这个 主机状态监测协议就变成 http 了,应该就没这个问题了
是的,把这个改成 180000,这个参数不用重启

 

二、再说,问题截图

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/789475.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OceanBase-OCP-bug之 fgc问题处理

一、遇到问题时,处理过程关于调整ocp-server的jvm大小解释:1、在docker容器内设置export JVM_HEAP_SIZE=xxxx,然后重启对应的ocp-server进程(/home/admin/ocp-server/bin/ocp-server),注意这里的大小不要超过docker容器的大小上限。2、在调整完ocp容器的内存大小之后(doc…

oceanbase-3分钟带你看懂 GC 日志!

3分钟带你看懂 GC 日志! ------------------------------------------------------------------------------------01、背景介绍 在之前的几篇文章中,我们介绍了 JVM 内部布局、对象的创建过程、运行期的相关优化手段、垃圾对象的回收算法以及垃圾收集器等相关知识。 那么如何…

网盘+git个人ue大文件备份

88VIP的夸克网盘不用太可惜了,所以我用他的自动备份功能来备份我正在做的UE项目的.git文件,这样既可以留存版本更新信息,又可以存大文件了。做个人备份的话就懒得用gitlfs了,直接都放网盘里。回头本地文件丢了的话,就把.git下下来然后版本回退一下

maven 插件之 maven-shade-plugin,解决同包同名 class 共存问题的神器

开心一刻 有一天螃蟹出门,不小心撞倒了泥鳅泥鳅很生气地说:你是不是瞎啊!螃蟹说:不是啊,我是螃蟹概述 maven-shade-plugin 官网已经介绍的很详细了,我给大家简单翻译一下This plugin provides the capability to package the artifact in an uber-jar, including its dep…

数据跨境流动出新规,企业数据出海如何保障数据安全性?

数据出海是企业拓展海外市场、提升品牌影响力、应对市场竞争、实现产业升级和创新驱动的重要途径,随着全球化和数字化趋势的深入发展,数据出海成为越来越多企业的选择。为了在数据跨境高效流动的同时,确保国家和社会安全,保护公众利益,许多国家都相继出台法律法规来规范和…

一个批量爬取微博数据的神器

分享一个能批量下载微博图片/视频/评论的工具100.一个批量爬取微博数据的神器 分享一个能批量下载微博图片/视频/评论的工具 ‍ 起因 偶尔玩玩微博,最近看到了一名专业的 coser,因此想要下载一些她的微博,方便观看,也避免以后平台倒闭/博主退坑的情况导致无法看原微博。 ​…

数据无界:大型企业如何实现多区域文件安全传输的无缝体验?

随着企业全球化发展,大型企业分支机构的分布越来越广泛,多区域文件传输需求也随之增加。目前大型企业多区域文件数据存储和传输交换现状如下: 1.文件存储现状:集中和分散并存,局部集中,整体分散; 2.文件存储管理:不同区域、分支机构、业务部门,文件存储方案差异化,各…

Redis高可用方案:使用Keepalived实现主备双活

注意:请确保已经安装Redis和keepalived,本文不在介绍如何安装。 1、使用版本说明 Redis版本:5.0.2 Keepalived版本:1.3.5 Linux 版本:Centos7.9 查看Redis版本: /usr/local/redis/bin/redis-cli -v查看Keepalived版本信息: rpm -qa|grep keepalived 或者 keepalived -v2…

安全高效,一键搞定:Ftrans文件摆渡系统让数据流转更简单!

随着互联网技术的不断发展,网络攻击手段也不断的更新,为了防止外部攻击和内部数据泄密,高科技企业一般会实施内外网隔离,甚至在内部网络中又划分出业务网、办公网、生产网等进行隔离。但基于业务的需求,隔离网间仍存在文件传输的需求。如何通过文件摆渡系统,在保证数据安…

差模电感与共模电感总结

差模电感与共模电感总结 差模干扰信号和共模干扰信号 差模干扰信号是两个输入电源线之间反方向构成的电流回路信号。 共模干扰信号是两个输入线上同方向与大地构成的电流回路信号。 简而言之: 差模信号就是两个大小相等、方向相反的信号。 共模信号就是两个大小相等、方向相同…

Datawhale X 李宏毅苹果书AI夏令营深度学习进阶(二)

一.动量法 在上一个博客中,我们提到了动量法,现在继续补充如图所示,红色表示负梯度方向,蓝色虚线表示前一步的方向,蓝色实线表示真实的移动量。一开始没有前一次更新的方向,完全按照梯度给指示往右移动参数。负梯度方向跟前一步移动的方向加起来,得到往右走的方向。一般…

LCA 最近公共祖先

概念 最近公共祖先简称 LCA(Lowest Common Ancestor)。两个节点的最近公共祖先,就是这两个点的公共祖先里面,离根最远的那个。 感觉其实看个图就懂了吧图中例子 \(lca(u,v)=x\) 这个问题理解概念不难,主要是学会如何快速求来,下面介绍三种方法。 方法 1.暴力法 2. 倍增法…