Exadata中的Infiniband交换机,更换完SSD模块后,交换机反复重启

news/2024/11/20 11:33:20/文章来源:https://www.cnblogs.com/missyou-shiyh/p/18432220

1. 故障描述

客户的Exadata X5-2,  某天收到EM13c告警,提示Exadata中的Infiniband交换机出现故障。

 

2. 故障处理

2.1  执行showunhealthy命令后,显示告警信息。

# showunhealthy

WARNING Flash disk has bad blocks.

FALURE - 1 sensors NOT OK

从命令输出可以看了,该Infiniband交换机的SSD模块存在数据坏块。(Infiniband交换机上运行着一个小型的Linux系统,Linux系统就存放在SSD模块中)

 

2.2 SSD模块存在坏块,最简单的办法就是更换整台Infiniband交换机,当然了,最省钱的办法就是只更换SSD模块。将原来SSD模块中的数据全部复制至新的SSD模块后,重新启动该Infiniband交换机。大概过了十几分钟左右,该Infiniband交换机又发出很大的声音,感觉是机器又重启了。同时,还有另外 一个非常怪的现象,更换完SSD模块后,该Infiniband交换机的管理IP无法 ping通。

 

2.3 趁着Infiniband交换机重启之前的间隙,赶紧收集了message日志。

 从message日志可以看了,在更换完SSD模块之后,Infiniband交换机自动启动了三次,每次间隔大概20分钟左右。每次重启之前,基本上如下图所示,除了一处可疑之外,没有任何的异常。

 依据Doc ID 2340165.1,这个可疑的告警日志是无害的日志,可以忽略。 

 

2.4 目前,问题有点无解。Infiniband交换机能正常启动,但会莫名其妙地重启,并且重启之前没有严重的故障日志产生,继续分析message日志,这次分析了 从 “开始启动” 至 “下一次重新启动” 之间的所有日志,终于有所发现:

 从启动日志可以看出,sda5对应的文件系统处于readonly状态,需要恢复,恢复完成后才挂载成功,同时提示 eth0 link down,这也就是为什么交换机无法ping通的原因了。  结合这些日志,怀疑是当前的系统存在某方面的问题,才导致系统反复重启。

2.5 此时,只能尝试如下办法来解决问题:

(1). 将其他的系统镜像复制至刚刚更换的SSD模块中,然后重启Infiniband交换机。(怀疑是当前换下来的SSD模块中的系统镜像存在问题)

(2).将当前的换下来的SSD模块中的系统镜像复制至另外的SSD模块中,然后重启Infiniband交换机。(怀疑是刚刚更换的SSD模块自身存在问题)

 

2.6  将其他的系统镜像复制至刚刚更换的SSD模块中,然后重启Infiniband交换机,运行了一个多小时,没有出现重启的现象。至此,可以肯定就是当前换下来的SSD模块中的系统镜像存在问题了。接下来,完成剩余的工作,比如更新管理IP等等。最后,升级该交换机的固件版本,保持与Exadata中另外一台Infiniband交换机相同的固件版本。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/803682.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第六次作业

1、安装burp,分别在本机上实现全局代理和局部代理,提供设置过程的说明文档; 全局代理: 打开IE浏览器设置代理burp监听端口火狐浏览器关闭代理在火狐浏览器对登录靶场进行抓包设置全局代理的情况下关闭火狐浏览器代理,在火狐浏览器成功抓到靶场登录的包局部代理: 火狐浏览…

林史语其十(101-105)【上半更新】

好了,CSP 集训开始了,林史堂堂复活鉴于收集素材与发布素材之间有一定延迟,此后林史一章分两次更新 先把存的旧东西发一下 #101故事源于 joke3579 学长博客里一份证明,涉及到求不定积分的 如果你不知道啥是不定积分,你只需要知道它是导数逆运算就行了 学长博客里写的是 :\…

【Azure Event Hub】关于Event Hub指标 ConsumerLag 的解释

问题描述 在使用Azure Event Hub的过程中,需要监控消费端是否正常消费数据?而常规的指标只有 Incoming Message, Outgoing Message,是否指标能表明当前Event Hub消费滞后,即 Incoming 数量远远大于 Outgoing呢?IncomingMessages :发布到事件中心的消息数。 OutgoingMess…

社区来稿丨一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

本文由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。自从 OpenAI 展示了 GPT-4o 的实时对话能力后,感觉电影《Her》中的场景瞬间成了现实…

2024最新pwn环境配置与基础讲解

从零开始配置ubuntu pwn虚拟机 参考一个比较新的环境搭建教程: # ubuntu20.04 PWN(含x86、ARM、MIPS)环境搭建 致敬传奇大神hollk师傅 博客中的配置过程可参见B站视频:2024最新pwn环境配置与基础讲解 1.ubuntu虚拟机安装 24.04下载: https://ubuntu.com/download/desktop/…

区间质数搜索——埃拉托斯特尼筛法和欧拉筛法

参考资料 【中国大学生计算机设计大赛国赛二等奖微课与教学辅助《埃拉托斯特尼筛法》】 【中国大学生计算机设计大赛《素数筛选—欧拉线性筛选法详解》】 Eratosthenes筛法-CSDN博客 【算法/数论】欧拉筛法详解:过程详述、正确性证明、复杂度证明-CSDN博客 水平有限,欢迎交流…

2024/9/25代码随想录 图论 关于ACM模式下输出的细节

1. 就只输出一行数据,输出 1 2 4 5 来说,

quixel bridge如何导入unity

bridge如何导入unity# 1.[Quixel Bridge](https://quixel.com/bridge)下载和设置 1. 下载[Quixel Bridge - Manage 3D content and export with one click](https://quixel.com/bridge) 客户端注册 安装。bridge 模型导出路径配置 和 插件下载客户端点击 Edit ->Export Set…

mini-lsm通关笔记Week2Day3

项目地址:https://github.com/skyzh/mini-lsm 个人实现地址:https://gitee.com/cnyuyang/mini-lsmSummary在本章中,您将:实现tiered合并策略并在压缩模拟器上对其进行模拟。 将tiered合并策略纳入系统。我们在本章所讲的tiered合并和RocksDB的universal合并是一样的。我们将…

mini-lsm通关笔记Week2Day2

项目地址:https://github.com/skyzh/mini-lsm 个人实现地址:https://gitee.com/cnyuyang/mini-lsmSummary在本章中,您将: 要将测试用例复制到启动器代码中并运行它们,实现一个simple leveled合并策略,并在合并模拟器上进行仿真。 将compaction作为后台任务启动,并在系统…

指针2)

1.& &是地址符,类型是其后面的类型加一个“*”,任何变量都可以使用&来获取地址,但不能用在常量上。 char a = 10; short b = 20; int c = 30; char*=pa pa=&alea取地址:ebp-4的地址放入eax,再将eax里的地址放入ebp-10里 &可以取任何一个变量…

nssctf(web

web 1.浏览器也能套娃 查看wp,是ssrf漏洞 介绍:SSRF漏洞产生的原因是服务端提供了能够从其他服务器应用获取数据的功能,比如从指定的URL地址获取网页内容,加载指定地址的图片、数据、下载等等。 SSRF的利用:进行内网资源的访问:url?url=http://内网的资源url利用伪协议:…