告警产生
4月16日上午7:30分左右,福州某市医院20多台服务器批量重启,通知现场工程师。
故障分析定位
1、通过批量重启告警信息,发现内网esxi53主机硬件告警,初步判断是X86设备esxi53发生故障,导致esxi53上的虚拟服务器进行迁移重启。
告警提示
查打开esxi53设备详情,查看磁盘运行信息,显示2块磁盘运行正常。
基本可以排除磁盘故障。
磁盘运行正常
2、在9:20左右,服务器再次发生批量重启现象,在批量重启信息中,有“内网ESXi54 主机硬件-x86-温度状态异常告警
温度异常告警
查看ESXi54硬件故障告警详情,可以看到内存,PCH和PCLe同时温度状态异常告警,推测ESXi54硬件故障,导致esxi54上的虚拟服务器进行迁移重启.
大胆假设,谨慎求证。
于是LinkSLA二级工程师,登录客户主机管理,发现esxi53、esxi54两台主机的虚拟机服务器重启时和平台监控到的内存PCH和PCLe同步存在温度异常告警。
pch、pcle温度异常
因此,可以初步判断,当esxi53、esxi54两台主机在内存状态异常时,内存发现异常。因此出现虚拟机批量迁移到其它主机的现象。
三、后续处理措施和建议
故障修复,建议跟换内存条。通过后续系统检测,此类故障再也没有发生,问题得到解决。
系统的健康稳定,需要时时掌握系统的运行状态,根据AI趋势性算法,做好提前预防,将问题扼杀在摇篮中。
LinkSLA智能运维管家,提供一站式运维服务