描述:
某项目交付过程中,发现三台服务器报The PCIe Card 1 (PCIe Device) triggered an uncorrectable error的错误(如下图)
分析
通过fdm/fdm_output日志,发现存在大量的PCIe的报错(如下),可以看出来全是Surprise Down Error错误,且问题都说发生在CPU1 的Riser模组上
检查Riser模组的状态,确实存在Riser模组存在掉卡情况
根因:
1、 产生PCIe Surprise Down的条件
当PCIe设备从 DL_Active 到 DL_Inactive 的这种状态转换视一个Surprise Down Error错误(如下图)不可恢复错误
2、产生这种情况的原因有如下两种情况
1、 Physical Layer reports Physical LinkUp = 0b 物理链路状态为“未连接”(Physical LinkUp = 0b)
2、 PCIE发生意外down,状态从DL_Active 到 DL_Inactive的转换,发生这个情况有如下情况
是当PCIe设备在操作系统不知情的情况下突然停止响应或被移除的情况,会发生DL_Active 到 DL_Inactive的转换。
硬件故障、电源问题、热插拔事件或其他不可预见的原因引起的。
当发生Surprise Down时,设备可能会立即停止通信,导致正在进行的事务中断,并可能引发各种错误条件。
解决:
1. 关闭服务器电源,检查组件与其插槽之间是否有损坏或接触不良的情况。
2. 更换组件并检查是否有报警。