某项目三台设备PCIE Surprise Down故障分析

news/2025/4/1 18:21:58/文章来源:https://www.cnblogs.com/HByang/p/18795567

描述:

某项目交付过程中,发现三台服务器报The PCIe Card 1 (PCIe Device) triggered an uncorrectable error的错误(如下图)

分析

通过fdm/fdm_output日志,发现存在大量的PCIe的报错(如下),可以看出来全是Surprise Down Error错误,且问题都说发生在CPU1 的Riser模组上

检查Riser模组的状态,确实存在Riser模组存在掉卡情况

根因:

1、 产生PCIe Surprise Down的条件

当PCIe设备从 DL_Active 到 DL_Inactive 的这种状态转换视一个Surprise Down Error错误(如下图)不可恢复错误

2、产生这种情况的原因有如下两种情况

  1、 Physical Layer reports Physical LinkUp = 0b 物理链路状态为“未连接”(Physical LinkUp = 0b)

  2、 PCIE发生意外down,状态从DL_Active 到 DL_Inactive的转换,发生这个情况有如下情况

    是当PCIe设备在操作系统不知情的情况下突然停止响应或被移除的情况,会发生DL_Active 到 DL_Inactive的转换。

    硬件故障、电源问题、热插拔事件或其他不可预见的原因引起的。

当发生Surprise Down时,设备可能会立即停止通信,导致正在进行的事务中断,并可能引发各种错误条件。

解决:

1. 关闭服务器电源,检查组件与其插槽之间是否有损坏或接触不良的情况。

2. 更换组件并检查是否有报警。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/906599.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关联(Association), 聚合(Aggregation), 组合(Composition) 在软件设计模式中的区别

关联(Association)、聚合(Aggregation)与组合(Composition)的区别 这三种关系都是面向对象设计中描述类之间关系的重要概念,它们在耦合强度、生命周期管理等方面有显著差异。 1. 关联(Association) 基本特征:最通用的关系类型,表示类之间的使用关系可以是单向或双向的关联对…

H7-TOOL固件2.28发布,CAN, UART和RTT三合一同时收发且实时记录,脱机烧录新增革命性一键添加新芯片功能,新增多脱机芯片支持

H7-TOOL详细介绍(含操作手册): http://www.armbbs.cn/forum.php?mod=viewthread&tid=89934H7-TOOL PLUS电池版无需升级,预装的已经是最新的2.28版。后面还有个PLUS电池板低功耗运行模式,后续也将上线。【PC软件】V2.2.8 1. 脱机烧录功能更新:- 新增MAGTRON(巨磁智能)…

gitlab+jenkins+harbor+k8s安装操作流程之java项目打包成docker镜像

介绍在Java项目打包成Docker镜像时,通常需要写Dockerfile。Dockerfile是用来构建Docker镜像的文本文件,它包括了构建Docker镜像所需的所有命令和步骤 首先Maven先构建jar包 注意:dockerfile各个参数的解释如下

使用gradio生成图文理解界面

这里通过gradio来生成1个图文理解的界面,通过上传一张图片,则生成相应文本描述,即望图生义。 import gradiodef summarize(raw_image):model = xxxx()inputs = model.generate(raw_image)return tokenizer.decode(inputs)demo = gradio.Interface(fn=summarize,title="望图…

centos7 yum安装使用时提示Cannot find a valid baseurl for repo: base/7/x86_64

机器解析不了yum源,一般有三种原因: 1、无法上网,请检查网络ping www.baidu.com ping不通,机子没网,检查网络配置。能ping通检查第二种情况2、DNS配置有问题nslookup www.baidu.com ,如果显示无法连接无法解析就是有问题,确定能上网就换个dns!3、能上网并dns配置没…

使用带逗号分割的字符串填充el-input-tag

用户在文本框中输入1,2,3,4,5 ,然后直接转变成tag,如果输入错误,可以直接点击叉号关闭当前,前端代码实现如下: <template><el-input-tagref="inputRef"tag-type="primary"v-model="obj.model"clearable@paste.native="handleI…

时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现

在异常检测领域,尤其针对工业机械、核反应堆和网络安全等复杂系统,传统方法往往难以有效处理高维度且相互关联的数据流。多元状态估计技术(MSET) 与序贯概率比检验(SPRT) 的组合方法在此类场景中展现出显著优势。 MSET-SPRT是一种结合机器学习状态估计与统计假设检验的混合技…

windows 查看控制台编码

在 powershell 上 [System.Text.Encoding]::Default在 cmd 上 chcp

vue+nuxt项目安装sass时报错:error Cant add nuxt-app: invalid package version

搭建vue+nuxt项目时候,需要用到sass,执行yarn add sass --dev时,报错:error Cant add "nuxt-app": invalid package version。如图: 解决方法: 1.执行命令:yarn set version stable 2.执行命令,再次安装sass: yarn add sass --dev方法二: 1.执行命令:npm…

直击痛点!精准配药零误差!PROFINET转MODBUS网关助力药房升级

在医疗安全备受关注的今天,医院药房配液中心的每一滴药液、每一张标签都关乎患者的生命健康。传统配液流程中,设备间协议不兼容导致的数据传输延迟、标签信息错位等问题,成为药房效率与安全的“隐形风险”。如何打破设备孤岛,实现精准、高效的智能化配液管理?稳联技术 PRO…

MCR08-ASEMI智能家居专用MCR08

MCR08-ASEMI智能家居专用MCR08编辑:LL MCR08-ASEMI智能家居专用MCR08 型号:MCR08 品牌:ASEMI 封装:TO-92 阻断电压:600V 通态电流:0.8A 类型:单向可控硅 工作温度:-40℃~150℃ 超低触发电流,节能更高效‌MCR08采用先进的半导体工艺,触发电流低至10μA以下,较传统可控…

在 Windows 环境下使用 VSCode 和 TinyGo 语言开发 ESP8266(NodeMcu)

1. 安装Go 2. 安装TinyGo,并添加环境变量 3. VSCode配置,安装插件,选择设备 package mainimport ("machine""time" )func main() {led := machine.LEDled.Configure(machine.PinConfig{Mode: machine.PinOutput})for {println("Hello, World"…