深度学习烦人的基础知识(2)---Nvidia-smi功率低,util高---nvidia_smi参数详解

文章目录

  • 问题
    • 现象解释
    • 解决方案
  • 磨刀不误砍柴工--nvidia-smi参数解读

问题

如下图所示,GPU功率很低,Util占用率高。这个训练时不正常的!
在这里插入图片描述

现象解释

Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。

GPU-Util高说明它的核心被占用了,占用率为100%。

打个比方,把GPU看做是人。三个人,一个在举重,一个人在跑步,一个人在走路。他们都在运动,都是忙碌的,也就是GPU-Util占用高。但是很显然举重的,对外做功高,跑步的做功低,走路的最差,也就是GPU的耗电情况。详细此述

结论:像是这种情况,说明GPU被占用了,但是没有实际工作,也就是人员到位了,在等活干,很有可能是进程等待问题,或者进程锁死了

解决方案

  1. 定位问题,方法很多,比如:打印输出,看程序卡死在哪步,即可定位。
  2. 网上找解决方案。
  3. 如果是在运行多卡训练,容易卡死的地方有:

磨刀不误砍柴工–nvidia-smi参数解读

如下所示,其表格中,有这么多参数,且参数名与值的其位置是一一对应的。我用不同颜色进行标识,同一种颜色的方框和箭头,标识出参数名和其值的位置关系。
在这里插入图片描述

参数名含义例子
GPU显卡的本地设备号,对应值为0,1,2,3…几块显卡就有几个数
Name显卡型号名
Persistence-MPersistence-M是一种显卡运行模式,值为on或off,代表是否开或关
Fan与散热风扇转数有关,用百分数显示,越高说明转数越高
tempGPU核心温度,过热就有危险了,显卡要烧坏了,单位是摄氏度,如45C就是45度
Perf
Pwr:Usage/CapGPU目前耗电多少瓦,Cap是额定功率,Usage表示当前功率,86W/300W表示满载300W,目前86W
Bus-ID显卡总线的ID,总线是用来传输数据和指令的,是显卡与CPU,内存等硬件传输数据的线路
Disp.A不知道
Memory-Usage显存占用情况,大家都知道,不说了
GPU-UtilGPU中计算核心目前的占用率

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/345976.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网加竞赛 基于机器学习与大数据的糖尿病预测

文章目录 1 前言1 课题背景2 数据导入处理3 数据可视化分析4 特征选择4.1 通过相关性进行筛选4.2 多重共线性4.3 RFE(递归特征消除法)4.4 正则化 5 机器学习模型建立与评价5.1 评价方式的选择5.2 模型的建立与评价5.3 模型参数调优5.4 将调参过后的模型重…

如何领取腾讯云免费服务器?腾讯云服务器免费领取教程

腾讯云免费服务器申请入口 https://curl.qcloud.com/FJhqoVDP 免费服务器可选轻量应用服务器和云服务器CVM,轻量配置可选2核2G3M、2核8G7M和4核8G12M,CVM云服务器可选2核2G3M和2核4G3M配置,腾讯云百科txybk.com分享2024年最新腾讯云免费服务器…

C语言辨析——这个字符串长度是多少?

1. 问题 请问字符串"\tac\b\b\x41\nc\104\""的长度是多少? 2. 解答 该字符串的长度为10。这10个字符分别是水平制表符\t,a,c,两个退格符\b,\x41对应的字符’A,换行符\n,c&…

第十七周周报

文章目录 摘要目标检测锚框交并比NMS 非极大值抑制输出 文献阅读:SMPL: A Skinned Multi-Person Linear ModelIntroductionRelated WorkModel FormulationTraining评估动态SMPL讨论结论 总结 摘要 本周看了三维人体重建的领域,看了一篇SMPL的文章&#…

腾讯云免费服务器-多规格高配服务器0元试用,开箱即用

腾讯云免费服务器申请入口 https://curl.qcloud.com/FJhqoVDP 免费服务器可选轻量应用服务器和云服务器CVM,轻量配置可选2核2G3M、2核8G7M和4核8G12M,CVM云服务器可选2核2G3M和2核4G3M配置,腾讯云百科txybk.com分享2024年最新腾讯云免费服务器…

大数据之谷歌文件系统论文 GFS The Google File System

原文地址 谷歌文件系统论文 摘要 我们设计并实现了Google文件系统,这是一个面向大规模分布式数据密集型应用的可扩展分布式文件系统。 它在廉价的通用硬件上运行,提供了容错性,并向大量客户端提供高聚合性能。 尽管与先前的分布式文件系统…

全网唯一!Matlab周杰伦专辑配色包MJay

前段时间杰伦出了新歌,第一时间听完,感觉没过瘾,便又翻出他以前的作品,想着继续回忆青春。 翻着翻着,突然发现每张专辑封面的配色都别有一番味道,似乎可以搞些事情…… 于是,我默默打开了Matl…

Matlab:toposort

语法: n toposort(G) %调用toposort函数,对有向图G进行拓扑排序,并将排序结果存储在变量n中 n toposort(G,Order,algorithm) [n,H] toposort(___) %使用了两个输出参数的形式来调用toposort函数。除了返回排序结果n外&am…

直接写一区! ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融合注意力机制的故障识别程序,特征可视化,实验多!图多!

适用平台:Matlab2023版本及以上 本原创程序提出的ZOA-PCNN-AT-SVM故障识别模型还没有人写!在此基础上进一步对参考模型进行多重改进,程序注释清晰,干货满满,下面对文章和程序做简要介绍! ①识别模型部分参…

Realm Management Extension领域管理扩展(下)

四、颗粒保护检查 本节描述了RME引入的颗粒保护检查。颗粒保护检查使得能够在不同的物理地址空间之间动态分配内存区域。 本节将向您介绍以下功能: 颗粒保护表的结构用于颗粒保护检查的故障报告区域在物理地址空间之间的过渡正如在物理地址一节中所述,RME提供了四个物理地址…

电影开场后也能退票,“电影仅退款”能治烂片病吗?

1月11日,“#电影开场后也能退票了#”词条登上微博热搜。 根据央视六套《中国电影报道》,从今年元旦开始,湖南长沙部分影院开启了新型电影保险模式的试点。 在电影开场后30分钟以内,市民如果对电影内容不满意,可借助小…

【Google SEO】需要跟踪的 12 个关键 Google Analytics 指标

Google Analytics 是一个数据宝库。但对于初学者来说,它可能会让人不知所措。 从哪里入手?哪些指标真正重要? 在本篇文章中,我们将介绍 Google Analytics 中最重要的 12 个指标。这些指标可以最清晰地反映网站的性能。 我们将解…