GPU性能实时监控的几种软件

在深度学习服务器上,各种模型的训练,需要监控GPU的情况,并且需要根据使用状态来切换不同的GPU上。

有以下四款软件,可以很好的进行GPU状态监控。

1. nvidia-smi

一个跨平台工具,用于监控和管理NVIDIA GPU的状态和性能。它支持所有标准的NVIDIA驱动程序支持的Linux发行版以及从WindowsServer 2008 R2开始的64位系统。这个工具通常与CUDA工具包一起安装,是NVIDIA显卡驱动的一部分。

常用命令:watch -n 2 nvidia-smi

2. gpustat

一个基于nvidia-smi的命令行工具,用于监控和分析GPU(GPU)的状态和使用情况。简约显示。

安装:

# 系统包安装
sudo apt install gpustat
# 作为python库安装
pip install gpustat

运行:

watch -n 1 -c gpustat --color
# 或者
gpustat -i

3. nvtop

一个专为NVIDIA GPU设计的任务监视器,类似于htop,但提供了更直观的用户界面和更多的进程信息。

sudo apt install nvtop
# 安装完毕后直接运行
nvtop

4. nvitop(重点推荐)

一款交互式的 NVIDIA GPU 设备性能、资源和进程的实时监测工具。"nvitop" 在实时监控 GPU 设备资源和性能方面具有全方位优势,包括更美观的颜色和更直观的进度条来展示某块 GPU 卡所处进程的 GPU & CPU 内存以及利用率占比 。此外,它还支持树视图、环境变量查看、进程过滤、进程指标监控等多种功能和选项 。因此,可以推断 "nvitop" 是一个高颜值的实时监控工具,专为监控 NVIDIA GPU 设备性能和资源而设计。

官网参考:Welcome to nvitop’s documentation! — nvitop: the one-stop solution for GPU process management. documentation

安装:

pip install nvitop

运行:三种模式 auto,compact,full

nvitop -m full

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697644.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】栈和队列OJ面试题

20. 有效的括号 - 力扣(LeetCode) 思路:由于C语言没有栈的接口,所以我们需要自己造一个“模子”。我们直接copy之前的实现的栈的接口就可以了(可以看我之前的博客【数据结构】栈和队列-CSDN博客copy接口)&…

Linux进程间几种通信机制

一. 简介 经过前一篇文章的学习, 我们知道Linux下有两种标准:system V标准和 Posix标准。 System V 和 POSIX 标准是操作系统提供的接口标准,它们规定了操作系统应该如何实现一些基本功能,比如线程、进程间通信、文件处理等。 …

通过金山和微软虚拟打印机转换PDF文件,流程方法及优劣对比

文章目录 一、WPS/金山 PDF虚拟打印机1、常规流程2、PDF文件位置3、严重缺陷二、微软虚拟打印机Microsoft Print to Pdf1、安装流程2、微软虚拟打印机的优势一、WPS/金山 PDF虚拟打印机 1、常规流程 安装过WPS办公组件或金山PDF独立版的电脑,会有一个或两个WPS/金山 PDF虚拟…

校园志愿者管理系统带万字文档

文章目录 校园志愿者管理系统一、项目演示二、项目介绍三、10000字论文参考四、部分功能页面五、部分代码展示六、底部获取项目源码和万字论文参考(9.9¥带走) 校园志愿者管理系统 一、项目演示 校园志愿者管理系统 二、项目介绍 基于Spring…

vue3中通过自定义指令实现loading加载效果

前言 在现代Web开发中,提升用户体验一直是开发者们追求的目标之一。其中,一个常见的场景就是在用户与应用程序进行交互时,特别是当进行异步操作时(如网络请求),为用户提供即时的反馈,避免用户因…

利用香港多IP服务器进行大数据分析的潜在优势?

利用香港多IP服务器进行大数据分析的潜在优势? 在当今数据驱动的时代,大数据分析已经成为企业获取竞争优势的不二选择。而香港作为一个拥有世界级通信基础设施的城市,提供了理想的环境来部署多IP服务器,从而为大数据分析提供了独特的优势。…

[数据结构1.0]选择排序

鼠鼠前面的博客介绍过选择排序是常见的排序算法,选择排序有但不限于直接选择排序和堆排序!那么鼠鼠今天浅谈一下选择排序! 鼠鼠本博客用排升序来介绍选择排序! 目录 1.直接选择排序 1.1.直接选择排序 1.2.直接选择排序特性 2…

20240513,常用算法(查找,排序,拷贝替换)

做着一些和考试无关的事情 常用查找算法——续 FIND_IF find_if //按条件查找元素&#xff0c;返回迭代器POS / END()find_if(beg,end,_Fred) _Fred函数或谓词&#xff08;返回BOOL类型的仿函数&#xff09; #include<iostream> #include<string> #includ…

Raft论文阅读笔记+翻译:In Search of Understandable Consensus Algorithm

In Search of Understandable Consensus Algorithm 摘要 Raft是一种管理复制日志的共识算法。它产生与&#xff08;多&#xff09;Paxos等效的结果&#xff0c;并且与Paxos一样高效&#xff0c;但其结构与Paxos不同。这使得Raft比Paxos更易理解&#xff0c;也为构建实际系统提供…

​​​【收录 Hello 算法】第 6 章 哈希表

目录 第 6 章 哈希表 本章内容 第 6 章 哈希表 Abstract 在计算机世界中&#xff0c;哈希表如同一位聪慧的图书管理员。 他知道如何计算索书号&#xff0c;从而可以快速找到目标图书。 本章内容 6.1 哈希表6.2 哈希冲突6.3 哈希算法6.4 小结

爱普生推出适用于物联网小尺寸温补晶振TG1612SLN

爱普生推出一款小尺寸温补晶振TG1612SLN&#xff0c;之前推出的小尺寸温补晶振TG2016SLN&#xff0c;封装2016已经是很小了&#xff0c;而TG1612SLN的尺寸仅为1.6x1.2x0.45毫米&#xff0c;不得不佩服爱普生的研发能力。 温度补偿晶体振荡器TG1612SLN使用爱普生开发和制造…

企业级WEB服务Nginx安装

企业级WEB服务Nginx安装 1. Nginx版本和安装方式 Mainline version 主要开发版本,一般为奇数版本号,比如1.19Stable version 当前最新稳定版,一般为偶数版本,如:1.20Legacy versions 旧的稳定版,一般为偶数版本,如:1.18Nginx安装可以使用yum或源码安装,但是推荐使用源码编译安…