gpu-burn压力测试
1.CentOS
1.查看内核版本和CentOS系统 版本:
uname -a
cat /etc/centos-release
2.查看服务器上是否有NVIDIA GPU:
lspci | grep NVIDIA
/sbin/lshw -c display
3.如果系统安装时没有选择安装开发工具,则安装一下gcc、kernel-devel等以及相关依赖包
sudo yum install gcc kernel-devel-$(uname -r) kernel-headers-$(uname -r)
安装以下包及其依赖包(可选):
sudo yum install libXmu-devel libXi-devel mesa-libGL-devel
以run文件形式安装Nvidia驱动和CUDA Toolkit
下载CUDA Toolkit
打开CUDA Toolkit下载页面,https://developer.nvidia.com/cuda-downloads,选择系统版本和硬件平台
用wget命令下载:
wget https://developer.download.nvidia.com/compute/cuda/12.3.1/local_installers/cuda_12.3.1_545.23.08_linux.run
禁用nouveau驱动
nouveau是一个第三方开源的Nvidia驱动,一般Linux安装的时候默认会安装这个驱动。 这个驱动会与Nvidia官方的驱动冲突,在安装Nvidia驱动和和CUDA之前应先禁用nouveau。
查看系统是否正在使用nouveau:
lsmod | grep nouveau
则进行以下的步骤禁用nouveau:
新建一个配置文件:
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
写入以下内容:
blacklist nouveau
options nouveau modeset=0
备份当前的内核镜像:
sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
建立新的内核镜像:
sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)
重启服务器:
sudo reboot
重启后输入上面的命令验证:
lsmod | grep nouveau
安装CUDA Toolkit
执行安装程序:
sudo sh cuda_12.3.1_545.23.08_linux.run
接受许可协议:
安装成功的提示:
可以看到卸载的命令是nvidia-uninstall和/usr/local/cuda-12.3/bin/cuda-uninstall。
如果安装出错,查看安装日志/var/log/cuda-installer.log和/var/log/nvidia-installer.log,检查错误原因。
验证驱动
nvidia-smi
验证CUDA Toolkit
查看nvcc
cd /usr/local/cuda/bin/
./nvcc --version
安装CUDA Toolkit时默认安装了CUDA Demo Suite,包含了deviceQuery、bandwidthTest等工具,打开这个链接查看说明https://docs.nvidia.com/cuda/demo-suite/index.html#demos
下面使用deviceQuery查询设备
cd /usr/local/cuda-12.3/extras/demo_suite
./deviceQuery
带宽测试bandwidthTest:
./bandwidthTest --memory=pinned --mode=range --start=1024 --end=102400 --increment=1024 --dtoh
设置环境变量(可选)
vim ~/.bashrc
添加以下内容
export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDA_ROOT=/usr/local/cuda
使修改生效:
source ~/.bashrc
这样就可以使用nvcc 命令了
使用gpu-burn进行压力测试
下载安装gpu-burn
下载地址:https://github.com/wilicc/gpu-burn,
unzip gpu-burn-master.zip
cd gpu-burn-master/
make
如果需要执行清理,重新编译,执行:
make clean
执行压力测试
./gpu_burn
长时间压力测试:
./gpu_burn 43200
43200为时间,单位是秒,根据需要调整。
gpu_burn命令使用帮助:
./gpu_burn -h
卸载NVIDIA驱动、CUDA Toolkit
卸载驱动:
sudo nvidia-uninstall
卸载CUDA:
sudo /usr/local/cuda/cuda-uninstaller
2.Ubuntu
查看显卡是否被虚拟机占用
lspci -nnk | grep -i vga -A3
cp /etc/modprobe.d/blacklist.conf /etc/modprobe.d/blacklist.conf_backup
lsmod | grep nouveau
vim /etc/modprobe.d/blacklist.conf
# nouveau
blacklist nouveau
options nouveau modeset=0
静默安装显卡驱动
Linux驱动下载)
系统版本(cat /etc/issue)
ubuntu 20.04
gpu数量及型号(lspci | grep NV | grep VGA)
02:00.0 VGA compatible controller: NVIDIA Corporation Device 2206 (rev a1)
83:00.0 VGA compatible controller: NVIDIA Corporation Device 2206 (rev a1)
安装驱动编译工具、依赖包
apt-get install gcc make libhugetlbfs-dev libc-dev libc6-dev build-essential g++ -y
静默安装显卡驱动
./NVIDIA-Linux-x86_64-515.57.run --no-opengl-files -s
安装nvidia-cuda-toolkit
apt-get install nvidia-cuda-toolkit -y
安装gpu_burn及编译
mkdir gpu-burn
cd gpu-burn
wget http://wili.cc/blog/entries/gpu-burn/gpu_burn-0.9.tar.gz
tar xvf gpu_burn-0.9.tar.gz
make