目前通过 runfile(local) 方式安装,最终 nvcc -V
看到的版本有偏差(安装12.4,显示12.0),但不影响使用 llama-factory,
llama.cpp 等使用(llama-cpp-python 的 cuda 版本 会安装失败,原因尚未深究)
如果需要 nvcc -V
看到和目标安装版本 完全一致的版本,可以尝试 deb(local) 等方式来安装,并做好可能需要删除重新安装的尝试准备
1. 详细步骤
1.1 安装 nvidia-utils 工具包
# 安装
# 使用 apt-cache search nvidia-utils 命令可以列出所有可用的 nvidia-utils 包版本(550 是个参考,可以使用最新的,也看 GPU 是否支持)
# 工作站/服务器可以使用 server 版本
sudo apt install nvidia-utils-550-server# 验证
nvidia-smi
1.2 安装 CUDA Toolkit
# 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例,注意区分 WSL 和 Ubuntu,详见 https://developer.nvidia.com/cuda-12-4-1-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local
# 目前选择的是执行命令更少的 runfile(local) 方式,还可以试试 deb(local) 等方式(另外记得做好安装包的归档/删除工作)
wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
sudo sh cuda_12.4.1_550.54.15_linux.run# 这时候 nvcc -V 要是看不到版本号,就再安装一下 nvidia-cuda-toolkit 工具包(先确保安装了 gcc,没安装可以通过 brew/apt 等来安装)
sudo apt install nvidia-cuda-toolkit
1.3 验证
# 查看目前支持的最高 CUDA 版本(一般小于等于最高版本的服务都能用)
nvidia-smi# 查看CUDA编译器(NVCC)版本
nvcc -V通过安装 PyTorch,或者使用 llama-factory, llama.cpp 等项目,在实践中验证是否正常安装,有具体细节问题再具体问题具体分析解决注:个人理解,不一定准确
2. 资源
2.1 NVIDIA DEVELOPER
2.1.1 CUDA Toolkit Archive
https://developer.nvidia.com/cuda-toolkit-archive
2.1.2 CUDA Toolkit 12.4: Ubuntu-22.04(x86_64)
https://developer.nvidia.com/cuda-12-4-1-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local