本地部署DeepSeek-R1-AWQ

news/2025/2/22 13:39:54/文章来源:https://www.cnblogs.com/Dev0ps/p/18730814

一、部署环境准备

系统信息：

主机名为 10-200-3-23
IP 地址为 10.200.3.23
操作系统为 ubuntu 22.04
配备 8 卡 A100。

二、驱动与桥接器安装

安装 gcc

执行命令
apt-get update -y 
apt install build-essential -y

安装驱动

下载驱动 
wget https://us.download.nvidia.com/tesla/560.35.03/NVIDIA-Linux-x86_64-560.35.03.r un。
运行安装命令 
sh NVIDIA-Linux-x86_64-560.35.03.run，注意在交互式安装时确认安装 32 位兼容库并 Rebuild initramfs。

安装桥接器

确保桥接器版本与驱动版本完全一致（包括次版本），下载桥接器 
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-560_560.35.03-1_amd64.deb。
安装桥接器 
dpkg -i nvidia-fabricmanager-560_560.35.03-1_amd64.deb，并执行 systemctl enable nvidia-fabricmanager --now 和 systemctl status nvidia-fabricmanager。
重启服务器后配置持久模式 
nvidia-smi -pm 1

三、docker 安装与配置

安装 docker

安装必要系统工具 sudo apt-get update 和 sudo apt-get install ca-certificates curl gnupg。
信任 Docker 的 GPG 公钥，执行一系列命令如 sudo install -m 0755 -d /etc/apt/keyrings 等。
写入软件源信息，将相关内容通过 echo 命令写入 /etc/apt/sources.list.d/docker.list。
安装 Docker 
sudo apt-get update 和 sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin，也可安装指定版本。
配置 docker 使用 nvidia-runtime-toolkit
执行 curl -fsSL https://mirrors.ustc.edu.cn/libnvidia-container/gpgkey | sudo gpg --dear mor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg 和后续相关命令下载配置文件并修改软件源信息。
执行 apt update -y 和 apt install -y nvidia-container-toolkit nvidia-container-runtime。
在 /etc/docker/daemon.json 中添加配置 {"default-runtime": "nvidia","runtimes": {"nvidia": {"path": "/usr/bin/nvidia-container-runtime","runtimeArgs": []}}}，然后重启 docker systemctl restart docker。

四、镜像与模型获取

获取镜像

构建 vllm 镜像，示例 Dockerfile 为 FROM docker.m.daocloud.io/nvidia/cuda:12.6.3-runtime-ubuntu22.04 等，通过 docker build -t vllm:v0.7.2. 构建。
获取 open-webui 镜像 docker pull ghcr.m.daocloud.io/open-webui/open-webui:main。

获取模型

创建 /data 目录，进入该目录后执行 git lfs install 和 git clone https://www.modelscope.cn/cognitivecomputations/DeepSeek-R1-awq.git 下载 deepseek-r1-awq 模型。

五、项目部署

部署 deepseek

docker run -d --runtime nvidia --gpus all -v /data:/mnt/models -p 12345:12345 --ipc=host hub.wanjiedata.com/models/vllm:v0.7.2 python3 -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --trust-remote-code --tensor-parallel-size 8 --quantization moe_wna16 --gpu-memory-utilization 0.97 --kv-cache-dtype fp8_e5m2 --calculate-kv-scales --served-model-name deepseek-reasoner --model /mnt/models/DeepSeek-R1-AWQ

部署 open-webui

docker run -d -p 3030:8080 -e ENABLE_OLLAMA_API=false -e OPENAI_API_KEY=NULL -e OPENAI_API_BASE_URL=http://10.200.3.23:12345/v1 -e ENABLE_RAG_WEB_LOADER_SSL_VERIFICATION=false -v open-webui:/app/backend/data --name open-webui --restart always ghcr.m.daocloud.io/open-webui/open-webui:main

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/887985.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

k8s部署nfs+sc

1.下载软件包nfs-subdir-external-provisioner-4.0.18.tgz 该软件包内文件截图修改values.yaml 在目录内执行 helm install nfs-provisioner -f values.yaml . #老重要了2.查看执行是否成功 3.测试是否成功编写yaml apiVersion: v1kind: PersistentVolumeClaimmetadata…

P2661 [NOIP 2015 提高组] 信息传递——染色做法

原题本来想当水题刷的，结果被水题刷了。。。70到80到90到100，必须写个题解记录一下（doge）题目分析一句话：求一个无权有向图中的最短环路（确保有环） tip：每一个点出度为一，那么必然有环，以样例为例如下。思路没必要每轮模拟全部的传送，只看某一个人的传送过程：就…

有哪些好用的AI工具？(你想要的AI工具都在这)

1. 常见应用场景 1.1. 国内通用大模型模型名称简介官网地址DeepSeek 深度求索公司研发的高性能开源模型，以低成本、高推理能力著称，支持数学、代码等复杂任务。 https://chat.deepseek.com/豆包字节跳动开发的智能语言模型，基于深度学习技术，支持多种自然语言处理任务。…

Kubernetes 集群上部署 Open WebUI

在前一篇博文中记录了 k8s 集群上部署 ollama + deepseek-r1:7b，这篇博文记录一下 Open WebUI 的部署。还是用 helm 部署，添加 open-webui 的 helm repo，准备 helm 清单文件，通过 helm 命令在 ai 命名空间下进行部署在前一篇博文中记录了 k8s 集群上部署 ollama + deepseek…

2025.2.22

Hehe_0 模拟赛内容随笔 [NOIP2015]金币1 2 3 4 。。。1 2-3 4-6 7-10 。。。观察数据范围1e4，暴力就行，然后可以去思考优化版本由于已经把规律给出来了，所以可以提前离线处理出来，如果数据过大，可以预处理每一次金币变化的天数，然后根据提问二分找区间然后求和。这种数…

充电桩功能扩展，解决桩企内存不足的问题

OCPP（开放充电点协议）1.6是电动汽车充电基础设施中广泛使用的通信标准。尽管OCPP 1.6为充电桩与中央管理系统（CSMS）之间的交互提供了基本功能，但由于OCPP主板的内存资源有限，其能够实现的功能也受到了一定的限制。为了解决这一问题，OCPP协议网关作为OCPP主板的扩展，能够…

Spring复习-AOP

AOP的概念 AOP，Aspect Oriented Programming，面向切面编程，是对面向对象编程OOP的升华。OOP是纵向对一个事物的抽象，一个对象包括静态的属性信息，包括动态的方法信息等。而AOP是横向的对不同事物的抽象，属性与属性、方法与方法、对象与对象都可以组成一个切面，而用这种思…

Univer sheet加载上下文菜单卡死崩溃问题定位

背景：我的应用技术栈是Vue3，Univer是基于react的，所以定位问题花了很久，在此记录一下查问题的方式。使用Chrome DevTools的Performance进行录制，复现卡死操作后，在Performance Monitr中可以看到CPU Usage持续100%，且页面重计算次数持续飙高。由于页面卡死，Performanc…

乐园杂音

沟槽的杉井光为什么还不填坑！其实兔子最早看的一批轻小说就有乐杂，但是那时候没有写读后感的习惯，现在重刷一遍乐杂，就顺便写一下读后感。兔子每次给别人看这张图都会让他们猜女主是谁。其实吧，虽然普遍认为《离别的钢琴奏鸣曲》比《乐园杂音》写的要好，但是兔子更喜欢…

一张图搞懂支付账务

会计与程序语言虽不同，却能从相同维度描绘业务场景。如何利用这一原理，拆解支付账务的科目设置、对账与核算流程，建立起清晰的账务处理逻辑？让我们一起一探究竟。学习账务的时候你是否经常有这些疑问“待结算和待清算是什么？为什么要有已清算？待结算和待清算是一回事吗？…

Diffusion-DPO：一种基于直接偏好优化的扩散模型对齐新方法

本文介绍了一种名为 Diffusion-DPO 的方法，该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案，通过分类目标直接优化策略，以更好地满足人类偏好。诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段：https://avoid.overfit.…

联网搜索接口！大模型API和私有化部署联网搜索接口：基于互联网搜索服务的 API 接口技术分享与应用实践

联网搜索接口！大模型API和私有化部署联网搜索接口：基于互联网搜索服务的 API 接口技术分享与应用实践关键词：API 接口、互联网搜索、大模型、私有化部署、数据采集、技术分享、微信小程序、数字续坚、竞品对比一、引言在大模型 API 开发与私有化部署日益普及的背景下，如何在…

本地部署DeepSeek-R1-AWQ

一、部署环境准备

二、驱动与桥接器安装

三、docker 安装与配置

四、镜像与模型获取

五、项目部署

相关文章