本地部署DeepSeek-R1-AWQ

news/2025/2/22 13:39:54/文章来源:https://www.cnblogs.com/Dev0ps/p/18730814

一、部署环境准备

系统信息:

  • 主机名为 10-200-3-23
  • IP 地址为 10.200.3.23
  • 操作系统为 ubuntu 22.04
  • 配备 8 卡 A100。

二、驱动与桥接器安装

  1. 安装 gcc
执行命令
apt-get update -y 
apt install build-essential -y
  1. 安装驱动
下载驱动 
wget https://us.download.nvidia.com/tesla/560.35.03/NVIDIA-Linux-x86_64-560.35.03.r un。
运行安装命令 
sh NVIDIA-Linux-x86_64-560.35.03.run,注意在交互式安装时确认安装 32 位兼容库并 Rebuild initramfs。
  1. 安装桥接器
确保桥接器版本与驱动版本完全一致(包括次版本),下载桥接器 
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-560_560.35.03-1_amd64.deb。
安装桥接器 
dpkg -i nvidia-fabricmanager-560_560.35.03-1_amd64.deb,并执行 systemctl enable nvidia-fabricmanager --now 和 systemctl status nvidia-fabricmanager。
重启服务器后配置持久模式 
nvidia-smi -pm 1

三、docker 安装与配置

  1. 安装 docker
安装必要系统工具 sudo apt-get update 和 sudo apt-get install ca-certificates curl gnupg。
信任 Docker 的 GPG 公钥,执行一系列命令如 sudo install -m 0755 -d /etc/apt/keyrings 等。
写入软件源信息,将相关内容通过 echo 命令写入 /etc/apt/sources.list.d/docker.list。
安装 Docker 
sudo apt-get update 和 sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin,也可安装指定版本。
配置 docker 使用 nvidia-runtime-toolkit
执行 curl -fsSL https://mirrors.ustc.edu.cn/libnvidia-container/gpgkey | sudo gpg --dear mor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg 和后续相关命令下载配置文件并修改软件源信息。
执行 apt update -y 和 apt install -y nvidia-container-toolkit nvidia-container-runtime。
在 /etc/docker/daemon.json 中添加配置 {"default-runtime": "nvidia","runtimes": {"nvidia": {"path": "/usr/bin/nvidia-container-runtime","runtimeArgs": []}}},然后重启 docker systemctl restart docker。

四、镜像与模型获取

  1. 获取镜像
构建 vllm 镜像,示例 Dockerfile 为 FROM docker.m.daocloud.io/nvidia/cuda:12.6.3-runtime-ubuntu22.04 等,通过 docker build -t vllm:v0.7.2. 构建。
获取 open-webui 镜像 docker pull ghcr.m.daocloud.io/open-webui/open-webui:main。
  1. 获取模型
创建 /data 目录,进入该目录后执行 git lfs install 和 git clone https://www.modelscope.cn/cognitivecomputations/DeepSeek-R1-awq.git 下载 deepseek-r1-awq 模型。

五、项目部署

  1. 部署 deepseek
docker run -d --runtime nvidia --gpus all -v /data:/mnt/models -p 12345:12345 --ipc=host hub.wanjiedata.com/models/vllm:v0.7.2 python3 -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --trust-remote-code --tensor-parallel-size 8 --quantization moe_wna16 --gpu-memory-utilization 0.97 --kv-cache-dtype fp8_e5m2 --calculate-kv-scales --served-model-name deepseek-reasoner --model /mnt/models/DeepSeek-R1-AWQ
  1. 部署 open-webui
docker run -d -p 3030:8080 -e ENABLE_OLLAMA_API=false -e OPENAI_API_KEY=NULL -e OPENAI_API_BASE_URL=http://10.200.3.23:12345/v1 -e ENABLE_RAG_WEB_LOADER_SSL_VERIFICATION=false -v open-webui:/app/backend/data --name open-webui --restart always ghcr.m.daocloud.io/open-webui/open-webui:main

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/887985.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s部署nfs+sc

1.下载软件包nfs-subdir-external-provisioner-4.0.18.tgz 该软件包内文件截图 修改values.yaml 在目录内执行 helm install nfs-provisioner -f values.yaml . #老重要了2.查看执行是否成功 3.测试是否成功 编写yaml apiVersion: v1kind: PersistentVolumeClaimmetadata…

P2661 [NOIP 2015 提高组] 信息传递——染色做法

原题 本来想当水题刷的,结果被水题刷了。。。70到80到90到100,必须写个题解记录一下(doge) 题目分析一句话:求一个无权有向图中的最短环路(确保有环) tip:每一个点出度为一,那么必然有环,以样例为例如下。思路没必要每轮模拟全部的传送,只看某一个人的传送过程: 就…

有哪些好用的AI工具?(你想要的AI工具都在这)

1. 常见应用场景 1.1. 国内通用大模型模型名称 简介 官网地址DeepSeek 深度求索公司研发的高性能开源模型,以低成本、高推理能力著称,支持数学、代码等复杂任务。 https://chat.deepseek.com/豆包 字节跳动开发的智能语言模型,基于深度学习技术,支持多种自然语言处理任务。…

Kubernetes 集群上部署 Open WebUI

在前一篇博文中记录了 k8s 集群上部署 ollama + deepseek-r1:7b,这篇博文记录一下 Open WebUI 的部署。还是用 helm 部署,添加 open-webui 的 helm repo,准备 helm 清单文件,通过 helm 命令在 ai 命名空间下进行部署在前一篇博文中记录了 k8s 集群上部署 ollama + deepseek…

2025.2.22

Hehe_0 模拟赛内容随笔 [NOIP2015]金币1 2 3 4 。。。1 2-3 4-6 7-10 。。。观察数据范围1e4,暴力就行,然后可以去思考优化版本 由于已经把规律给出来了,所以可以提前离线处理出来,如果数据过大,可以预处理每一次金币变化的天数,然后根据提问二分找区间然后求和。这种数…

充电桩功能扩展,解决桩企内存不足的问题

OCPP(开放充电点协议)1.6是电动汽车充电基础设施中广泛使用的通信标准。尽管OCPP 1.6为充电桩与中央管理系统(CSMS)之间的交互提供了基本功能,但由于OCPP主板的内存资源有限,其能够实现的功能也受到了一定的限制。为了解决这一问题,OCPP协议网关作为OCPP主板的扩展,能够…

Spring复习-AOP

AOP的概念 AOP,Aspect Oriented Programming,面向切面编程,是对面向对象编程OOP的升华。OOP是纵向对一个事物的抽象,一个对象包括静态的属性信息,包括动态的方法信息等。而AOP是横向的对不同事物的抽象,属性与属性、方法与方法、对象与对象都可以组成一个切面,而用这种思…

Univer sheet加载上下文菜单卡死崩溃问题定位

背景: 我的应用技术栈是Vue3,Univer是基于react的,所以定位问题花了很久,在此记录一下查问题的方式。 使用Chrome DevTools的Performance进行录制,复现卡死操作后,在Performance Monitr中可以看到CPU Usage持续100%,且页面重计算次数持续飙高。由于页面卡死,Performanc…

乐园杂音

沟槽的杉井光为什么还不填坑! 其实兔子最早看的一批轻小说就有乐杂,但是那时候没有写读后感的习惯,现在重刷一遍乐杂,就顺便写一下读后感。兔子每次给别人看这张图都会让他们猜女主是谁。 其实吧,虽然普遍认为《离别的钢琴奏鸣曲》比《乐园杂音》写的要好,但是兔子更喜欢…

一张图搞懂支付账务

会计与程序语言虽不同,却能从相同维度描绘业务场景。如何利用这一原理,拆解支付账务的科目设置、对账与核算流程,建立起清晰的账务处理逻辑?让我们一起一探究竟。学习账务的时候你是否经常有这些疑问“待结算和待清算是什么?为什么要有已清算?待结算和待清算是一回事吗?…

Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法

本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好。诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段:https://avoid.overfit.…

联网搜索接口!大模型API和私有化部署联网搜索接口:基于互联网搜索服务的 API 接口技术分享与应用实践

联网搜索接口!大模型API和私有化部署联网搜索接口:基于互联网搜索服务的 API 接口技术分享与应用实践关键词:API 接口、互联网搜索、大模型、私有化部署、数据采集、技术分享、微信小程序、数字续坚、竞品对比一、引言在大模型 API 开发与私有化部署日益普及的背景下,如何在…