docker部署通义千问-7B-Chat的openai-api环境

服务器环境:

显卡驱动:Driver Version: 530.30.02

CUDA版本:CUDA Version: 12.1

显卡:NVIDIA GeForce RTX 3090共4张

注意:最好把显卡驱动升级到530,CUDA版本之前使用11.7有问题。

一、下载模型文件

通义千问-7B-Chat模型下载地址:通义千问-7B-Chat · 模型库 (modelscope.cn)

通义千问-7B-Chat-int4模型下载地址:通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)

二、配置docker-compose

docker-compose.yml文件内容如下:

version: '3'
services:qwen7b_api:container_name: LLMs_qwen7b_apienvironment:TZ: Asia/Shanghaiimage: qwenllm/qwen:cu121runtime: nvidiarestart: alwaysnetworks:- generaldeploy:resources:reservations:devices:- device_ids: ['2','3']capabilities: ["gpu"]driver: "nvidia"ports:- "8003:8000"volumes:# 使用全量模型#- ./Qwen-7B-Chat:/data/shared/Qwen/Qwen/Qwen-7B-Chat# 使用int4量化模型- ./Qwen-7B-Chat-int4:/data/shared/Qwen/Qwen/Qwen-7B-Chatcommand:["/bin/sh","-c","python openai_api.py --server-name 0.0.0.0",]networks:general:external: true

文件结构如下:

docker-compose中的volumes可自定义使用全量模型还是int4量化模型。

三、接入one-api

四、接入fastgpt

fastgpt的config.json配置:

"llmModels": [{"model": "qianwen","name": "通义千问7b模型","maxContext": 4000,"maxResponse": 4000,"quoteMaxToken": 2000,"maxTemperature": 1,"vision": false,"defaultSystemChatPrompt": ""}
]

测试反应速度可以

参考:容器 纯新手 docker langchain Qwen1.5 部署 - 夸智网 (kuazhi.com) 

以容器方式部署通义千问 Qwen - dudu - 博客园 (cnblogs.com) 

通义千问本地部署教程Qwen-7B-Chat Qwen1.5-1.8B Windows-详细认真版_qwen1.5 本地部署-CSDN博客 通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)

qwenllm/qwen Tags | Docker Hub 

Qwen/README_CN.md at main · QwenLM/Qwen (github.com) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/651317.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

环境配置——Windows平台配置VScode运行环境为远程服务器或虚拟机

1. 远程机需要先安装SSH服务,命令如下 sudo apt install openssh-server 2. 安装好后需要开启SSH服务: sudo service sshd start 3. 查看SSH服务是否有被开启: sudo systemctl status sshd.service 4. 本地Windows需要生成密钥将公钥放…

茴香豆:搭建你的RAG智能助理-笔记三

本次课程由书生浦语社区贡献者【北辰】老师讲解【茴香豆:搭建你的 RAG 智能助理】课程 课程视频:https://www.bilibili.com/video/BV1QA4m1F7t4/ 课程文档:Tutorial/huixiangdou/readme.md at camp2 InternLM/Tutorial GitHub 该课程&…

贪吃蛇撞墙功能的实现 和自动行走刷新地图 -- 第三十天

1.撞墙 1.1最初的头和尾指针要置为空,不然是野指针 1.2 在增加和删除节点后,判断是否撞墙,撞墙则初始话蛇 1.3在撞墙后初始化蛇,如果头不为空就撞墙,得定义临时指针指向头,释放头节点 2.自动刷新地图 2.1…

解决问题:TypeError:unsupported operand type(s) for -: ‘float‘ and ‘decimal.Decimal‘

文章目录 一、现象二、解决方案 一、现象 用Pandas 处理数据的时候,想得到增长率,没想到翻车了? import pandas as pddf pd.read_csv(data.csv)df[增长率] ((df[今年] - df[去年]) / (df[今年]))执行一下语句发现报错 TypeError&#xf…

探秘MySQL主从复制的多种实现方式

欢迎来到我的博客,代码的世界里,每一行都是一个故事 探秘MySQL主从复制的多种实现方式 前言基于语句的复制原理实现方法应用场景及优缺点应用场景优点缺点 基于行的复制原理实现方法优势和适用性优势适用性 基于混合模式的复制混合模式复制的工作原理混合…

【WEB前端2024】开源元宇宙:乔布斯3D纪念馆-第12课-摆件跳转网页

【WEB前端2024】开源元宇宙:乔布斯3D纪念馆-第12课-摆件跳转网页 使用dtns.network德塔世界(开源的智体世界引擎),策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎&…

【每日刷题】Day25

【每日刷题】Day25 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 238. 除自身以外数组的乘积 - 力扣(LeetCode) 2. 82. 删除排序链表中的重复…

手写文字和数字的自动识别

文章目录 题目要求实现方法1:pytesseractpython的OCR工具pytesseractpytesseract介绍OCR介绍pytesseract的安装以及环境配置 页面展示代码实现优缺点分析 实现方法2:PaddleOCRPaddleOCR介绍页面展示实现代码优缺点分析 实现方法3:EasyOCREasy…

工作记录:vue-grid-layout 修改 margin 导致 item 高度剧烈变化

问题 用 vue-gird-layout 时发现,当改变 margin 值时,item 的尺寸也会跟着变化。 如下图:row height 和每个 item 的 h 都保持不变。修改 margin-y,item 的实际高度也跟着变了: 原因 研究了一番,发现原…

Ubuntu下载的nginx的位置

位置在/etc/nginx 启动nginx systemctl status nginx上面的命令不合适,就重启nginx sudo service nginx restart 关闭nginx nginx -s stop Ubuntu默认的html地址在该文件夹中的default中: /etc/nginx/sites-available if ($http_host ~* "^(w…

Linux深入了解文件系统和日志分析

目录 一.inode & block inode和block概述 block(块) inode(索引节点)​编辑 inode的内容 inode包含文件的元信息 用stat命令可以查看某个文件的inode信息 Linux系统文件三个主要的时间属性 目录文件的结构 inode的号码 用户通过文件名打开文件时,系统…

GPU版本torch使用教程

GPU版本torch使用教程 一、下载配置CUDA和CUDNN (1)进入cmd使用nvidia-smi.exe查看自己电脑支持的最新CUDA版本(可以下载地低版本),如图: 也可以通过NVIDIA控制面板(NVIDIA Control Panel&am…