docker部署通义千问-7B-Chat的openai-api环境-编程知识

docker部署通义千问-7B-Chat的openai-api环境

服务器环境：

显卡驱动：Driver Version: 530.30.02

CUDA版本：CUDA Version: 12.1

显卡：NVIDIA GeForce RTX 3090共4张

注意：最好把显卡驱动升级到530，CUDA版本之前使用11.7有问题。

一、下载模型文件

通义千问-7B-Chat模型下载地址：通义千问-7B-Chat · 模型库 (modelscope.cn)

通义千问-7B-Chat-int4模型下载地址：通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)

二、配置docker-compose

docker-compose.yml文件内容如下：

version: '3'
services:qwen7b_api:container_name: LLMs_qwen7b_apienvironment:TZ: Asia/Shanghaiimage: qwenllm/qwen:cu121runtime: nvidiarestart: alwaysnetworks:- generaldeploy:resources:reservations:devices:- device_ids: ['2','3']capabilities: ["gpu"]driver: "nvidia"ports:- "8003:8000"volumes:# 使用全量模型#- ./Qwen-7B-Chat:/data/shared/Qwen/Qwen/Qwen-7B-Chat# 使用int4量化模型- ./Qwen-7B-Chat-int4:/data/shared/Qwen/Qwen/Qwen-7B-Chatcommand:["/bin/sh","-c","python openai_api.py --server-name 0.0.0.0",]networks:general:external: true

文件结构如下：

docker-compose中的volumes可自定义使用全量模型还是int4量化模型。

三、接入one-api

四、接入fastgpt

fastgpt的config.json配置：

"llmModels": [{"model": "qianwen","name": "通义千问7b模型","maxContext": 4000,"maxResponse": 4000,"quoteMaxToken": 2000,"maxTemperature": 1,"vision": false,"defaultSystemChatPrompt": ""}
]

测试反应速度可以