Fastchat + vllm + ray + Qwen1.5-7b 在2080ti 双卡上 实现多卡推理加速

首先先搞清各主要组件的名称与作用:
  • FastChat
    FastChat框架是一个训练、部署和评估大模型的开源平台,其核心特点是:

    提供SOTA模型的训练和评估代码
    提供分布式多模型部署框架 + WebUI + OpenAI API

    Controller管理分布式模型实例
    Model Worker是大模型服务实例,它在启动时向Controller注册
    OpenAI API提供OpenAI兼容的API服务,接受请求后,先向Controller获取Model Worker地址,再向Model Worker实例发送请求生成文本,最后返回OpenAI兼容的报文。
    Fastchat 兼容的llm集合 请见 https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

在这里插入图片描述

  • vllm 推理加速框架
    vLLM 用于大模型并行推理加速,核心是 PagedAttention 算法,官网为:https://vllm.ai/。

  • ray 分布式框架
    Ray 是一个高性能的分布式计算框架,由UC Berkeley RISELab 开发,支持Python 语言,并可与PyTorch 等机器学习框架结合使用。Ray提供了高效的任务调度、支持多种编程语言和机器学习框架,且系统层的抽象使得资源利用和任务调度更加灵活高效。它比Spark更轻量级,且易于使用和扩展。相较于TensorFlow和PyTorch,Ray注重分布式计算的高效和弹性。在隐私计算方面,Ray提供了数据隐私保护,支持数据共享和协作,同时允许在不泄露原始数据的情况下进行深度学习模型训练。

  • 本地环境情况 2080ti 双卡 共 44g显存 64g内存

开始操作

1. 启动worker控制协调器 ---- controller
python -m fastchat.serve.controller --host 0.0.0.0
2. 启动API服务 ---- API server
python -m vllm.entrypoints.api_server --trust-remote-code --model /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --served-model gpt-3.5-turbo  --tensor-parallel-size 2 --dtype=half
3. model worker 有2种 如下
  1. 启动不带推理加速的 模型worker
python -m fastchat.serve.model_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  
  1. 启动 带vllm推理加速的 模型worker
python -m fastchat.serve.vllm_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  

注意这几个参数

  • --dtype=half 由于我的显卡是2080ti bf16算力只有7.5 所以需要变成fp16运行
  • --tensor-parallel-size 2启动apiserver时候 如果需要多卡张量并行 加上卡的数量

那么服务正常情况下已经跑起来了 地址服务器所在 localhost:8000

使用langchain进行测试
from langchain import PromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessagellm = ChatOpenAI(streaming=False,verbose=True,# callbacks=[callback],openai_api_key="none",openai_api_base="http://localhost:8000/v1",model_name="CodeQwen1.5-7B-Chat"
)# 提示词
template = """
我很想去{location}旅行,我应该在哪里做什么?
"""
prompt = PromptTemplate(input_variables=["location"],template=template,)
# 说白了就是在提示词的基础上,把输入的话进行格式化方法输入,前后添加了一些固定词
final_prompt = prompt.format(location='安徽合肥')print(f"最终提升次:{final_prompt}")
output = llm([HumanMessage(content=final_prompt)])
print(f"LLM输出结果:{output}")

在这里插入图片描述

我又写了一个简易的多线程来请求 回复速度很快

import threading
import timeclass MyThread(threading.Thread):def __init__(self):super().__init__() #必须调用父类的初始化方法def run(self) -> None:print()output = llm([HumanMessage(content=final_prompt)])print("当前线程:"+threading.current_thread().name+f"LLM输出结果:{output}")     for i in range(0,100):new_job = MyThread()new_job.setName(i)new_job.start() 

执行情况如下 并发速度还不错
在这里插入图片描述

显存占用情况如下
在这里插入图片描述
我这套方案 是我本人跑通验证过的
streaming=False可以用
streaming=True的话 估计要写符合Streamevent的http格式接收 但这个不是重点 后面有老哥研究好的话可以@我一下 共同进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/691074.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【无标获取S4与ECC的具体差异的方法题】

首先我们需要对ECC vs S4的差异这个课题要有一个深刻的理解,这不是一个简单并能准确说清楚的课题。 我们需要结合实际项目的具体情况去回答这个问题,因为这个问题本身是没有标准答案的。 首先要了解SAP本身ERP产品线的发展概况,其次我们要…

08.2.grafana插件安装

grafana插件安装 官方网站下载地址(可自定义选择版本): https://grafana.com/grafana/download/6.3.0?pgget&plcmtselfmanaged-box1-cta1 清华源下载grafana的rpm包 https://mirror.tuna.tsinghua.edu.cn/grafana/yum/el7/ 直接命令行安装,或者包下载下来本地…

Vue从入门到实战Day04

一、组件的三大组成部分(结构/样式/逻辑) 1. scoped样式冲突 默认情况:写在组件中的样式会全局生效 -> 因此很容易造成多个组件之间的样式冲突问题。 1. 全局样式:默认组件中的样式会作用到全局 2. 局部样式:可以…

权益资本成本-CAPM模型、MPEG模型、OJ模型、PEG模型原始数据及其代码(2000-2021年)

01、数据介绍 权益资本成本是指企业的所有者投入企业资金的成本,具体来说,它代表了股东对投资风险的补偿要求,也可以理解为股东对于企业未来收益的预期。 权益资本成本是筹集普通股资金所需的成本,它也是企业进行投资决策的重要…

璩静是为了薅百度羊毛

关注卢松松,会经常给你分享一些我的经验和观点。 百度副总裁璩静离职了,网传她的年薪是1500万,而璩静在4月24日注册了一个文化传媒公司,大家都认为璩静是在为离职做准备。但松松我认为不是。 我认为:璩静成立新公司是…

前端 | 易混词卡片切换

文章目录 📚实现效果📚模块实现解析🐇html🐇css🐇javascript 📚实现效果 绘制单词卡片效果,实现点击左半部分上翻,点击右半部分下翻。 📚模块实现解析 🐇…

0基础理解ECC并做题-攻防世界easy-ECC理解

基点p就是最初选定的那个点 1和2都是整数集合,但是1/20.5就不属于整数集合 一直加,一直乘,还能保证有限个数字?这是因为采用了取模的运算,让元素始终都在有限的范围内。 如何计算分数求模? 设n1/2mod23,那么…

示例九、红外接收模块

通过以下几个示例来具体展开学习,了解红外接收模块原理及特性,学习红外接收模块的应用(干货版): 示例九、红外接收模块 ino文件源码: //Arduino C demoIRrecv irrecv(4); decode_results results; unsigned long key…

Virtualbox7.0.10+Ubuntu20.04网络配置

虚拟机部署在服务器上时,需要进行网络配置,使虚拟机和服务器在同网段下,以保证内网的终端可以访问到虚拟机 1. 设置虚拟机 打开虚拟机设置,选择“网络”,将网卡设为桥接网卡 注:设置前,需要先…

【JVM】Class文件的格式

目录 概述 Class文件的格式 概述 Class文件是JVM的输入,Java虚拟机规范中定义了Class文件的结构。Class文件是JVM实现平台无关、技术无关的基础。 1:Class文件是一组以8字节为单位的字节流,各个数据项目按顺序紧凑排列 2:对于占用空间大于8字节的数据…

【Qt 学习笔记】Qt常用控件 | 多元素控件 | Tree Widget的说明及介绍

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 多元素控件 | Tree Widget的说明及介绍 文章编号&#x…

直播预告-如何快乐学习亚马逊云科技AWS,玩游戏备考亚马逊云科技云从业者认证?

一边玩一边学习亚马逊云科技云技能,这么好的事尊的假的?本周六(5约11日)晚20点,亚马逊云科技UG云端夜话Night Talk活动精彩回归~ 本次亚马逊云科技UG云端夜话直播是什么? 小李哥这次将在多平台…