【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

news/2025/1/11 7:53:04/文章来源:https://www.cnblogs.com/fasterai/p/18551215

【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

NLP Github 项目：

NLP 项目实践：fasterai/nlp-project-practice

介绍：该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验
AI 藏经阁：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
AI 算法面经：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
NLP 剑指Offer：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题

重新安装

环境配置

# 根据官网配置特定版本的transformer和vllm
pip install git+https://github.com/huggingface/transformers@21fac7abba2a37fae86106f87fcf9974fd1e3830
pip install accelerate
pip install qwen-vl-utils
# Change to your CUDA version
CUDA_VERSION=cu121
pip install 'vllm==0.6.1' --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

启动服务

python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-VL-7B-Instruct --model Qwen/Qwen2-VL-7B-Instruct

模型服务启动成功，占用显存67G

模型测试

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "Qwen2-VL-7B-Instruct","messages": [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": [{"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},{"type": "text", "text": "What is the text in the illustrate?"}]}]}'

测试成功：

推理加速

使用 FlashAttention 进行加速

pip install flash-attn

后台运行，并记录日志

nohup python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-VL-7B-Instruct --model Qwen/Qwen2-VL-7B-Instruct > ./logs/output.log 2>&1 &

系列文章：

【模型部署】vLLM 部署 Qwen2-VL 踩坑记 01 - 环境安装
【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速
【模型部署】vLLM 部署 Qwen2-VL 踩坑记 03 - 多图支持和输入格式问题

本文由mdnice多平台发布

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/835545.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【伪造检测】Noise Based Deepfake Detection via Multi-Head Relative-Interaction

一、研究动机[!note] 动机：目前基于噪声的检测是利用Photo Response Non-Uniformity (PRNU)实现的，这是一种由于相机感光传感器而造成的缺陷噪声，主要用图像的源识别，在伪造检测的任务中并没有很好的表现。因此在文中提出了一种基于伪造噪声痕迹的检测算法。实现原理：通过…

11月17日

今日错误错误原因：没有分辨出两个单词词性上的含义与区别，对于什么语境该用什么做区分不清

超实用的SpringAOP实战之日志记录

AOP使用场景的本质是：在一个`方法`的执行前、执行后、执行异常和执行完成状态下，都可以做一些`统一的操作`。AOP 的核心优势在于将这些横切功能从核心业务逻辑中提取出来，从而实现代码的`解耦`和`复用`，提升系统的`可维护性`和`扩展性`。本文主要以日志记录作为切入点，来讲…

2024/11/17 总结

记忆宫殿初始入度为\(0\)的点为源点。我们令 \(S\) 为如果成立，就能够推出事件的源点集合。当事件成立时，显然 \(S\) 中的点必有至少一个是真的。所以我们只要把所有包含 \(S\) 的事件都标记为真就行了。 Pro-Professor Szu 某大学校内有一栋主楼，还有栋住宅楼。这些楼之…

# [团队项目Scrum冲刺-day7]

每天举行站立式会议昨天已完成的任务成员任务徐嘉炜优化登录界面交互逻辑陈祥意对各个测试模块测试林楦优化整体UI界面陈大锴优化注册界面交互逻辑蔡家显检查测试记录陈祖民优化登录UI肖商反馈前一天测试结果今日计划完成的任务成员任务林楦优化前端页面显示陈祖民优…

HBase的常用命令

一、general类 1、查看集群的状态 status2、查看数据库版本 version3、显示当前用户和组 whoami4、查看操作表的命令 table_help5、退出hbase exit或者ctrl+c 二、DDL相关注：DDL是用于定义和管理数据库中的结构的命令，例如创建，删除，修改表等操作 1、创建表注：创建表的时…

用户故事与敏捷开发

什么是用户故事用户故事（User Story）是用来对软件或用户有价值功能的简短描述，是对需求的一种描述。它清晰简洁的传达了用户想要的功能。它从用户角度出发，用来描述用户的需求，用来表达用户需求的方式之一。它从用户角度出发，解释了用户所期望得到的结果。用户故事清楚…

团队项目冲刺--day6

每天举行站立式会议成员任务##昨天已完成的工作成员任务徐嘉炜开发音频API交互逻辑陈祥意测试网络API林楦开发注册UI界面陈大锴开发系统界面交互逻辑蔡家显汇总整体测试记录陈祖民##今天计划完成的工作界面细节完善，如歌曲封面动画，歌曲播放，页面背景随封面渐变，歌…

11.17 鲜花

a pa ta ? zaong ma ze mi da. (byd 没有输入法绷不住了)11.17 鲜花（RMQ专题）哈哈，回家看到朴彩英这个歌绷不住了。不是吧，姐？推歌-박채영《아파트》 채영이가 좋아하는 랜덤 게임 랜덤 게임 Game start 아파트 아파트 아파트 아파트 아파트 아파트 Uh, uh huh uh huh …

团队作业4——项目冲刺-7

目录每日例会 1.1 例会照片 1.2 成员工作情况 2.燃尽图 3.代码签入 4.最新模块 4.1 代码截图 4.2 运行截图 5.每日总结每日例会 1.1 例会照片1.2 成员工作情况成员昨日已完成工作今天计划完成的工作工作中遇到的困难杨殷（组长）完善管理员界面增删改查功能完善整个系统…

jmeter接口测试之SSH Command

原文地址：https://download.csdn.net/blog/column/8863406/106334136 需要提前安装好的工具：按照好jmeter插件：ssh protocol support 、 sshmon samler Collector 然而在实际测试中，不能确定我们的的机器能够正常连接。这里就要用到 while 循环设置重连，如下添加 while …

团队项目冲刺第七天

课程 2024软件工程作业要求团队作业4——项目冲刺作业目标团队项目冲刺第七天团队会议合照燃尽图计划表格成员已完成下一步洪吉潮话题发布与展示功能开发开发话题详情页面的前端展示刘家辉话题发布与展示功能开发实现话题在主题圈和校园圈的展示逻辑柳浩前后端对接，进行…