书生·浦语 LMDeploy 大模型量化部署原理-编程知识

书生·浦语 LMDeploy 大模型量化部署原理

news/2025/3/13 2:13:53/文章来源:https://blog.csdn.net/m0_49289284/article/details/135692284

文章目录

大模型部署背景
- 模型部署
- 大模型的特点
- 大模型部署的挑战
- 大模型部署方案
LMDeploy简介

大模型部署背景

模型部署

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果
为了满足性能和效率的需求，常常需要对模型进行优化，如模型压缩和硬件加速
云端、边缘计算端、移动端部署
计算设备为CPU、GPU、NPU、TPU等

大模型的特点

内存开销巨大
- 参数量巨大
- 回归生成token，需要缓存Attention的k/v，带来巨大的内存消耗
动态shape，输入输出都是动态的
相对视觉模型，LLM结构简单

大模型部署的挑战

设备
- 如何应对巨大的存储问题？低存储设备如何部署？
推理
- 如何加速token的生成速度
- 如何解决动态shape，让推理可以不间断
- 如何有效管理和利用内存
服务
- 如何提升系统整体的吞吐量
- 对于个体用户，如何降低响应时间

大模型部署方案

技术点
- 模型并行
- 低比特量化
- Page Attention
- transformer 计算和访存优化
- Continuous Batch
- …
方案
huggingface transformers
专门推理加速框架
- 云端
  - imdeploy
  - vllm
  - tensorrt-llm
  - deepspeed
- 移动端
  - llama.cpp
  - mlc-llm

LMDeploy简介

高效推理引擎，持续批量处理技巧，深度优化的低比特计算kernel，模型并行，高效的k/v缓存机制
完备易用的工具链，量化、推理、服务全流程，无缝对接OpenCompass评测推理精度，与OpenAI接口高度兼容

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/414806.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

SpringBoot项目打包

SpringBoot项目打包

1.在pom.xml中加入如下配置 <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-assembly-plugin</artifactId><version>3.1.0</version><configuration><descriptorRef…

阅读更多...

CentOS stream 9配置网卡

CentOS stream 9配置网卡

CentOS stream9的网卡和centos 7的配置路径：/etc/sysconfig/network-scripts/ifcfg-ens32不一样。 CentOS stream 9的网卡路径： /etc/NetworkManager/system-connections/ens32.nmconnection 方法一： [connection] idens32 uuid426b60a4-4…

阅读更多...

CTF CRYPTO 密码学-2

CTF CRYPTO 密码学-2

题目名称：crypto1 题目描述： 字符 ZZZZ X XXZ ZZ ZXZ Z ZXZ ZX ZZX XXX XZXX XXZ ZX ZXZZ ZZXZ XX ZX ZZ 分析此字段是由Z和X组成的字符，联想到莫斯密码是由.和-组成的所以接下来可以尝试莫斯密码解题解题过程： Step1&#xf…

阅读更多...

双亲委派模型

双亲委派模型

其实分两步：检查（自底而上）—>加载（自顶向下） 看个例子：Class.forName(“com.mysql.cj.jdbc.Driver”); 但是！！！在JDBC4.0之后就不需要这行代码了，使…

阅读更多...

【解决问题】java项目启动缓慢原因排查

【解决问题】java项目启动缓慢原因排查

背景： 最近启动项目，特别慢，尤其在中间部分会卡住几分钟，并且不打印任何日志问题排查： 针对上面的问题，需要使用jdk自带的打印堆栈信息命令排查，这里我们采用命令跟idea工具两种方式方式1-…

阅读更多...

Flink Kubernetes Operator 介绍

Flink Kubernetes Operator 介绍

一、简介 Flink Kubernetes Operator是针对在Kubernetes上运行Apache Flink应用程序而设计的工具。它充分利用了Kubernetes的优势，实现了对Flink集群的弹性管理和自动化操作，通过扩展Kubernetes API的方式，提供了管理和操作Flink部署的功能。…

阅读更多...

田园好比一幅美丽的画

田园好比一幅美丽的画

一望无垠的麦田，清新的空气，茂密的小树林，这一切都呈现在田园里。清晨，东方刚刚泛起了鱼肚白，一切都雾蒙蒙的，仿佛给大地披上了一层薄薄的轻纱，大地在沉睡当中，小花沉静在美梦中&am…

阅读更多...

复杂字幕特效SDK，重塑视频字幕新体验

复杂字幕特效SDK，重塑视频字幕新体验

字幕特效已经成为了提升视频品质、增强观众体验的重要手段。美摄科技作为行业领先的技术提供商，近期推出的复杂字幕特效SDK，更是引领了这一领域的创新潮流。美摄科技复杂字幕特效SDK，不仅具备了电影级别的字幕功能，更实现了众多…

阅读更多...

4D毫米波雷达——RADIal数据集、格式、可视化 CVPR2022

4D毫米波雷达——RADIal数据集、格式、可视化 CVPR2022

前言本文介绍RADIal数据集，来着CVPR2022的。它是一个收集了 2 小时车辆行驶数据的数据集，采集场景包括：城市街道、高速公路和乡村道路。采集设备包括：摄像头、激光雷达和高清雷达等，并且还包括了车辆的 GPS 位置和…

阅读更多...

街机模拟游戏逆向工程(HACKROM)教程:[11]68K汇编sub指令

街机模拟游戏逆向工程(HACKROM)教程:[11]68K汇编sub指令

简介： sub -减法指令该指令的作用是[源操作数]减[目的操作数]，结果传递至[目的操作数]，[源操作数]保持不变。例子： sub.b d0, d1 如果d0 $20 ，d1$10 ，执行后d1 $10 如果d0 $10 &#…

阅读更多...

聚焦用户需求，优化产品服务 — 卓翼飞思开展调研走访活动

聚焦用户需求，优化产品服务 — 卓翼飞思开展调研走访活动

为深入了解用户需求，持续提升产品和服务，卓翼飞思近日开展用户调研走访活动，该活动采用线上问卷调研线下一对一走访的形式，旨在使产品更好地满足用户需求，助推其更好地运用到教学及科研中。一. 线上线下联动&#xff…

阅读更多...

CentOS 6.10 安装图解

特特特别的说明 CentOS发行版已经不再适合应用于生产环境，客观条件不得不用的话，优选7.9版本，8.5版本次之，最次6.10版本（比如说Oracle 11GR2就建议在6版本上部署）！ 引导和开始安装选择倒计时结…

阅读更多...

推荐文章

最新文章