书生·浦语 LMDeploy 大模型量化部署原理

文章目录

  • 大模型部署背景
    • 模型部署
    • 大模型的特点
    • 大模型部署的挑战
    • 大模型部署方案
  • LMDeploy简介

大模型部署背景

模型部署

  • 将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果
  • 为了满足性能和效率的需求,常常需要对模型进行优化,如模型压缩和硬件加速
  • 云端、边缘计算端、移动端部署
  • 计算设备为CPU、GPU、NPU、TPU等

大模型的特点

  • 内存开销巨大
    • 参数量巨大
    • 回归生成token,需要缓存Attention的k/v,带来巨大的内存消耗
  • 动态shape,输入输出都是动态的
  • 相对视觉模型,LLM结构简单

大模型部署的挑战

  • 设备
    • 如何应对巨大的存储问题?低存储设备如何部署?
  • 推理
    • 如何加速token的生成速度
    • 如何解决动态shape,让推理可以不间断
    • 如何有效管理和利用内存
  • 服务
    • 如何提升系统整体的吞吐量
    • 对于个体用户,如何降低响应时间

大模型部署方案

  • 技术点
    • 模型并行
    • 低比特量化
    • Page Attention
    • transformer 计算和访存优化
    • Continuous Batch
  • 方案
  • huggingface transformers
  • 专门推理加速框架
    • 云端
      • imdeploy
      • vllm
      • tensorrt-llm
      • deepspeed
    • 移动端
      • llama.cpp
      • mlc-llm

LMDeploy简介

  • 高效推理引擎,持续批量处理技巧,深度优化的低比特计算kernel,模型并行,高效的k/v缓存机制
  • 完备易用的工具链,量化、推理、服务全流程,无缝对接OpenCompass评测推理精度,与OpenAI接口高度兼容

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/414806.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot项目打包

1.在pom.xml中加入如下配置 <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-assembly-plugin</artifactId><version>3.1.0</version><configuration><descriptorRef…

CentOS stream 9配置网卡

CentOS stream9的网卡和centos 7的配置路径&#xff1a;/etc/sysconfig/network-scripts/ifcfg-ens32不一样。 CentOS stream 9的网卡路径&#xff1a; /etc/NetworkManager/system-connections/ens32.nmconnection 方法一&#xff1a; [connection] idens32 uuid426b60a4-4…

CTF CRYPTO 密码学-2

题目名称&#xff1a;crypto1 题目描述&#xff1a; 字符 ZZZZ X XXZ ZZ ZXZ Z ZXZ ZX ZZX XXX XZXX XXZ ZX ZXZZ ZZXZ XX ZX ZZ 分析 此字段是由Z和X组成的字符&#xff0c;联想到莫斯密码是由.和-组成的所以接下来可以尝试莫斯密码解题 解题过程&#xff1a; Step1&#xf…

双亲委派模型

其实分两步&#xff1a;检查&#xff08;自底而上&#xff09;—>加载&#xff08;自顶向下&#xff09; 看个例子&#xff1a;Class.forName(“com.mysql.cj.jdbc.Driver”); 但是&#xff01;&#xff01;&#xff01;在JDBC4.0之后就不需要这行代码了&#xff0c;使…

【解决问题】java项目启动缓慢原因排查

背景&#xff1a; 最近启动项目&#xff0c;特别慢&#xff0c;尤其在中间部分会卡住几分钟&#xff0c;并且不打印任何日志 问题排查&#xff1a; 针对上面的问题&#xff0c;需要使用jdk自带的打印堆栈信息命令排查&#xff0c;这里我们采用命令跟idea工具两种方式 方式1-…

Flink Kubernetes Operator 介绍

一、简介 Flink Kubernetes Operator是针对在Kubernetes上运行Apache Flink应用程序而设计的工具。它充分利用了Kubernetes的优势&#xff0c;实现了对Flink集群的弹性管理和自动化操作&#xff0c;通过扩展Kubernetes API的方式&#xff0c;提供了管理和操作Flink部署的功能。…

田园好比一幅美丽的画

一望无垠的麦田&#xff0c;清新的空气&#xff0c;茂密的小树林&#xff0c;这一切都呈现在田园里。 清晨&#xff0c;东方刚刚泛起了鱼肚白&#xff0c;一切都雾蒙蒙的&#xff0c;仿佛给大地披上了一层薄薄的轻纱&#xff0c;大地在沉睡当中&#xff0c;小花沉静在美梦中&am…

复杂字幕特效SDK,重塑视频字幕新体验

字幕特效已经成为了提升视频品质、增强观众体验的重要手段。美摄科技作为行业领先的技术提供商&#xff0c;近期推出的复杂字幕特效SDK&#xff0c;更是引领了这一领域的创新潮流。 美摄科技复杂字幕特效SDK&#xff0c;不仅具备了电影级别的字幕功能&#xff0c;更实现了众多…

4D毫米波雷达——RADIal数据集、格式、可视化 CVPR2022

前言 本文介绍RADIal数据集&#xff0c;来着CVPR2022的。 它是一个收集了 2 小时车辆行驶数据的数据集&#xff0c;采集场景包括&#xff1a;城市街道、高速公路和乡村道路。采集设备包括&#xff1a;摄像头、激光雷达和高清雷达等&#xff0c;并且还包括了车辆的 GPS 位置和…

街机模拟游戏逆向工程(HACKROM)教程:[11]68K汇编sub指令

简介&#xff1a; sub -减法指令 该指令的作用是[源操作数]减[目的操作数]&#xff0c;结果传递至[目的操作数]&#xff0c;[源操作数]保持不变。 例子&#xff1a; sub.b d0, d1 如果d0 $20 &#xff0c;d1$10 &#xff0c;执行后d1 $10 如果d0 $10 &#…

聚焦用户需求,优化产品服务 — 卓翼飞思开展调研走访活动

为深入了解用户需求&#xff0c;持续提升产品和服务&#xff0c;卓翼飞思近日开展用户调研走访活动&#xff0c;该活动采用线上问卷调研线下一对一走访的形式&#xff0c;旨在使产品更好地满足用户需求&#xff0c;助推其更好地运用到教学及科研中。 一. 线上线下联动&#xff…

CentOS 6.10 安装图解

特特特别的说明 CentOS发行版已经不再适合应用于生产环境&#xff0c;客观条件不得不用的话&#xff0c;优选7.9版本&#xff0c;8.5版本次之&#xff0c;最次6.10版本&#xff08;比如说Oracle 11GR2就建议在6版本上部署&#xff09;&#xff01; 引导和开始安装 选择倒计时结…