InternLM大模型实战-5.LMDeploy大模型量化部署实战-编程知识

InternLM大模型实战-5.LMDeploy大模型量化部署实战

文章目录

前言
笔记正文
- 大模型部署背景
- - 部署挑战
  - 部署方案
- LMDeploy框架
- - 量化
  - 推理引擎Turbomind
  - 推理服务api server

前言

本文是对于InternLM全链路开源体系系列课程的学习笔记
【LMDeploy 大模型量化部署实践】 https://www.bilibili.com/video/BV1iW4y1A77P/?share_source=copy_web&vd_source=99d9a9488d6d14ace3c7925a3e19793e

笔记正文

大模型部署背景

内存开销巨大：7B模型仅权重就需要14+G内存；采用子回归生成token带来开销
动态shape：请求数、token数，不固定
结构简单，transfomer结构，且大部分是decoder-only

部署挑战

设备、推理、服务

部署方案

在这里插入图片描述
方案则是有很多的推理框架适用于不同运算端。

LMDeploy框架

很多这个框架的内容在第一节课程中已经讲解过了，本段主要讲解了这个框架的核心功能

量化

在这里插入图片描述
为什么做量化，首先就是显存。
然后为什么做权重的量化，因为这即降低了计算密集，又降低了访存密集，（因为数值的位数减少了且权重的大小减少了）。

如何去做：使用awq算法，比gptq算法的推理速度更快，量化的时间更短。

推理引擎Turbomind

持续批处理
有状态的处理
分块锁定KV缓存
高性能cuda kernel

在这里插入图片描述

推理服务api server

可以通过lmdeploy很方便地启动api server用于调用。可以访问页面获取更多调用的格式的信息。

作业后面做。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/466617.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！