大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源

只需给大模型“加点小零件”,推理速度立刻提升2倍!

图片

不需要额外训练一个模型,也不需要对计算硬件做优化,单张A100最快几小时就能微调完成。

这项新研究名叫Medusa(美杜莎),来自普林斯顿、UIUC、CMU和康涅狄格大学,FlashAttention作者Tri Dao也在其中。

在这里插入图片描述

目前,它已经成功部署到伯克利70亿参数的“骆马”Vicuna中,后续还会支持其他大模型,已经登上GitHub热榜:

图片

但其实,在这种方法推出之前,业界并非没有大模型推理加速方法,主流的就是DeepMind推出的投机采样(speculative decoding)。

相比这种方法,Medusa有什么不一样的地方?

投机采样的2个“bug”

要想加速大模型推理,需要先知道究竟是什么“限制”了它的速度。

相比计算量的增加,大模型推理速度更容易受到内存带宽的影响(memory bound)。

这是因为,大模型由于参数量巨大、远超缓存容量,因此推理时需要先把权重从外部内存(显存)读取一次到缓存中,这个过程受内存带宽限制,速度通常很慢。

在这里插入图片描述

因此,模型做批量推理(batch inference)时,一次处理100个tokens和一个tokens时间上区别不大。

基于这个特点,DeepMind去年11月想出了一个名叫投机采样的神奇操作——

训练一个更小的模型(draft模型),给大模型提前生成一批“候选词”,相比于让大模型自己“思考”生成,直接做“选择”就好。

在这里插入图片描述

由于小模型生成速度比大模型快好几倍,一旦大模型觉得小模型已有的词“可用”,就直接拿来,不用自己再缓慢生成一遍。

这个过程,有点像是输入法的联想词候选,在我们(大模型)想好下一个词用什么之前,输入法(小模型)先给列出一些备选项:

要是看到觉得不错,就从中选一个用;要是觉得生成的都不行,就pass掉自己重新打。

在这里插入图片描述

这种投机采样方法确实取得了显著成效,甚至能轻轻松松在M2 Ultra上以高精度跑340亿参数LLaMA大模型。

在这里插入图片描述

BUT,这种方法存在两个问题。

一方面,给大模型找个生成“候选词”的draft小模型,没那么容易。

这个小模型可不是随便抓个生成模型就能用,除了接口统一、概率分布接近等要求,生成质量也不能比大模型差太多。

对于Meta发布的LLaMA这种模型可能还好,既有几百亿参数的大模型版本,又有几十亿参数的小模型版本,可以把参数量更小的版本拿来当draft模型使用。

但对于其他开源大模型,这种方法就不太适用了,自己去搭建训练一个小模型,不仅时间成本更高,生成效果可能还不达预期。

另一方面,双模型的组合,使得后续要想做系统调优变得更复杂

这是因为,相比于大模型自身是一个系统,新增加的draft模型相当于又引入了一个系统。

这样会导致模型部署起来更复杂,包括额外的网络传输、不同的硬件条件都需要考虑到,在做计算优化时难度也会进一步提升。

为了解决这些问题,Medusa出现了。

不用小模型,加几个“头”就行

Medusa(美杜莎,一种长有多个头的妖怪)是一种新的大模型推理加速方法。

相比投机采样,它选择直接给Transformer大模型多加几个解码头(decoding heads),每个头都是一个单层前馈网络。

在这里插入图片描述

这几个多出来的解码头,可以让大模型直接一次多生成几个词,而不是“挤牙膏式”一个一个生成。

生成准确率也还可以,在预测“下一个词的下一个词”时,Medusa准确率达到了60%,还在不断优化中。

随后,结合树状注意力机制(tree-based attention mechanism)并行验证这些词,从而实现推理加速。

在这里插入图片描述

基于Medusa,Vicuna的70亿、130亿和330亿参数大模型推理速度,均有了1.9倍以上的效率提升:

在这里插入图片描述

针对70亿参数的模型,研究者们还在不同任务上测试了一下加速效果,显示最高在代码生成上有2.15倍的速度提升。

在这里插入图片描述

最关键的是,用上Medusa后,并不需要将整个大模型重新训练一遍。

相比之下,它可以和大模型一起训练,只需要冻结大模型的参数就行,甚至单个GPU就能搞定。

由于不增加额外的模型,对于分布式推理也很友好。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/689016.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql中sql语句 exists 判断子句的用法

如果子查询成立才执行父查询 exists判断子查询的使用例子: 张三不存在所以前面的父查询不执行 后面的子句结果存在,所以前面的父查询被执行 where条件所连接的嵌套子查询都是,条件子查询 ———————————————————————…

旅游系统小程序基于Uniapp+FastAdmin+ThinkPHP(源码搭建/上线/运营/售后/更新)

一款基于UniappFastAdminThinkPHP开发的旅游系统,包含消费者端(手机端)、机构工作人员(手机端)、机构端(PC)、平台管理端(PC)。机构可以发布旅游线路、景点项目&#xff…

AI宝库:全球精选AI工具网站一网打尽,创新智慧触手可及

​🌈 个人主页:danci_ 🔥 精选专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 探秘AI之巅,一键解锁未来工具!立即点击,开启智能新纪元&#…

C++的数据结构(二)

一、链表的基本概念 链表(Linked List)是一种物理存储单元上非连续的、非顺序的线性数据结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列节点(链表中每一个元素称为节点)组成,节点…

网站实现微信扫码登录(利用微信开放平台实现)

第一步:微信开放平台账户申请 网址:微信开放平台 1.首先我们要做的就是进入到微信开放平台申请一个开放平台账户,获得资质! :注册需要准备营业执照、1-2个工作日审批、300元认证费 :注册之后&#xff0…

常用Linux命令详细总结

一、文档编辑、过滤、查看命令 1、cp 复制文件和目录 -a 复制文件并保持文件属性 -d 若源文件为链接文件,则复制链接文件属性而非文件本身 -i 覆盖文件前提示,如果不要提示,在命令前加上\ -r 递归复制,通常用于目录的复制 …

python代码实现xmind思维导图转换为excel功能

目录 转换前xmind示例 运行代码转换后excel示例 python代码 转换前xmind示例 运行代码转换后excel示例 如果想要合并单元格内容,在后面一列参考输入 B2&C2&D2&E2 python代码 from xmindparser import xmind_to_dict import pandas as pd from openp…

初识多线程

1. 前置知识——进程 在学习多线程前需要了解操作系统中的基本知识,这里简单回顾下。 1.1 进程控制块 一个进程对应着一个进程控制块PCB,PCB是一个用于管理和维护进程信息的数据结构,这个数据结构中大致包含下面内容(并不完整&…

Centos 中如何汉化man命令

刚学Linux,记不住命令和选项,很依赖里面的 man 查看命令,但因为着实看不懂,有没有什么办法把man查看命令的信息改成中文 在CentOS 7中,你可以通过安装man-pages-zh包来获取中文的man手册。以下是具体的步骤&#xff1a…

学生党性价比蓝牙耳机哪款好用?五款性价比机型盘点分享

在众多的蓝牙耳机里,对于许多预算不到的学生党来说,想要在有限的预算内挑选到一款性价比高、性能出色的蓝牙耳机,确实是一个不小的挑战,作为蓝牙耳机大户的我今天就来为大家盘点五款性价比极高的蓝牙耳机,帮助大家在有…

Sqlite在Mybatis Plus中关于时间字段的处理

我的个人项目中,使用Mybatis-Plus 和 Sqlite数据库, 但是在存储和查询时间字段的时候,总是出现问题,记录下我解决问题的过程。 Sqlite会默认把时间字段转成时间戳存储到数据库的字段中,看起来不直观,所以我…

永倍达 最新消息!发放消费券! 重新开网?

大家好 我是一家软件开发公司的产品经理 吴军 我又又又又又叕来蹭热度了,最近永倍达有新动作!发放消费券? 店长群最新通知 4.15号开始发放消费券 一个月之后才可以重新提现 今天是5.10号离5.18也不远了 大家拭目以待看看到底能不能提现&a…