引用 EAGLE/EAGLE2 的文章汇总

image
这张图是 eagle 和 previous approaches 的加速效果对比。

引用 eagle 的文章也可以被分成很多类,它们引用 eagle/eagle2 的侧重点也很多样。有不少文章是把 eagle 和 eagle2 作为 speculative decoding 的示例,这种不再在这里列出了。有些文章我读完之后会在下面有一些注解,比如算法流程的简述。

paper 的 motivation 可能大不相同,有的 motivation 我也有共鸣,我也觉得这里也可以优化。另外一些我觉得就很牵强。不可以单看这些 motivation 引出的做法,否则会摸不到门路,形成一种“魔改”的错误印象。我觉得大伙的工作都是有清晰的来龙去脉的。

针对 draft tree 的优化

https://arxiv.org/pdf/2406.17276

https://arxiv.org/abs/2412.12639

https://arxiv.org/abs/2411.10666

https://arxiv.org/pdf/2409.00142v1

https://arxiv.org/pdf/2412.18910

主要解决的是 draft tree 深度需要人工设定的问题。于是这篇文章引入了一个能预测 optimal draft tree depth 的模块。收集数据,训练的手法没有门槛。确实有很小幅度的优化。

early exiting

https://arxiv.org/pdf/2404.18911

deployment practice 的经验

https://arxiv.org/pdf/2406.14066

在实际的在线 LLM 服务系统(包括持续批处理)中部署推测解码并不总能带来性能提升——在高请求率或低推测准确率的情况下,推测解码可能会导致延迟反而增加。此外,不同系统负载下并没有一种适用于所有工作负载的最佳推测长度。另一个问题是投机采样可能在 inference batch_size 不为 1 时表现不佳(countinuous batching)。

于是这个文章引入 goodput 的指标,它被定义为每秒生成的词元数。与传统的吞吐量不同,有效吞吐量仅衡量那些被目标模型验证并生成的词元。这篇文章的方法先估计 goodput,然后通过 goodput 来决定每个请求在投机采样中的 depth 超参数的值。

https://arxiv.org/pdf/2407.01955

不同的 base model,不同的下游任务,每个都训练 draft model,开销太大。本文主要优化这个部分。但是和 eagle 关系不大,我没有仔细看

https://arxiv.org/pdf/2412.18106 https://arxiv.org/pdf/2410.21340 只把 eagle 当作投机采样的一个例子,于是先不看了。

draft model 训练

这个部分的工作似乎都 explicitly 提升了性能。

https://arxiv.org/abs/2411.11055

https://arxiv.org/pdf/2412.00061

https://arxiv.org/pdf/2408.15562 这篇好像是 SoTA?

https://arxiv.org/pdf/2408.08146 使用 GAN 的思想来训练 draft model,还没有仔细读。

https://arxiv.org/pdf/2408.15766

投机采样中的 temperature

https://arxiv.org/abs/2410.10141

draft tree mask

https://arxiv.org/pdf/2409.10644

没太看懂这篇文章的方法,但是感觉应该没啥用,也不太重要。

侧重于硬件

https://arxiv.org/abs/2412.18934

https://arxiv.org/abs/2405.18628

https://arxiv.org/pdf/2405.20314

不需要 draft model 的方法

https://arxiv.org/pdf/2407.12021

把使用小模型进行投机采样,变成了使用 MCTS 和 n-gram 等统计方法进行投机采样。那么可想而知,它不需要微调小模型,不需要除了基座模型之外的显存开销。效率比 eagle 很多。

https://arxiv.org/pdf/2404.18911

这篇文章主打不需要 train draft model、不需要 Base model 之外的显存开销。

该方法针对输入引导的任务,包括代码编辑、文本编辑、摘要生成等,由于其输出与输入存在大量重叠的特性(明示缺少泛化性),PLD 直接选择 prompt 里面的 token 作为 draft token(根据 cosine similiarity 去 retrieve)。有点乐。

https://arxiv.org/pdf/2408.08696

观察到解码过程中生成的候选标记很可能在未来序列中重复出现,我们提出了标记回收(Token Recycling)。该方法将候选标记存储在一个邻接矩阵中,并在矩阵上使用类似于广度优先搜索(BFS)的算法构建草稿树(draft tree)。随后,通过树注意机制(tree attention)对草稿树进行验证。解码过程中生成的新候选标记将用于更新矩阵。

https://arxiv.org/pdf/2403.18647

在词表里面引入 4 个 special tokens。推理时把第 i 个 special token 的 next token prediction 结果当作第深度为 i 的 draft tree 上的节点。再做一次 base model 前向传播,来进行验证和接受。这种方法是稳赚不赔的,因为两次 base model 前向传播生成了 2+k 个 token。很有意思的做法!

https://arxiv.org/pdf/2411.03786 这个也是不训练 draft model,没细看

综述

https://arxiv.org/pdf/2411.00853

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/871032.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Kali工具】一款聚合暴力破解工具 Kraken

本文为大家分析一款聚合密码破解工具。集成了常见的破解类型,上手也比较简单,一起来看看吧。 在Kali中安装在Kali或者在其他Linux系统中,我们执行下面命令进行安装。 git clone https://github.com/jasonxtn/kraken.git cd Kraken pip install -r requirements.txt #运行 py…

G1原理—10.如何优化G1中的FGC

大纲 1.G1的FGC可以优化的点 2.一个bug导致的FGC(Kafka发送重试 + subList导致List越来越大) 3.为什么G1的FGC比ParNew + CMS要更严重 4.FGC的一些参数及优化思路1.G1的FGC可以优化的点 (1)FGC的基本原理 (2)遇到FGC应该怎么处理 (3)应该如何操作来规避FGC (4)应该如何操作来加…

firefox浏览器deepin20.9下缩放异常

地址栏输入about:config,修改layout.css.devPixelsPerPx默认1.25,改为1.0就可以了。 deepin版本: 20.9 社区版 firefox版本: 115.18.0esr (64 位) 修改前改参数修改后

【内网攻防】WMI的利用

# 红队 # 红蓝对抗 # 内网攻防 WMI简介 WMI,全称Windows Management Instrumentation,是微软开发的一种用于管理Windows系统的工具。你可以把它想象成一个数据库工具,它存储了关于你的电脑的各种信息,比如系统、应用程序、网络和设备等。 WMI使用了一种特殊的方式来表示这…

【后门】cymothoa后门的利用

# 后门工具 # 红队 cymothoa简介: Cymothoa是一款隐秘的后门工具,通过向目标主机上活跃的进程注入恶意代码来执行后门工作,这也反向说明了,实际上Cymothoa后门会拥有和原进程相同的权限,且Cymothoa是通过向系统进程注入shellcode去执行后门,所以不会像以前写过的许多后门…

Linux 符号链接

Linux中的符号链接是一种特殊类型的文件,允许用户创建指向其他文件或目录的链接,便于访问和管理文件系统。创建和删除符号链接很简单,使用ln -s命令可以创建链接,而unlink和rm命令可用于删除它。用户还可以通过命令查找和处理失效的符号链接,以维护文件系统的整洁。在Linu…

在 Linux 中查看符号链接指向

在 Linux 系统中,可以通过使用 readlink、realpath 和 ls -la 命令来查看符号链接指向的目标文件或目录,选择不同命令可以满足不同的路径解析需求。在 Linux 系统中,符号链接(symbolic link)是一种特殊类型的文件,它指向另一个文件或目录。为了查看符号链接指向的目标文件…

Office 365 E5 账号申请及永久续期教程

详细介绍了如何申请微软提供的Office 365 E5管理账号、使用该账号的基本功能以及实现账号的永久续期方法,强调通过Github Action等自动化手段可以简化续期过程。续订成功通知Office 365 E5 是微软 免费 提供给开发者的 Office 临时 管理号,任何人均可申请。该账号的最大权益便…

【Windows攻防】恶意软件容器化

# windows 微软在2022年7月为了帮助用户保持安全,在Office中默认阻止了internet宏。 阻止从Internet下载的文档中的VBA宏。 接下来我们来了解一下MOTW标记,其实就是网络标记。 什么是MOTW标记? MOTW全名Mark of the Web,他是windows操作系统中的一个安全特性,为了帮助用户…

【Spring Cloud Alibaba AI】 入门与实践

一、概述 Spring AI 是 Spring 官方社区项目,旨在简化 Java AI 应用程序开发,让 Java 开发者像使用 Spring 开发普通应用一样开发 AI 应用。可参考文章《SpringAI:Java 开发的智能新利器》Spring Cloud Alibaba AI 是一个将 Spring Cloud 微服务生态与阿里巴巴 AI 能力无缝集…

Re:Re:笑死

哈哈哈哈哈博客用的很熟练嘛 闲的没事去桃花湖那边开了一圈 下午的旅程后劲儿太大了 开车的时候仿佛眼前还都是山 今晚自己和猫猫独享大床真爽啊!!吼吼 再次给你欣赏一下12的美照哈哈哈哈哈哈

阿里面试:5000qps访问一个500ms的接口,如何设计线程池的核心线程数、最大线程数? 需要多少台机器?

本文原文链接 文章很长,且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录 博客园版 为您奉上珍贵的学习资源 : 免费赠送 :《尼恩Java面试宝典》 持续更新+ 史上最全 + 面试必备 2000页+ 面试必备 + 大厂必备 +涨薪必备 免费赠送 :《尼恩技术圣经+高并发系列PDF》 ,帮你 …