极大提升GPT-4等模型推理效率,微软、清华开源全新框架

随着用户需求的增多,GPT-4、Claude等模型在文本生成、理解、总结等方面的能力越来越优秀。但推理的效率并不高,因为,多数主流模型采用的是“顺序生成词”方法,会导致GPU利用率很低并带来高延迟。

为了解决这一难题,清华和微软研究院开发了一种SoT(Skeleton-of-Thought,思维骨架)框架并开源了项目。SoT首先引导大语言模型生成答案的骨架,然后使用并行API调用或批量解码来完成内容每个骨架点的填充,可极大提升模型的推理效率

为了验证SoT的效果,研究人员在Vicuna-80和WizardLM两个对话数据集上测试了12个模型,包括GPT-4、LLaMA、Claude等。

数据显示,在SoT的帮助下,大多数模型的推理延迟减少了1.5—2.4倍。例如,在Vicuna-80数据集上,使LLaMA的33B参数量模型的推理延迟从43秒降低到16秒。除了效率的提升,研究人员发现,SoT可以提高模型的回答质量。

开源地址:https://github.com/imagination-research/sot/

论文地址:https://arxiv.org/abs/2307.15337

图片

SoT的最大创新点在于,采用了一种拟人化的思考方式。通常,人类在回答某个问题时,会先根据某些原则和策略拟定思路框架,然后再扩充每个要点的细节。

例如,我们在制定公司发展战略时,会先制定一个大的框架然后分模块具体去执行。

这种方法比一步一步的顺序生成方法高效的多。所以,SoT的技术架构也并不复杂主要由骨架生成和内容填充两大部分组成。

图片

骨架生成

该模块就是直接生成内容的整体架构。骨架生成模块使用了特制的提示模板,指导语言模型直接输出骨架。

提示模板明确要求语言模型用1.,2.,3.等序号的形式输出3-10个要点,每个要点内容保持在3-5个词的长度。

图片

同时提供了完整的任务描述,确保语言模型理解所要完成的工作,以及部分回答“1.”来让语言模型遵循正确的格式继续书写。

由于语言模型生成的骨架回复大多符合预期的编号要点格式,因此,可以用正则表达式提取出要点及其内容。

内容补充

当模型拿到骨架后,SoT会为每个编号要点并行地生成详细内容。内容补充也使用特制的提示模板。

图片

提示模板明确要求语言模型只关注扩展指定的要点,并用1-2句很短的话完成扩展。同时提供了原问题、已生成的完整骨架和要扩展的要点序号及内容,确保语言模型理解上下文。

为了实现推理效率加速,SoT采用了批量解码或并行API请求,使语言模型并行地扩展多个要点,大大缩短获取最终回答所需的时间。

研究人员表示,SoT这种从内容结构优化的方法,将比其他系统底层、架构的方法简单、高效的多。尤其是随着内容产出的高速增长,发挥的作用也会越发明显。

但SoT也存在一些不足的地方,例如,当逻辑推理需要前后步骤之间的相互依赖时,SoT会自动切换至顺序生成模式。

本文素材来源SoT论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/258170.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-table 跨页多选

步骤一 在<el-table>中:row-key"getRowKeys"和selection-change"handleSelectionChange" 在<el-table-column>中type"selection"那列&#xff0c;添加:reserve-selection"true" <el-table:data"tableData"r…

【漏洞复现】FLIR AX8红外线热成像仪命令执行漏洞

漏洞描述 eledyne FLIR 设计、开发、制造以及强大的传感和意识技术。自透射热图像、可见光图像、可见频率分析、来自测量和诊断的先进威胁测量系统以及日常生活的创新解决方案。 Teledyne FLIR 提供多种产品用于政府、国防、工业和商业市场。我们的产品,紧急救援人员,军事人…

Linux文件部分知识

目录 认识inode 如何理解创建一个空文件&#xff1f; 如何理解对文件写入信息&#xff1f; 如何理解删除一个文件&#xff1f; 为什么拷贝文件的时候很慢&#xff0c;而删除文件的时候很快&#xff1f; 如何理解目录 ​编辑 文件的三个时间 ​编辑 Access&#xff1a; …

优秀案例 | 元宇宙双语财经科技主播“舒望”主持首届粤港澳大湾区元宇宙国际传播论坛

12月6日&#xff0c;由南方财经全媒体集团指导、大湾区元宇宙国际传播实验室(GBA MIC Lab&#xff09;主办、南财国际传播中心和21世纪经济报道共同承办&#xff0c;以“多元共创开放共享”为主题的首届粤港澳大湾区元宇宙国际传播论坛在广州隆重开幕。 “立足湾区&#xff0c;…

第二十一章网络通信总结

网络程序设计基础 局域网与互联网 为了实现两台计算机的通信&#xff0c;必须用一个网络线路连接两台计算机。如下图所示 网络协议 1.IP协议 IP是Internet Protocol的简称&#xff0c;是一种网络协议。Internet 网络采用的协议是TCP/IP协议&#xff0c;其全称是Transmissi…

公网域名如何解析到内网IP服务器——快解析域名映射外网访问

在本地搭建主机应用后&#xff0c;由于没有公网IP或没有公网路由权限&#xff0c;在需要发布互联网时&#xff0c;就需要用到外网访问内网的一些方案。由于内网IP在外网不能直接访问&#xff0c;通常就用通过外网域名来访问内网的方法。那么&#xff0c;公网域名如何解析到内网…

自然语言处理22-基于本地知识库的快速问答系统,利用大模型的中文训练集为知识库

大家好,我是微学AI,今天给大家介绍一下自然语言处理22-基于本地知识库的快速问答系统,利用大模型的中文训练集为知识库。我们的快速问答系统是基于本地知识库和大模型的最新技术,它利用了经过训练的中文大模型,该模型使用了包括alpaca_gpt4_data的开源数据集。 一、本地…

SQL进阶 | CASE表达式

本文所有案例基于《SQL进阶教程》实现。 概述 SQL中的CASE表达式是一种通用的条件表达式&#xff0c;类似于其他语言中的if/else语句。它用于在SQL语句中实现条件逻辑。CASE表达式以WHEN子句开始&#xff0c;后面跟着一个或多个WHEN条件&#xff0c;每个WHEN条件后面跟着一个TH…

DevEco Studio 运行项目有时会自动出现.js和.map文件

运行的时候报错了&#xff0c;发现多了.js和.map&#xff0c;而且还不是一个&#xff0c;很多个。 通过查询&#xff0c;好像是之前已知问题了&#xff0c;给的建议是手动删除(一个一个删)&#xff0c;而且有的评论还说&#xff0c;一周出现了3次&#xff0c;太可怕了。 搜的过…

IT企业使用超大数据传输最快的方式有哪些?

IT企业最核心的资产和竞争力肯定是数据&#xff0c;对于数据的安全和完整性是无比的看重的&#xff0c;那么无论是云计算、大数据分析、视频处理还是其他领域&#xff0c;IT企业都需要频繁地进行超大数据传输&#xff0c;以实现数据的共享、备份、迁移、同步等目的。那么&#…

消息队列 - RabbitMQ

消息队列 - RabbitMQ 1. 初识 MQ1.1 同步调用1.2 异步调用1.3.技术选型 2. RabbitMQ2.1 安装2.2 收发信息2.2.1 交换机(Exchange)2.2.2 队列2.2.3 绑定关系2.2.4 发送消息 2.3 数据隔离 1. 初识 MQ 微服务一旦拆分&#xff0c;必然涉及到服务之间的相互调用&#xff0c;之前讲…

FPGA入门有多难?这篇文章让你吃透零基础入门技巧!

FPGA是一个高度集成化的芯片&#xff0c;其学习过程既需要编程&#xff0c;又需要弄懂硬件电路和计算机架构。涉及到的知识和基础非常多&#xff0c;如果不合理地安排学习内容&#xff0c;学习过程会非常漫长和枯燥。这使很多想要学习FPGA小伙伴望而却步&#xff0c;那么&#…