AWQ:激活-软件权重量化

AWQ:激活-软件权重量化

大型语言模型(LLM)已经改变了许多人工智能应用程序。设备上的LLM变得越来越重要:在边缘设备上本地运行LLM,可以降低云计算成本并保护用户隐私。然而,天文模型的大小和有限的硬件资源带来了巨大的部署挑战。提出了激活感知权重量化(AWQ),这是一种硬件友好的LLM低比特权重量化方法。AWQ认为,并非LLM中的所有权重都同等重要。仅保护1%的显著权重可以大大减少量化误差。为了识别显著的权重通道,应该参考激活分布,而不是权重。为了避免硬件低效的混合精度量化,从数学上推导出,扩大显著通道可以减少量化误差。AWQ采用等效变换来缩放显著权重通道以保护它们。规模是通过收集罚款的激活统计数据来确定的。AWQ不依赖于任何反向传播或重建,因此它可以推广到不同的领域和模态,而不会对校准集进行过度偏移。AWQ在各种语言建模和领域特定基准(编码和数学)方面的表现优于现有工作。幸亏了更好的泛化能力,它为指令调谐的LM和首次多模态LM,实现了出色的量化性能。除了AWQ,还实现了TinyChat,这是一个为4位设备上LLM/VLM量身定制的高效灵活的推理框架。通过内核融合和平台感知的权重打包,TinyChat在台式机和移动GPU上的速度比Huggingface FP16实现快3倍以上。同时完成了70B Llama-2模型在移动GPU上的部署。

基于激活分布(中间),可以在LM中找出1%的显著权重,如图5-1所示。

 

图5-1  基于激活分布(中间),可以在LM中找出1%的显著权重

在图5-1中,保留FP16中的显著权重可以显著提高量化性能(PPL从43.2(左)提高到13.0(中)),但混合精度格式不利于硬件。遵循激活意识原则,提出了AWQ(右)。AWQ执行信道缩放,以保护显著权重并减少量化误差。测量了OPT-6.7B在INT3-g128量化下的困惑度。

与RTN和GPTQ相比,AWQ持续提高了量化性能,显示出对指令调优模型的泛化能力。与GPTQ相比,校准集小10倍。右:方法对校准集分布更稳健。总体而言,使用相同的校准和评估分布效果最好。但当使用不同的校准分布时,AWQ仅将困惑度增加了0.5-0.6,而GPTQ的困惑度则降低了2.3-4.9。所有实验均在INT3-g128量化下,用OPT-6.7B模型完成。还支持各种通用和编码特定的LLM,其速度至少是AutoGPTQ的2.6倍,AutoGTQ也支持所有这些工作负载。此外,TinyChat在Raspberry Pi上无缝运行,最多可部署7个LLM在资源极其有限的物联网设备上,有10亿个参数。

在这项工作中,提出了激活感知权重量化(AWQ),这是一种简单而有效的低比特权重LLM压缩方法。基于权重在LLM中并不同等重要的观察,AWQ执行信道缩放以减少显著权重的量化损失。AWQ不会对校准集进行过fft运算,并保留了LLM在各种

领域和模态中的泛化能力。它的表现优于现有的工作语言建模,适用于指令调优的LM和多模态LM。TinyChat系统将AWQ实现的理论内存节省,转化为比桌面和移动GPU上Huggingface的FP16实现高3.2-3.3倍的测量加速,完成边缘的LLM部署。

AWQ方法概述,模型用S槽模型近似输入点云X,如图5-2所示。

 

图5-2  AWQ方法概述,模型用S槽模型近似输入点云X

在图5-2中,每个槽将X映射到仿射3D变形

 、槽激活概率αs和被激活槽的联合概率

 ,并选择K个可学习的原型点云

 中的一个。通过将变换

 应用于其最可能的原型,获得激活槽s的输出

 。未激活的插槽对输出没有贡献。引入了一种新的无监督方法,使用一小部分学习到的原型形状,将复杂的现实世界航空扫描解析为简单的部分。在一个新的航空激光雷达扫描数据集上,展示了结果的质量和可解释性。第一个证明在如此具有挑战性的现实世界数据集上,进行深度无监督3D形状分析。研究结果为计算机辅助环境监测和经济情报开辟了新的前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/855177.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用于显微镜的掩模自编码器是细胞生物学的可扩展学习

用于显微镜的掩模自编码器是细胞生物学的可扩展学习将显微镜图像特征化用于生物研究仍然是一个重大挑战,特别是对于跨越数百万张图像的大规模实验。这项工作探讨了弱监督分类器和自监督掩码自编码器(MAE),在使用越来越大的模型骨干和显微镜数据集进行训练时的缩放特性。结果…

转发:《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》新书推荐

由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技术开发,内容翔实、知识点新颖、实践性很强、图文并茂。 由清华大学出版社资深编辑赵佳霓老师…

博客园修饰:音乐播放器+鼠标特效

音乐播放器首先申请js权限然后在页脚html代码中添加<link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/aplayer@1.10.0/dist/APlayer.min.css"> <script src="https://blog-static.cnblogs.com/files/yjlaugus/APlayer.min.js&quo…

45. jQuery

1. jQuery介绍 1.1 概念jQuery 是一个快速、小型且功能丰富的 JavaScript 库。它使 比如 HTML 文档遍历和操作、事件处理、 动画和 Ajax 通过易于使用的 API 变得更加简单,该 API 可以在 多种浏览器。结合了多功能性和 可扩展性,jQuery 改变了数百万人的编写方式 JavaScript …

服务治理Consul篇

服务中心Consul 光从名字上就能看出他是个头头。Consul的本意是“领事,总督”。就像战场上的将军,带一帮喽啰去打仗,首先他要有个花名册,记录下他们有哪些战士,姓甚名谁,抡大刀还是耍长枪,他要知道哪个战士的能力如何,该对付多少敌人,哪个战士失踪了,或者战伤了,该不…

数据库高可用性与容灾

title: 数据库高可用性与容灾 date: 2024/12/19 updated: 2024/12/19 author: cmdragon excerpt: 在现代企业中,数据库的高可用性和容灾能力至关重要。为了保证业务的连续性,必须确保数据库在发生故障或灾难时能够快速恢复和持续可用。将探讨实现数据库高可用性和容灾的策略,…

Redis 持久化揭秘:选择 RDB、AOF 还是混合持久化?

Redis 是一个内存数据库,意味着它主要将数据存储在内存中,从而能够提供极高的性能。然而,作为内存数据库,Redis 默认情况下的数据不会永久保存。为了确保数据在重启或故障后能够恢复,Redis 提供了几种 **持久化机制**。这些机制允许 Redis 将内存中的数据保存到硬盘上,从…

【甲方安全】金融行业+网络安全合规

一、金融机构安全建设需求分析框架 由于金融数据的敏感性和金融交易的重要性,使得金融机构成为网络攻击行为的重点目标,也使金融机构成为网络安全监管的重点关注对象。 金融机构在进行网络安全需求分析和安全体系建设时,建议从安全建设的外部和内部两方面的驱动力进行分析,…

应用题6

考点:图的存储结构(邻接矩阵,邻接表,邻接多重表,十字链表)P149-165 Dijkstra 算法求最短路径 P173-177 普利姆算法求最小生成树 P170-173邻接矩阵表示图;若有节点元素n个,则有n*n个元素的数组,第i行表示从i元素出发到达各个元素的路径是否存在。 第i列则表示从各元素进…

【架构】一文搞懂业务架构的5个核心概念

今天聊聊业务架构的5个核心概念。 商业模式 商业模式是帮助企业成功的“秘诀”,它通过整合企业内外部的多种要素,构建起一个全面、高效且具有独特竞争优势的运营体系。这一体系的目的是满足市场的需求,实现各利益相关者价值最大化,并确保企业的长期盈利能力。 商业模式的核…

VbaCompiler 1.6.4 注册分析[1]

VbaCompiler 1.6.4 注册分析[1] 目录VbaCompiler 1.6.4 注册分析[1]说明AboutDialog校验注册文件lambda_check_key_402880parse_key_file_529060 解析注册keyparse_key_534660check_key_header_535091shift_decode_532C99verify_52A520pyps2.5.2版本有多处key3 是否为空校验注册…

最大交换

本题的关键是越往后找到一个最大的数与越靠前的最小的数进行交换。从右往前遍历,找到右边最大数的位置,和左边最小数的位置进行交换 时间复杂度为O(len(num))func maximumSwap(num int) int {numStr := fmt.Sprintf("%d", num)if len(numStr) == 1 {return num}le…