什么是大模型的量化和蒸馏

news/2025/3/13 12:45:52/文章来源:https://www.cnblogs.com/michael1102/p/18769678

Quantization (量化) & Knowledge Distillation(蒸馏)

Ollama:量化技术

量化是一种将模型中的浮点数参数(如32位浮点数)转换为低精度数值(如8位整数)的技术。通过减少数值的精度,可以显著减少模型的计算复杂度和存储需求。

量化类型
1.权重量化:仅对模型的权重进行量化。
2.激活量化:对模型的输入和中间层的激活值进行量化。
3.混合量化:结合权重量化和激活量化,进一步优化模型。

量化方法
1.线性量化:将浮点数线性映射到低精度数值。
2.非线性量化:使用非线性函数进行映射,通常能更好地保留模型性能。

量化优势
1.减少模型大小,便于在资源受限的设备(如移动设备、嵌入式设备)上部署。
2.提高推理速度,降低计算资源消耗。

量化挑战
1.量化可能导致模型精度下降,尤其是在极端低精度的情况下。
2.需要设计合适的量化策略,以在精度和效率之间取得平衡。

Bit(位) ->Bytes(字节) 8 : 1

训练后量化(Post-Training Quantization)

量化感知训练(Quantization-Aware Training): llama.cpp (gguf) 项目,把不重要的数据狠狠地压缩

混合精度量化(Mixed-Precision Quantization)

类似于:7b-qwen-distill-q4_K_M

​ q4中 q代表量化,4个bit存储

蒸馏技术

蒸馏是一种将大模型(教师模型)的知识迁移到小模型(学生模型)的技术。通过模仿教师模型的输出,学生模型可以在保持较高性能的同时,显著减少参数量和计算复杂度。

蒸馏方法
1.软标签蒸馏:使用教师模型输出的概率分布(软标签)作为学生模型的训练目标,而不是硬标签(如类别标签)。
2.特征蒸馏:让学生模型模仿教师模型的中间层特征表示,而不仅仅是输出层。
3.自蒸馏:使用同一个模型的不同部分进行知识迁移,通常用于模型压缩。

蒸馏优势:
1.学生模型通常比教师模型更小、更快,适合在资源受限的环境中部署。
2.学生模型可以通过模仿教师模型的行为,获得与教师模型相近的性能。

蒸馏挑战
1.学生模型的能力有限,可能无法完全模仿教师模型的所有行为。
2.蒸馏过程需要精心设计,以确保学生模型能够有效学习教师模型的知识。

NLP(自然语言处理)中有一种叫软蒸馏(知识蒸馏),例子:老师叫学生拆概率

Transformer原理:学习人类语言序列,苹果是( ) ? 甜的、红的 , 不断预测下一个词出现的概率

Transformer 的核心思想是完全依赖注意力机制,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构

让小模型模仿大模型的输出概率分布

token 词表每一家厂商都不同,软蒸馏做不了,大语言 时代是硬蒸馏(SFT),类似于直接拿着教师模型的回答去微调小模型

DeepSeek的知识蒸馏

DeepSeek热潮后的新路径

总结
量化与蒸馏是两种重要的模型压缩与优化技术,能够帮助大模型在资源受限的环境中高效运行。
量化通过降低数值精度来减少模型大小和计算复杂度,而蒸馏通过知识迁移将大模型压缩为小模型。
结合使用量化与蒸馏,可以进一步优化模型,使其在保持高性能的同时,适应更多的应用场景。

SuperModel 经过 SFT 量化到企业垂直领域(比如说金融)就只有32b(66GB),之后进行量化到Int4版本后只剩32b(20GB)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/898113.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NocoBase 本周更新汇总:双因素身份认证(2FA)

本周更新包括:兼容历史按钮配置按钮权限,AI 集成插件等。原文链接:https://www.nocobase.com/cn/blog/weekly-updates-202503013 汇总一周产品更新日志,最新发布可以前往我们的博客查看。 本周我们发布了 NocoBase 1.6.0 版本,带来集群模式部署、安全策略优化和迁移管理等…

网站开发(1)**基础工具**

使用html、css和javascript进行网站前端开发,使用MySQL、java进行后端开发。 项目工程不算太大,使用VSCode进行编辑和管理。 **安装插件** 在VSCode中安装实时服务器插件:安装成功后,只需要对我们正在编写的html文件右键,选择“Open with Live Server”,然后选择指定浏览…

高密度SNP芯片/Flowcell加工工艺路线-芯晨微纳(河南)-专注于河南郑州激光代加工

★★★文章来源 网络、新闻采访、专利等公开信息,仅用于学习 文章由芯晨微纳(河南)光电科技有限公司搜集整理

使用MMSeg1.2.2进行可视化

1. 对image进行预测和mask进行可视化 1.1 使用mmsegmentation/tools/analysis_tools/feature_map_visual.py进行推理: 编写脚本进行可视化推理,需要打开wandb(详情可见MMSeg官方手册),输入格式为python feature_map_visual.py \ (imaeg_path) \ (configs_path) \ (checkpo…

四代固态纳米孔测序芯片/Flowcell加工工艺路线/厂家调研-芯晨微纳(河南)-专注于河南郑州激光代加工

纳米孔测序(Nanopore Sequencing)是一种基于单分子检测的第三代测序技术,其核心原理是通过纳米孔结构实时监测分子(如DNA、RNA)通过孔道时引起的电信号变化,从而实现碱基序列的识别。与传统的测序技术(如Illumina的合成测序)相比,纳米孔测序具有长读长、实时分析、无需…

gdb调试汇编

首先是函数传参, 先说下edi esi edx ecx 和 rdi rsi rdx rcx的关系 正常的centos x86的架构, 函数的前6个参数一般是用着几个寄存器存储的 edi esi edx ecx r8 r9(也可能是rdi rsi rdx rcx r8 r9),从左依次往右 第7个参数以后,就放在栈上了,也就是通过栈传递,每个参数…

【每日一题】20250313

【每日一题】如图所示,足够长平行金属导轨倾斜放置,倾角为 \(37^{\circ}\),宽度为 \(0.5 \; \mathrm{m}\),电阻忽略不计,其上端接一小灯泡,电阻为 \(1 \; \Omega\).一导体棒 \(MN\) 垂直于导轨放置,质量为 \(0.2 \; \mathrm{ kg }\),接入电路的电阻为 \(1 \; \Omega\)…

如何在VMWare Workstation中为桌面操作系统设置固定的显示分辨率

在虚拟中安装Linux操作系统后进入桌面环境后分辨率会自动拉伸变化,有时候可能不符合使用者的习惯,我们可以先关闭操作系统(必须先关闭操作系统否则不允许设置)然后鼠标右键点击已经安装的操作系统打开设置界面。   在系统设置界面中的《硬件》选项卡中选择点击《显示器》…

ABB IRB6660机器人伺服电机维修

常见故障及原因1. 电机故障 - 过载:当负载超过额定电机负载时触发,例如在搬运超过机器人承载能力的重物时,可能会导致电机过载。 - 高温:长时间运行或散热不良会使电机温度升高,如散热风扇损坏或者工作环境温度过高。 - 绝缘老化:随着使用时间增长,电机的绝缘材料…

四代固态纳米孔测序芯片/Flowcell加工工艺

固态纳米孔测序芯片是一种基于固态材料(如氮化硅、二氧化硅、石墨烯等)制备的纳米孔器件,用于单分子检测(如DNA、RNA、蛋白质等)。其加工工艺涉及微纳制造技术、材料科学和生物工程的交叉领域。以下是其核心加工工艺及关键步骤: 固态纳米孔测序芯片是一种基于固态材料(如…

SNeP1.1 Segmentation fault (core dumped) 段错误

001、问题 002、问题原因:ped文件用tab分割[b20223040323@admin2 test5]$ ls outcome.map outcome.ped step1.slurm [b20223040323@admin2 test5]$ head outcome.ped | cut -f 1-8 GMM1 GMM1 0 0 0 -9 A G G C GMM2 GMM2 0 …

[I.2][个人作业 软件案例分析]

[I.2]个人作业 软件案例分析 我选择QQ音乐作为调研目标 第一部分 软件调研评测 软件使用的图片软件分析使用QQ音乐主要有三种方式,一种是已知目标音乐在搜索框中直接输入进行搜索,第二种是目标音乐在播放但是不知道名字,可以使用听歌识曲的功能,第三种是可以选择根据风格进…