深度学习模型优化杂谈-编程知识

深度学习模型优化杂谈

news/2025/1/20 13:24:46/文章来源:https://www.cnblogs.com/wujianming-110117/p/18392040

深度学习模型优化概述

模型压缩跟轻量化网络模型不同，压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段，使得模型更加小、更加轻便、更加利于执行。

基本介绍

随着神经网络模型的复杂性和规模不断增加，模型对存储空间和计算资源的需求越来越多，使得部署和运行成本显著上升。模型压缩的目标是通过减少模型的存储空间、减少计算量或提高模型的计算效率，从而在保持模型性能的同时，降低模型部署的成本。模型压缩的目标可以概括为以下几点：

1） 减少模型显存占用：通过压缩模型参数或使用更高效的表示方式，可以显著减少模型所需的存储空间，从而降低模型在部署和执行过程中的存储成本。

2）加快推理速度：通过减少模型计算过程中的乘法和加法操作，可以降低模型的计算开销，达到模型运算加速的目的。

3）减少精度损失：在模型压缩过程中，尽可能地减小对模型性能的影响，保持模型在

任务上的精度损失最小化。这需要在压缩技术选择和参数调优过程中进行细致的权衡和实验验证，确保模型在压缩后仍能够保持较高的性能水平。

1. 模型压缩四件套

模型压缩的目标是降低表示、计算权重和中间激活的成本，这些成本占模型成本的大部分。根据如何降低权重和激活成本对模型压缩算法进行分类，有如下四大类别：

1）模型量化（Quantization）：通过减少模型参数的表示精度，来降低模型的存储空

间和计算复杂度。

2） 参数剪枝（Pruning）：通过删除模型中的不重要连接或参数，来减少模型的大小和计算量。

3） 知识蒸馏（Knowledge Distillation）：指通过构建一个轻量化的小模型（学生模型），利用性能更好教师模型的信息来监督训练学生模型，以期达到更好的性能和精度。

4） 低秩分解（low-rank factorization）：通过将模型中具体执行计算的矩阵分解为

低秩的子矩阵，从而减少模型参数的数量和计算复杂度。低秩分解中，矩阵被分解为两个或多个低秩矩阵的乘积形式。

此外，模型压缩算法分为低成本和高成本算法，与上述分类标准无关。高成本的压缩算法需要基于大型数据集进行再训练过程。因此，它们可以生成更准确的压缩模型，但需要更多的时间来压缩模型。另一方面，低成本压缩算法仅基于少量校准数据执行简单的权重调整过程，但是需要注意可能的精度损失，因此训练后量化是常用的低成本压缩算法。

2. 模型压缩流程

如图7-1所示，模型压缩通常处于机器学习模型训练和生产部署之间的阶段。它在模型训练完成后，准备将模型部署到目标环境之前进行。

图7-1 模型压缩流程

3. 模型压缩应用场景

模型压缩技术在许多应用场景中都有广泛的应用，特别是在资源受限的环境下或对模型性能要求较高的场景。以下是一些常见的模型压缩应用场景：

1）移动端应用：在移动设备上部署神经网络模型时，由于存储空间和计算资源的限制，模型压缩变得至关重要。模型压缩可以使得模型在移动设备上运行更加高效，并降低对设备资源的消耗，从而实现更好的用户体验。

2）物联网设备：在物联网（IoT）领域，许多设备的存储和计算资源极为有限。模型压缩可以帮助将神经网络模型部署到这些设备上，并在保持模型性能的同时减少资源消耗。

3）在线模型服务系统：在推荐、搜索等在线系统中，模型需要实时地处理大量的用户数据，模型压缩可以提高系统的响应速度和吞吐量，从而改善用户体验并降低系统的成本。

4）大模型压缩：大语言模型通常具有数以亿计的参数和复杂的网络结构，对存储空间和计算资源要求巨大。通过模型压缩技术，可以将大模型压缩为更小、更高效的版本，以适应资源受限的部署环境，并在保持模型性能的同时降低计算成本。

5）自动驾驶：在自动驾驶领域，由于对实时性能和计算资源的要求，模型压缩可以帮助优化神经网络模型以适应相应的场景。

低比特量化方法

计算机里面数值有很多种表示方式，如浮点表示的 FP32、FP16，整数表示的 INT32、INT16、INT8，量化一般是将 FP32、FP16 降低为 INT8 甚至 INT4 等低比特表示，如图7-2所示。

图7-2 数值有很多种表示格式

模型量化则是一种将浮点值映射到低比特离散值的技术，可以有效的减少模型的参数大小、内存消耗和推理延迟，但往往带来较大的精度损失。尤其是在极低比特（<4bit）、二值网络（1bit）、甚至将梯度进行量化时，带来的精度挑战更大。本节将会重点讲解低比特量化的通用基本原理。

神经网络特点和量化优势

1. 神经网络特点

低比特量化主要用在推理的场景，因此以量化和推理的视角来看，神经网络一般具有以下特点：

1） 模型参数量大：神经网络模型通常具有大量的参数，特别是在深度神经网络中，参数数量可能非常庞大。这导致了存储这些参数所需的空间也很大。

2） 计算量大：神经网络的推理阶段通常需要大量的计算资源，尤其是在深度神经网

络中，包含大量的矩阵乘法和非线性激活函数等操作。这些计算量大大增加了模型在实际部署和执行过程中的成本。

3） 内存占用大：由于神经网络模型的参数量大、计算量大，因此在推理过程中需要

大量的 NPU 内存来存储模型参数、中间计算结果等。这对于嵌入式设备、移动设备等资源受限的环境来说可能是一个挑战。

4） 模型精度高：与传统的机器学习模型相比，神经网络模型通常具有较高的精度和

表现能力。这使得在量化过程中需要考虑如何在减小模型尺寸和计算成本的同时，尽量保持模型的精度和性能。

部署神经网络时，希望网络越小越好，来降低部署成本，于是就需要模型量化等压缩手段。

2. 模型量化优点

通过对神经网络模型进行合理的量化，可以实现以下优势：

1） 加速计算：传统的卷积操作都是使用 FP32 浮点，低比特的位数减少少计算性能也更高，INT8 相对比 FP32 的加速比可达到 3 倍甚至更高。

2） 保持精度：量化会损失精度，这相当于给网络引入了噪声，但是神经网络一般对噪声是不太敏感的，只要控制好量化的程度，对高级任务精度影响可以做到很小。

3） 节省内存：与 FP32 类型相比，FP16、INT8、INT4 低精度类型所占用晶体管空间更小，对应存储空间和传输时间都可以大幅下降。

4）节能和减少芯片面积：每个数使用了更少的位数，做运算时需要搬运的数据量少

了，减少了访存开销（节能），同时 NPU 所需的乘法器数目也减少（减少芯片面积）。

总之，模型量化主要是对模型的参数进行压缩，比如 200MB 的模型压缩到 50MB，达到提升运算速度，降低内存和功耗的效果。

落地挑战与思考

在实际部署时，量化技术的落地也有一些挑战，需要综合衡量是否需要使用模型量化。

1. 精度挑战

1）量化方法的精确性：常见的量化方法如线性量化，对于数据分布的描述并不精

确。线性量化将浮点数参数转换为固定位数的整数表示，这种精度的降低可能导致模型在量化后性能下降。对于特定任务和数据分布，需要设计更准确的量化方法以最小化精度损失。

1） 低比特数的影响：将模型从高比特数（如 16 位）量化为低比特数（如 4 位）会导致更大的精度损失。随着比特数的减少，模型的表示能力下降，因此需要在精度和模型大小之间找到平衡点。

2） 任务复杂性对精度的影响：在分类、检测、识别等任务中，任务的复杂性与模型所需的表示能力密切相关。通常情况下，任务越复杂，模型对精度的要求也越高，因此在量化过程中，需要针对不同的任务类型和复杂程度进行定制化的量化策略，以最大程度地保持模型的精度。

3） 模型大小对精度的影响：模型大小与精度之间存在一种权衡关系。一般来说，模型越小，其表达能力和容纳参数的能力也越有限，因此在量化过程中，对于较小的模型，精度损失可能会更加显著。在进行模型量化时，需要综合考虑模型大小、精度要求以及实际应用场景，以确定最适合的量化策略。

2. 硬件支持程度

在模型量化落地时，硬件支持是一个至关重要的因素。不同硬件平台对于低比特量化指令的支持程度不同，这会直接影响到模型在该硬件上的性能和效率。

1） 低比特指令支持差异：不同的硬件架构对于低比特指令的支持程度有所不同。比如 NVIDIA 一些系列显卡支持 INT8张量核计算。

2） 低比特指令计算方式差异：即使硬件平台支持相同的低比特指令，不同的硬件架构可能采用不同的计算方式。例如，8bit 计算一些硬件平台可能支持 INT8 的计算，而另一些可能采用 FP8 计算。

3） 硬件体系结构的 Kernel 优化：不同硬件平台具有不同的体系结构和优化方式。针对特定硬件的优化内核，可以最大限度地利用硬件的并行计算能力和特定指令集，从而提高模型量化后的推理性能。因此，在将模型部署到特定硬件上时，需要进行相应的内核优化，以确保模型能够充分利用硬件的性能优势，如图7-3所示。

图7-3 针对特定硬件的优化内核

3. 软件算法是否能加速

在模型量化落地过程中，软件算法的加速能力是一个至关重要的考量因素。尽管软件算法的优化可以提高模型量化的执行效率，但在某些情况下，软件算法也可能对性能造成负面影响。

1） 混合比特量化的影响：对于混合比特量化（Mixed Precision Quantization）而言，需要进行量化和反向量化操作，同时可能需要插入 Cast 算子来确保数据格式一致性。这些操作会影响到 Kernel 的执行性能，尤其是在硬件平台不支持相关操作的情况下。因此，对于混合比特量化，需要进行针对性的软件算法优化，以尽量减少这些操作对执行性能的影响。

2） 运行时内存占用优化：除了模型参数量的降低外，还需要关注运行时内存占用。降低模型参数量并不一定会降低运行时内存占用，因为在推理过程中可能需要同时存储模型参数、中间计算结果等数据。因此，软件算法需要考虑如何在保持模型精度的同时，尽量减少运行时内存占用，以提高模型的执行效率。

模型参数量与内存占用的差异：模型参数量的减少并不直接意味着执行内存占用的减少。一些优化技术可能会引入额外的计算和存储开销，从而影响到运行时内存占用。因此，在进行软件算法优化时，需要综合考虑模型参数量和内存占用之间的差异，以实现最优的性能和内存占用平衡。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/790802.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！