数据蒸馏论文阅读-编程知识

数据蒸馏论文阅读

news/2025/3/6 21:34:48/文章来源:https://www.cnblogs.com/mianmaner/p/18756538

Dataset Distillation

18年的论文，最早提出数据蒸馏的概念

理论

通常的梯度下降是小批量的 SGD，每次都需要从训练数据中选一个 minibatch 来更新。这篇文章的重点是学习到一个合成数据 \(\hat x=\{\hat x_i\}_{i=1}^M\) 和学习率 \(\hat \eta\)，这样我们就可以固定梯度下降的函数，不需要选择 minibatch

方法是先给定一个初始参数，最小化以下目标函数来获得合成数据集和学习率

初始参数设定

随机初始化、固定初始化、随机预训练参数、固定预训练参数

Dataset Condensation with Gradient Matching（DC）

首次提出通过梯度匹配策略来蒸馏数据集

本文希望学习一个带有参数 \(\theta\) 的可微函数 \(\phi\)（如深度神经网络），以正确预测未知图像的标签，可以通过最小化训练集中的经验损失项来学习此函数的参数

理论

需要实现一样的泛化性能，就要实现参数 \(\theta^S\) 和 \(\theta^L\) 是相近的。这里提出了一个基于梯度匹配的方法，不仅希望最终参数接近，而且在整个优化过程遵循相似的路径

主要目标函数是让每一层的梯度函数距离函数（这里其实就是用两个向量的夹角余弦来距离）

\[d(A,B)=\sum_{i=1}^{out}(1-\frac{A_i\cdot B_i}{||A_i||||B_I||}) \]

Dataset Condensation with Differentiable Siamese Augmentation（DSA）

主要思路是将真实数据与合成数据使用相同的转换策略，通过数据增强将增强的知识转移到合成图像中（很棒的一个想法）

在学习合成图像的同时应用数据增强，这可以通过重写该式来制定

（其中 \(A\) 表示一系列图像变换，\(\omega^S\) 和 \(\omega^T\) 表示合成和真实数据的变换参数）

Siamese Augmentation

随机采样 \(\omega^S\) 和 \(\omega^T\) 没有意义，这会导致不同区域梯度匹配，造成信息丢失。为了解决这个问题，本文在合成和真实数据集中使用相同的变换，即 \(\omega^S=\omega^T\)

由于两个集合具有不同数量的图像 \(S\ll T\)，并且它们之间没有一对一的对应关系，本文随机采样单个变换 \(\omega\)，并在每次训练迭代时将其应用于小批量对中的所有图像

Differentiable Augmentation

求解式 (3)，对于S 通过反向传播计算合成图像的匹配损失 D 的梯度，所以合成图像 S 的变换 A 必须可微

Dataset Condensation with Distribution Matching

理论

我们将训练数据记为 \(x\in R^d\)，并且可以被编码到一个低维空间，通过函数 \(\phi_\theta:R^d\rightarrow R^{d'}\)，其中 \(d'\ll d\)， \(\theta\) 是函数的参数数值。换句话说，每个embedding 函数\(\phi\) 可以被视为提供其输入的部分解释，而它们的组合则提供完整的解释

现在我们可以使用常用的最大平均差异（\(MMD\)）来估计真实数据分布和合成数据分布之间的距离