文献阅读：LESS: Selecting Influential Data for Targeted Instruction Tuning-编程知识

文献阅读：LESS: Selecting Influential Data for Targeted Instruction Tuning
- 1. 文章简介
- 2. 方法介绍
  - 1. Overview
  - 2. 原理说明
    - 1. SGD上的定义
    - 2. Adam上的定义
  - 3. 具体实现
    - 1. Overview
    - 1. LoRA使用
    - 2. 数据选择
    - 3. LESS-T
- 3. 实验考察 & 结论
  - 1. 实验设计
  - 2. 主要结果
  - 3. 细节讨论
    - 1. 计算复杂度分析
    - 2. warmup是否必要
    - 3. checkpoint的影响（N的影响）
    - 4. LoRA Dimension的影响
- 4. 总结 & 思考

文献链接：https://arxiv.org/abs/2402.04333
Github链接：https://github.com/princeton-nlp/LESS

1. 文章简介

这篇文章是陈丹琦大佬在今天二月给出的关于LLM Tuning的一篇新作。

这篇文章同样是一篇比较fundamental的基础研究工作，考察的是LLM训练，或者说任意模型训练时如何最优化的选择训练数据，从而在尽可能不损失模型性能的情况下，最优化模型训练的效率，使得模型收敛的又快又好。

相似的工作之前有主动学习相关的一系列工作，这里倒是有些区别，因为主动学习感觉还是对于未标注数据进行最优化的选取，但是这里的LESS方法感觉还是在已有的标注数据当中选取一个子集，使得模型获得足量且优秀的训练结果。

下面，我们就来看看文中给出的具体实现方法和对应的实验考察。

2. 方法介绍

1. Overview

首先，我们来看一下LESS的整体的原理说明和实现。

LESS的全程的话是Low-rank gradiEnt Similarity Search，其整体的思路的话其实还是比较直接的，就是通过数据在模型进行反向传播时产生的梯度大小来判断数据对于模型训练的影响程度，然后选择最有影响的这部分数据来进行模型finetune即可。

但是，这里会涉及到几个问题：

具体定义上的问题，即如何判断数据对于模型训练的影响程度大小；
对每一个数据都进行反向传播进行判断的话，基本也就等于跑完一个epoch了，这种效率的话就有点舍本逐末了，因此，需要考察一下如何对效率进行优化。

下面，我们就来看一下文中对于这两个问题的处理。

2. 原理说明

首先，我们来看一下文中是如何来定义一条数据对于模型训练影响的大小的。

1. SGD上的定义

首先，文中在SGD上面进行了一下简单的考察，显然，对于一步训练前后，我们可以将其在测试集上的变化一阶泰勒展开得到：

$\theta^{t+1}) = l(z'; \theta^{t}) + \langle \nabla l(z'; \theta^{t}), \theta^{t+1} - \theta^{t} \rangle$

其中，参数的改变量则有可以通过训练过程中的一轮参数迭代过程来表达，即：

$\theta^{t+1} - \theta^{t} = -\eta_t \nabla l(z; \theta^t)$

此时，我们即可得到测试集上一轮迭代测试集上loss的变化大小可以写为：

$\theta^{t+1}) - l(z'; \theta^{t}) = -\eta_t \cdot \langle \nabla l(z'; \theta^{t}), \nabla l(z; \theta^t) \rangle$

因此，我们就可以定义某一条训练数据对于某一条测试数据在N轮训练当中的影响程度如下：

$\begin{aligned} \mathop{Inf}_{SGD} (z, z') &= \sum\limits_{t=0}^{N-1} l(z'; \theta^{t}) - l(z'; \theta^{t+1}) \\ &= \sum\limits_{t=0}^{N-1} \eta_t \cdot \langle \nabla l(z'; \theta^{t}), \nabla l(z; \theta^t) \rangle \end{aligned}$

2. Adam上的定义

但是，在我们当前的训练过程中，我们更常使用的优化器并不是SGD而是Adam，因此，文中对Adam优化器的情况进行了一下调整。

文中首先回顾了一下Adam优化器的计算：

$\theta^{t+1} - \theta^{t} = -\eta_t \Gamma (z; \theta^t) \\ \Gamma (z; \theta^t) = \frac{m^{t+1}}{\sqrt{v^{t+1} + \epsilon}} \\ m^{t+1} = \frac{\beta_1 m^t + (1-\beta_1) \nabla l(z; \theta^t)}{1-\beta_{1}^{t}} \\ v^{t+1} = \frac{\beta_2 v^t + (1-\beta_2) \nabla l(z; \theta^t)^2}{1-\beta_{2}^{t}}$

因此，我们可以很直接地将influence的定义迁移至Adam优化器上，得到：

$\mathop{Inf}_{Adam} (z, z') = \sum\limits_{t=0}^{N-1} l(z'; \theta^{t}) - l(z'; \theta^{t+1}) = \sum\limits_{t=0}^{N-1} \eta_t \cdot \langle \nabla l(z'; \theta^{t}), \Gamma (z; \theta^t) \rangle$

不过实际发现模型的参数梯度与文本长度强相关：

在这里插入图片描述

这就导致直接迁移上述定义公式会使得数据选择明显趋于短文本，因此文中对其进行了一下修正，将其加入了一下归一化因子，最终得到定义式如下：

$\mathop{Inf}_{Adam} (z, z') = \sum\limits_{t=0}^{N-1} \eta_t \cdot \frac{\langle \nabla l(z'; \theta^{t}), \Gamma (z; \theta^t) \rangle}{\lVert \nabla l(z'; \theta^{t}) \rVert \cdot \lVert \Gamma (z; \theta^t) \rVert}$

3. 具体实现

1. Overview

有了上述影响程度的定义之后，文中就可以根据上述influence的大小进行数据选择策略了，具体来说的话，就是：

在训练集上进行少量的tuning作为warmup，然后在验证集上计算所有训练数据当中的influence，最后挑选出影响因子最大的数据进行模型训练。

但是，如果直接使用LLM进行warmup然后进行上述定义下的influence计算时，可以想见其计算量必然极其巨大，和我们最终优化训练效率的目的显然是南辕北辙的，因此，我们必须要优化一下这里的计算效率，具体来说的话，文中就是通过引入LoRA的方法减少总的参数量，然后进行数据的选择。

因此，总的pipeline示意图如下：

在这里插入图片描述

下面，我们就来看看LoRA训练和数据选择的具体细节。

1. LoRA使用

首先的话，文中使用了LoRA来进行模型的finetune，这是因为模型本身的参数量太大了，常规的像是Llama这些都至少有着6B左右的参数量，更别说那些更大的模型了，使用全部参数finetune然后反向推导influence显然成本太大了，典型的舍本逐末，因此，这里使用LoRA进行模型的finetune，可以大幅减少模型的计算量。

2. 数据选择

然后，关于数据选择的部分，文中就是使用上述原理说明部分的内容进行数据选择，具体来说的话就是先使用少量训练数据进行一下warmup，然后使用少部分测试集来计算每一条数据对于模型的影响大小，然后选择出影响最大的几条数据即可。

对应的公式如下：

$\mathop{Inf}_{Adam} (z, D_{val}) = \sum\limits_{t=0}^{N-1} \eta_t \cdot \frac{\langle \nabla l(D_{val}; \theta^{t}), \Gamma (z; \theta^t) \rangle}{\lVert \nabla l(D_{val}; \theta^{t}) \rVert \cdot \lVert \Gamma (z; \theta^t) \rVert}$