【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题-编程知识

【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题

FesianXu 20231001 at Baidu Search Team

前言

论文[1]报告了多模态LLM中遇到的灾难性遗忘问题，并且提出了一种评估其程度的方法EMT，本文简要介绍，希望对读者有所帮助。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。

$\nabla$ 联系方式：

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号：机器学习杂货铺3号店

灾难性遗忘（Catastrophic forgetting）是在深度学习领域的一个概念，指的是模型在学习一个新目标的时候，对热启模型信息忘却的一个现象，比如在采用预训练模型作为热启，对模型进行微调导致模型对预训练模型信息的忘却。论文[1]报告了在多模态大规模语言模型（Multimodal Large Language Model, MLLM）中遇到的灾难性遗忘现象。通常来说，MLLM的视觉信息部分由视觉编码器（如ViT、Resnet等）组成，作者在论文中发现MLLM的图片分类能力对比原视觉编码器而言，会出现分类性能的下降，而在对MLLM进行微调后，发现会出现灾难性遗忘，作者提出一个称之为EMT的框架去评估（取名得纯纯二次元呢:P）。

所谓的EMT（Evaluating MulTimodality），如Fig 1.所示，首先输入待评估图片和prompt，让MLLM去对图片类别进行预测，由于LLM是生成式模型，其输出格式具有一定的不可控性，这意味着其预测输出和真实label之间可能是语义相同（semantic match）的，但是字面上却不匹配（lexical mismatch），因此在下游接入另一个LLM（比如GPT 3.5 turbo）进行预测结果的评估。
emt-framework

Fig 1. EMT的框架示意图。

通过这种方法，作者评估了LLaVA-7b、LLaVA13b与其视觉编码器CLIP的性能差异，见Fig 2. (a)，同样的，作者也评估了LENS与openCLIP，InstructBLIP 7b、InstructBLIP 13b与openCLIP性能的差别，在各个图像分类测试集中结果绘制成玫瑰图，如Fig 2.所示。不难发现，绝大部分情况下MLLM的视觉分类能力都弱与其原生采用的视觉编码器CLIP，只有在ViT-g-14上的CIFAR-10数据上有所特殊。当然，这个可能和作者采用的prompt也有很大关系，众所周知，prompt模板的好坏对LLM的性能影响很大，这一点在之前的博文 [2] 中也曾经讨论过。
mllm-vision-worser-than-baseline

Fig 2. MLLM的视觉分类能力比其采用的图像编码器的分类能力更弱。

作者认为其性能下降主要有以下三种情况：预测错误（incorrect prediction），内部幻觉（intrinsic hallucination），外部幻觉（extrinsic hallucination），如下所示，具体细节请参考原论文。
emt-degrade-types
为何会产生性能下降呢？一个直接的想法就是，视觉语义和LLM的文本语义未完全对齐，导致对LLM的提问不能从知识库中检索出来（笔者：当然也不能排除prompt不合适的原因）。这点容易理解，假如视觉语义和文本语义已经对齐，那么对MLLM的提问，其实本质上就是在prompt中指定的若干个类别中检索一个语义最为接近的类别进行返回，如果没对齐，那么就会预测错误，如果LLM没能充分理解prompt的语义，则会出现幻觉。基于这种想法，可以对MLLM进行微调以更好地对齐多模语义，或者让LLM理解prompt语义，这种微调可以有几种，比如LoRA，Linear适配，prompt tuning，P-Tuning等，本文作者采用了LoRA和Linear适配。

LoRA，采用Low Rank技术增加一些低秩矩阵参数，具体可见 [3]。
Linear适配，在视觉编码向量 $Z_v$ 后新增一个线性投影层，得到 $H_v = \mathbf{W} \cdot Z_v$ 作为输入到MLLM的视觉特征。

如Fig 3.所示，作者用LLaVA 6b和13b在不同数据集上进行微调了3个epoch，然后在其他数据集上进行测试，绘制出玫瑰图。不难发现大部分出现了灾难性遗忘情况（基线为7b-v0和13b-v0），也即是在某个数据集上微调在其他测试集上测试，其结果甚至远远低于基线，特别是采用lora微调的遗忘情况比linear适配的更为严重。由于LoRA会对LLM本身参数进行更新（低秩矩阵参数也是LLM的一部分），而Linear适配只是对视觉语义和文本语义进行对齐，因此猜测是对LLM的不当微调更容易导致幻觉。
emt-finetune

Fig 3. LLaVA 6b和13b下微调了3个epoch，采用LoRA和Linear适配的结果对比，可以发现都出现了过拟合情况。

当然，3个epoch的微调可能对于MLLM来说太多了，作者同样对epoch的数量进行了探索，如Fig 4.所示，（a）是Linear适配而（b）是同时更新Linear适配层和LoRA参数。有几点观察：

在只对Linear适配层进行更新的配置下，少量的微调（比如一个epoch内）能帮助视觉和文本语义的对齐。
采用Linear和LoRA同时更新的结果，其灾难性遗忘现象严重，对LLM层参数的不当更新会导致严重的幻觉。
微调数据集足够多样化能够帮助减缓灾难性遗忘，这一点可从Fig 4. （a）的在CIFAR 10、CIFAR 100数据集上的微调结果中看出来。

因此，在期望对MLLM进行微调的时候其下游数据集需要进行精心设计，尽可能保证微调数据集的多样性，并且微调方式也需要多考虑，尽可能不要碰LLM的原先参数，笔者觉得也许Prompt Tuning会是一个更好的方式，可以结合Linear适配和Prompt Tuning进行微调的实验尝试。我们就当LLM通过大规模的预训练已经语义完备了，MLLM的语义对齐就交给视觉端进行吧，其实理论上说，语义对齐这个能力应该交给上游的CLIP对比学习完成，但是可能出现语义漂移，因此适当的下游任务语义对齐也是必要的。
emt-finetune-epoch

Fig 4 采用了不同epoch数量的测试结果，同时作者对比了（a）线性适配和（b）同时更新线性适配层和LoRA参数。

Reference

[1]. Zhai, Yuexiang, et al. “Investigating the Catastrophic Forgetting in Multimodal Large Language Models.” arXiv preprint arXiv:2309.10313 (2023).

[2]. https://blog.csdn.net/LoseInVain/article/details/133385359, 《【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式》

[3]. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021