【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题

【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题
FesianXu 20231001 at Baidu Search Team

前言

论文[1]报告了多模态LLM中遇到的灾难性遗忘问题,并且提出了一种评估其程度的方法EMT,本文简要介绍,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。

∇ \nabla 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号:机器学习杂货铺3号店


灾难性遗忘(Catastrophic forgetting)是在深度学习领域的一个概念,指的是模型在学习一个新目标的时候,对热启模型信息忘却的一个现象,比如在采用预训练模型作为热启,对模型进行微调导致模型对预训练模型信息的忘却。论文[1]报告了在多模态大规模语言模型(Multimodal Large Language Model, MLLM)中遇到的灾难性遗忘现象。通常来说,MLLM的视觉信息部分由视觉编码器(如ViT、Resnet等)组成,作者在论文中发现MLLM的图片分类能力对比原视觉编码器而言,会出现分类性能的下降,而在对MLLM进行微调后,发现会出现灾难性遗忘,作者提出一个称之为EMT的框架去评估(取名得纯纯二次元呢:P)。

所谓的EMT(Evaluating MulTimodality),如Fig 1.所示,首先输入待评估图片和prompt,让MLLM去对图片类别进行预测,由于LLM是生成式模型,其输出格式具有一定的不可控性,这意味着其预测输出和真实label之间可能是语义相同(semantic match)的,但是字面上却不匹配(lexical mismatch),因此在下游接入另一个LLM(比如GPT 3.5 turbo)进行预测结果的评估。
emt-framework

Fig 1. EMT的框架示意图。

通过这种方法,作者评估了LLaVA-7b、LLaVA13b与其视觉编码器CLIP的性能差异,见Fig 2. (a),同样的,作者也评估了LENS与openCLIP,InstructBLIP 7b、InstructBLIP 13b与openCLIP性能的差别,在各个图像分类测试集中结果绘制成玫瑰图,如Fig 2.所示。不难发现,绝大部分情况下MLLM的视觉分类能力都弱与其原生采用的视觉编码器CLIP,只有在ViT-g-14上的CIFAR-10数据上有所特殊。当然,这个可能和作者采用的prompt也有很大关系,众所周知,prompt模板的好坏对LLM的性能影响很大,这一点在之前的博文 [2] 中也曾经讨论过。
mllm-vision-worser-than-baseline

Fig 2. MLLM的视觉分类能力比其采用的图像编码器的分类能力更弱。

作者认为其性能下降主要有以下三种情况:预测错误(incorrect prediction),内部幻觉(intrinsic hallucination),外部幻觉(extrinsic hallucination),如下所示,具体细节请参考原论文。
emt-degrade-types
为何会产生性能下降呢?一个直接的想法就是,视觉语义和LLM的文本语义未完全对齐,导致对LLM的提问不能从知识库中检索出来(笔者:当然也不能排除prompt不合适的原因)。这点容易理解,假如视觉语义和文本语义已经对齐,那么对MLLM的提问,其实本质上就是在prompt中指定的若干个类别中检索一个语义最为接近的类别进行返回,如果没对齐,那么就会预测错误,如果LLM没能充分理解prompt的语义,则会出现幻觉。基于这种想法,可以对MLLM进行微调以更好地对齐多模语义,或者让LLM理解prompt语义,这种微调可以有几种,比如LoRA,Linear适配,prompt tuning,P-Tuning等,本文作者采用了LoRA和Linear适配。

  1. LoRA,采用Low Rank技术增加一些低秩矩阵参数,具体可见 [3]。
  2. Linear适配,在视觉编码向量 Z v Z_v Zv后新增一个线性投影层,得到 H v = W ⋅ Z v H_v = \mathbf{W} \cdot Z_v Hv=WZv作为输入到MLLM的视觉特征。

如Fig 3.所示,作者用LLaVA 6b和13b在不同数据集上进行微调了3个epoch,然后在其他数据集上进行测试,绘制出玫瑰图。不难发现大部分出现了灾难性遗忘情况(基线为7b-v0和13b-v0),也即是在某个数据集上微调在其他测试集上测试,其结果甚至远远低于基线,特别是采用lora微调的遗忘情况比linear适配的更为严重。由于LoRA会对LLM本身参数进行更新(低秩矩阵参数也是LLM的一部分),而Linear适配只是对视觉语义和文本语义进行对齐,因此猜测是对LLM的不当微调更容易导致幻觉。
emt-finetune

Fig 3. LLaVA 6b和13b下微调了3个epoch,采用LoRA和Linear适配的结果对比,可以发现都出现了过拟合情况。

当然,3个epoch的微调可能对于MLLM来说太多了,作者同样对epoch的数量进行了探索,如Fig 4.所示,(a)是Linear适配而(b)是同时更新Linear适配层和LoRA参数。有几点观察:

  1. 在只对Linear适配层进行更新的配置下,少量的微调(比如一个epoch内)能帮助视觉和文本语义的对齐。
  2. 采用Linear和LoRA同时更新的结果,其灾难性遗忘现象严重,对LLM层参数的不当更新会导致严重的幻觉。
  3. 微调数据集足够多样化能够帮助减缓灾难性遗忘,这一点可从Fig 4. (a)的在CIFAR 10、CIFAR 100数据集上的微调结果中看出来。

因此,在期望对MLLM进行微调的时候其下游数据集需要进行精心设计,尽可能保证微调数据集的多样性,并且微调方式也需要多考虑,尽可能不要碰LLM的原先参数,笔者觉得也许Prompt Tuning会是一个更好的方式,可以结合Linear适配和Prompt Tuning进行微调的实验尝试。我们就当LLM通过大规模的预训练已经语义完备了,MLLM的语义对齐就交给视觉端进行吧,其实理论上说,语义对齐这个能力应该交给上游的CLIP对比学习完成,但是可能出现语义漂移,因此适当的下游任务语义对齐也是必要的。
emt-finetune-epoch

Fig 4 采用了不同epoch数量的测试结果,同时作者对比了(a)线性适配和(b)同时更新线性适配层和LoRA参数。

Reference

[1]. Zhai, Yuexiang, et al. “Investigating the Catastrophic Forgetting in Multimodal Large Language Models.” arXiv preprint arXiv:2309.10313 (2023).

[2]. https://blog.csdn.net/LoseInVain/article/details/133385359, 《【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式》

[3]. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/126837.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从哈希表到红黑树:探讨 epoll 是如何管理事件的?

一、引言 在计算机领域,事件通知是一种重要的机制,用于监视和响应各种事件,例如网络连接、文件IO、定时器等。随着计算机应用变得越来越复杂,对于高性能事件通知机制的需求也越来越迫切。传统的事件通知机制可能存在效率低下的问…

[架构之路-232]:目标系统 - 纵向分层 - 操作系统 - 数据存储:文件系统存储方法汇总

目录 前言: 一、文件系统存储方法基本原理和常见应用案例: 二、Windows FAT文件系统 2.1 概述 三、Linux EXT文件系统 3.1 基本原理 3.2 索引节点表(Inode Table) 3.2.1 索引节点表层次结构 3.2.2 间接索引表的大小和表项…

Java卷上天,可以转行干什么?

小刚是某名企里的一位有5年经验的高级Java开发工程师,每天沉重的的工作让他疲惫不堪,让他萌生出想换工作的心理,但是转行其他工作他又不清楚该找什么样的工作 因为JAVA 这几年的更新实在是太太太……快了,JAVA 8 都还没用多久&am…

鄙视测试,理解测试,成为测试

首先,其实题主的问题还是很实诚的,我刚开始做测试的时候其实也是这个心态,想转开发,也学习了很多的语言,个人觉得这是职业危机感的表现,挺好的,也相信题主不管去做开发和测试都会去不断的学习和…

SAP从入门到放弃系列之QM目录类别、代码组、选择集维护

目录 一、概念相关内容1.1 目录类别1.2 代码组和代码1.3 选择集和选择集代码 二、系统操作相关内容 一、概念相关内容 1.1 目录类别 目录类别是对定性数据的一种归纳,描述了业务的主题。根据PA的教材中表述,目录类型 0 - 9 和 A - O 由 SAP 定义&#…

深入浅出的介绍一下虚拟机VMware Workstation——part1

目录 VMware Workstation说明VMware Workstation的主要特点VMware Workstation安装VMware Workstation卸载 VMware Workstation说明 1、 虚拟机的软件在市面上有很多,目前功能强大且比较主流的虚拟机软件首选VMware 2、VMware是一个虚拟PC的软件,可以在…

什么是全员生产维护TPM?

在当今竞争激烈的市场环境中,企业不仅需要提高生产效率,同时也需要降低成本以保持竞争力。全员生产维护(Total Productive Maintenance,TPM)作为一种先进的生产管理方法,为企业提供了一种有效的方式来实现这…

【小沐学Python】Python实现Web图表功能(Dash)

文章目录 1、简介2、安装3、功能示例3.1 Hello World3.2 连接到数据3.3 可视化数据3.4 控件和回调3.5 设置应用的样式3.5.1 HTML and CSS3.5.2 Dash Design Kit (DDK)3.5.3 Dash Bootstrap Components3.5.4 Dash Mantine Components 4、更多示例4.1 Basic Dashboard4.2 Using C…

光伏发电预测(LSTM、CNN_LSTM和XGBoost回归模型,Python代码)

运行效果:光伏发电预测(LSTM、CNN_LSTM和XGBoost回归模型,Python代码)_哔哩哔哩_bilibili 运行环境库的版本 光伏太阳能电池通过互连形成光伏模块,以捕捉太阳光并将太阳能转化为电能。因此,当光伏模块暴露…

OpenCV4(C++) —— 图像数据类型转换和颜色模型转换

文章目录 一、图像数据类型转换二、颜色模型转换三、通道的分离和融合 一、图像数据类型转换 OpenCV中使用imread读取一张彩色图像时,默认采用的是BGR通道和整数类型(0-255,CV_8U)。 在某些情况下,会将整数类型(0-255)转换为浮点类型(0-1)&a…

VUE3技术报告

文章目录 node和webstorm基本概念1. Node.js2. npm3.Webpack4. Vue webstorm创建vue项目1. 通过npx create-vue创建vue项目2. 通过npx --package vue/cli vue创建vue项目 VUE3起步-创建应用-挂载应用1. createApp 创建函数&mount挂载应用2. 创建应用中的data选项3. methods…

docker搭建Jenkins及基本使用

1. 搭建 查询镜像 docker search jenkins下载镜像 docker pull jenkins/jenkins启动容器 #创建文件夹 mkdir -p /home/jenkins_home #权限 chmod 777 /home/jenkins_home #启动Jenkins docker run -d -uroot -p 9095:8080 -p 50000:50000 --name jenkins -v /home/jenkins_home…