本文是LLM系列的文章之一，主要是讲解多模态的LLM。针对《A Survey on Multimodal Large Language Models》的翻译。

多模态大语言模型的综述

摘要
1 引言
2 概述
3 方法
- 3.1 多模态指令调整
- - 3.1.1 引言
  - 3.1.2 前言
  - 3.1.3 模态对齐
  - 3.1.4 数据
  - 3.1.5 模态桥接
  - 3.1.6 评估
- 3.2 多模态上下文学习
- 3.3 多模态思维链
- - 3.3.1 模态桥接
  - 3.3.2 学习范式
  - 3.3.3 链配置
  - 3.3.4 生成模式
- 3.4 LLM辅助视觉推理
- - 3.4.1 引言
  - 3.4.2 训练范式
  - 3.4.3 函数
  - 3.4.4 评估
4 挑战与未来的方向
5 结论

摘要

多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，我们旨在追踪和总结MLLM的最新进展。首先，我们提出了MLLM的公式，并阐述了其相关概念。然后，我们讨论了关键技术和应用，包括多模式指令调整（M-IT）、多模式上下文学习（M-ICL）、多模态思想链（M-CoT）和LLM辅助视觉推理（LAVR）。最后，我们讨论了现有的挑战，并指出了有希望的研究方向。鉴于MLLM时代才刚刚开始，我们将不断更新这项调查，并希望它能启发更多的研究。收集最新论文的相关GitHub链接可在https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models.

1 引言

近年来，大型语言模型取得了显著进展。通过扩大数据大小和模型大小，这些LLM提高了惊人的涌现能力，通常包括上下文学习（ICL）、指令跟随和思想链（CoT）。尽管LLM在大多数自然语言处理（NLP）任务中表现出了令人惊讶的零/少样本推理性能，但它们天生对视觉“视而不见”，因为它们只能理解离散文本。与此同时，大型视觉基础模型在感知方面进展迅速，传统的与文本的结合更注重模态对齐和任务统一，在推理方面发展缓慢。
鉴于这种互补性，单模态LLM和视觉模型同时朝着彼此运行，最终导致了MLLM的新领域。形式上，它指的是基于LLM的模型，该模型能够接收多模态信息并对其进行推理。从发展人工通用智能的角度来看，MLLM可能比LLM向前迈出一步，原因如下：（1）MLLM更符合人类感知世界的方式。我们的人类自然地接受多感官输入，这些输入往往是互补和合作的。因此，多模态信息有望使MLLM更加智能。（2） MLLM提供了一个更用户友好的界面。得益于多模态输入的支持，用户可以以更灵活的方式与智能助手进行交互和交流。（3） MLLM是一个更全面的任务解决者。虽然LLM通常可以执行NLP任务，但MLLM通常可以支持更大范围的任务。
GPT-4因其展示的惊人例子而引发了对MLLM的研究热潮。然而，GPT-4没有打开多模态接口，到目前为止，还没有关于该模型的信息公开。尽管如此，研究界还是做出了许多努力来开发有能力的开源MLLM，并展示了一些令人惊讶的实用能力，例如基于图像编写网站代码，理解模因的深层含义，以及无OCR的数学推理。我们写这篇综述是为了让研究人员掌握MLLMs的基本思想、主要方法和当前进展。请注意，我们主要关注视觉和语言模式，但也包括涉及其他模态的工作。具体来说，我们将现有的MLLM分为四种类型，并进行相应的总结，同时打开一个实时更新的GitHub页面。据我们所知，这是关于MLLM的第一次综述。

2 概述

本文将最近具有代表性的MLLM分为四种主要类型：多模态指令调整（MIT）、多模态上下文学习（M-ICL）、多模态思想链（M-CoT）和LLM辅助视觉推理（LAVR）。前三个构成了MLLM的基本原理，而最后一个是以LLM为核心的多模态系统。请注意，这三种技术是相对独立的，并且可以组合使用。因此，我们对一个概念的说明也可能涉及其他。
我们根据四个主要类别组织综述，并依次介绍。我们首先详细介绍了M-IT（§3.1），以揭示LLM如何在两个方面适应多模态：架构和数据。然后，我们介绍了M-ICL（§3.2），这是一种常用于推理阶段的有效技术，用于提高小样本性能。另一个重要的技术是M-CoT（§3.3），它通常用于复杂的推理任务。之后，我们进一步总结了LLM在LAVR中主要扮演的几个角色（§3.4），其中经常涉及这三种技术。最后，我们以总结和潜在的研究方向结束了我们的综述。

3 方法

3.1 多模态指令调整

3.1.1 引言

在这里插入图片描述
指令是指对任务的描述。指令调优是一种涉及在指令格式数据集集合上微调预训练LLM的技术。通过这种方式进行调整，LLM可以通过遵循新的指令来泛化到看不到的任务，从而提高零样本性能。这个简单而有效的想法引发了NLP领域后续工作的成功，如ChatGPT、InstructGPT、FLAN和OPT-IML。
指令调整和相关典型学习范式之间的比较如图1所示。监督微调方法通常需要许多特定任务的数据来训练特定任务的模型。提示方法减少了对大规模数据的依赖，并且可以通过提示工程来完成专门的任务。在这种情况下，虽然小样本性能得到了改进，但零样本性能仍然相当平均。不同的是，指令调优学习如何泛化到看不见的任务，而不是像两个对应的任务那样适应特定的任务。此外，指令调整与多任务提示高度相关。
相反，传统的多模态模型仍然局限于前两种调整范式，缺乏零样本能力。因此，最近的许多工作探索了将LLM中的指令调整的成功扩展到多模态。为了从单模态扩展到多模态，数据和模型都需要进行相应的调整。对于数据，研究人员通常通过调整现有的基准数据集或self-instrcution来获取M-IT数据集。关于该模型，一种常见的方法是将外国模式的信息注入LLM，并将其视为强有力的推理机。相关工作要么直接将外国嵌入与LLM对齐，要么求助于专家模型将外国模式翻译成LLM可以吸收的自然语言。通过这种方式，这些工作通过多模态指令调整将LLM转换为多模态聊天机器人和多模态通用任务求解器。
在本节的以下部分中，我们首先提供了基础知识（§3.1.2）。在过渡到M-IT的描述之前，我们还介绍了M-IT之前的一个常见过程，即对齐预训练（§3.1.3）。然后，我们构建了剩余的内容，如图2所示：我们首先介绍了如何收集M-IT数据（§3.1.4），随后详细讨论了MLLMs的模型适应性，即弥合不同模态之间差距的各种方法（§3.1.5）。最后，我们介绍了评估指导调整MLLMs（§3.1.6）的评估方法。
在这里插入图片描述

3.1.2 前言

在这里插入图片描述
本节简要说明了多模态指令样本的一般结构和M-IT的常见过程。
多模式指令样本通常包括指令和输入输出对。指令通常是描述任务的自然语言句子，例如“详细描述图像”。输入可以是像视觉问答（VQA）任务那样的图像-文本对，也可以是像图像字幕任务那样的仅图像。输出是以输入为条件的指令的答案。如表1所示，指令模板是灵活的，并遵循手动设计。注意，指令样本也可以推广到多轮指令，其中多模态输入是共享的。
形式上，多模态指令样本可以表示为三元组形式，即 $(\mathcal{I},\mathcal{M},\mathcal{R})$ ，其中 $\mathcal{I},\mathcal{M},\mathcal{R}$ 分别表示指令、多模态输入和基本事实响应。MLLM在给定指令和多模态输入的情况下预测答案：
$\begin{equation}\mathcal{A}=f(\mathcal{I},\mathcal{M};\theta) \end{equation}$
这里， $\mathcal{A}$ 表示预测答案， $\theta$ 是模型的参数。训练目标通常是用于训练LLM的原始自回归目标，在此基础上，MLLM被迫预测响应的下一个token。目标可以表示为：
$\begin{equation}\mathcal{L}(\theta)=-\sum^{N}_{i=1}\log p(\mathcal{R}_i|\mathcal{I},\mathcal{R}_{<i};\theta) \end{equation}$
其中N是真实响应的长度。

3.1.3 模态对齐

通常对配对数据进行大规模（与指令调整相比）预训练，以鼓励不同模态之间的对齐，这是在M-It之前。对齐数据集通常是图像-文本对或自动语音识别（ASR）数据集，它们都包含文本。更具体地说，图像-文本对以自然语言句子的形式描述图像，而ASR数据集包括语音的转录。对齐预训练的一种常见方法是保持预训练模块（如视觉编码器和LLM）冻结，并训练可学习接口，如下节所示。

3.1.4 数据

多模态指令跟随数据的收集是M-IT的关键。收集方法大致可分为基准适应、自我指导和混合组合。我们依次说明这三种方法。
基准适应
基准数据集是高质量数据的丰富来源。因此，大量的工作利用现有的基准数据集来构建指令格式的数据集。以VQA数据集的转换为例，原始样本是输入-输出对，其中输入包括图像和自然语言问题，输出是以图像为条件的问题的文本答案。这些数据集的输入输出对可以自然地包括指令样本的多模态输入和响应（见§3.1.2）。指令，即任务描述，可以来自手动设计，也可以来自GPT辅助的半自动生成。具体而言，一些工作手工制作了一个候选指令库，并在训练期间对其中一个进行采样。我们提供了VQA数据集的指令模板示例，如表2所示。其他工作手动设计一些种子指令，并使用这些指令提示GPT生成更多。
请注意，由于现有VQA和标题数据集的答案通常很简洁，直接使用这些数据集进行指令调整可能会限制MLLM的输出长度。有两种常见的策略来解决这个问题。第一个是修改指令。例如，ChatBridge明确声明了简短数据的简短，以及标题数据的句子和单句。类似地，InstructionBLIP将简短的插入到公共数据集的指令模板中，这些公共数据集本质上更喜欢简短的响应。第二个是延长现有答案的长度。例如， $M^3$ IT建议通过用原始问题、答案和上下文提示ChatGPT来重新表述原始答案。
在这里插入图片描述
Self-Instruction
尽管现有的基准数据集可以提供丰富的数据来源，但它们通常不能很好地满足现实世界场景中的人类需求，例如多轮对话。为了解决这个问题，一些工作通过自指令收集样本，自指令引导LLM使用一些手工注释的样本生成文本指令。具体来说，一些指令跟随样本是手工制作的种子示例，之后会提示ChatGPT/GPT-4以种子样本为指导生成更多指令样本。LLaVA通过将图像转换为字幕和边界框的文本，并提示GPT-4在种子示例的上下文中生成新数据，将该方法扩展到多模式领域。通过这种方式，构建了一个M-IT数据集，称为LLaVA-Instruct-150k。根据这一想法，MiniGPT-4、ChatBridge、GPT4Tools和DetGPT等后续工作开发了不同的M-IT数据集，以满足不同的需求。
混合合成
除了M-IT数据外，纯语言用户助理会话数据还可用于提高会话熟练度和指令跟随能力。LaVIN通过从纯语言数据和M-IT数据中随机采样，直接构建了一个小批量。MultiInstruction探讨了融合单模态和多模态数据的不同训练策略，包括混合指令调整（结合两种类型的数据和随机混洗）、顺序指令调整（文本数据后接多模态数据）和基于适配器的顺序指令调整。实证结果表明，混合指令调整至少不比单独调整多模态数据差。

3.1.5 模态桥接

由于LLM只能感知文本，因此有必要弥合自然语言和其他模式之间的差距。然而，以端到端的方式训练大型多模式模型将是昂贵的。此外，这样做会带来灾难性遗忘的风险。因此，一种更实用的方法是在预先训练的视觉编码器和LLM之间引入可学习的接口。另一种方法是在专家模型的帮助下将图像翻译成语言，然后将语言发送给LLM。
可学习接口
可学习接口负责在冻结预先训练的模型的参数时连接不同的模态。挑战在于如何有效地将视觉内容翻译成LLM能够理解的文本。一个常见且可行的解决方案是利用一组可学习的查询token以基于查询的方式提取信息，这首先在Flamingo和BLIP-2中实现，随后被各种工作继承。此外，一些方法使用基于投影的界面来缩小模态间隙。例如，LLavA采用简单的线性层来嵌入图像特征，MedVInTTE使用两层多层感知器作为桥接器。还有一些工作探索了一种参数有效的调整方式。LLaMA适配器在训练期间在Transformer中引入了一个轻量级适配器模块。LaVIN设计了一种混合模态适配器来动态决定多模态嵌入的权重。
专家模型
除了可学习的界面外，使用专家模型，如图像字幕模型，也是弥合模态差距的可行方法。不同的是，专家模型背后的想法是在没有训练的情况下将多模态输入转换为语言。这样，LLM就可以通过转换后的语言间接地理解多模态。例如，VideoChat Text使用预先训练的视觉模型来提取动作等视觉信息，并使用语音识别模型丰富描述。尽管使用专家模型很简单，但它可能不如采用可学习的界面那么灵活。将外国模式转换为文本通常会造成信息丢失。正如VideoChat文本所指出的，将视频转换为文本描述会扭曲时空关系。

3.1.6 评估

在M-IT之后，有各种各样的指标来评估模型的性能，根据问题类型，可以大致分为两类，包括闭集和开集。
闭集
闭集问题是指一类问题，其中可能的答案选项是预定义的，并限于有限集。评估通常在适应基准的数据集上进行。在这种情况下，可以通过基准度量自然地判断响应。例如，Instruction-BLIP报告了ScienceQA的准确性，以及NoCaps和Flickr30K的CIDEr评分。评估设置通常为零样本或微调。第一种设置通常选择涵盖不同一般任务的广泛数据集，并将其拆分为保留和保留数据集。在对前者进行调优后，使用未查看的数据集甚至未查看的任务对后者进行零样本性能评估。相反，在评估特定领域的下游任务时，经常会观察到第二种设置。例如，LLaVA和LLaMA适配器报告了ScienceQA上的微调性能。LLaVA Med报道了生物医学VQA的结果。
上述评估方法通常局限于小范围的选定任务或数据集，缺乏全面的定量比较。为此，一些人努力开发专门为MLLM设计的新基准。例如，傅等人构建了一个综合评估基准MME，该基准包括总共14项感知和认知任务。MME中的所有指令-答案对都是手动设计的，以避免数据泄露。通过详细的排行榜和分析，对10个先进的MLLM进行了评估。LAMM Benchmark被提出用于在各种2D/3D视觉任务上定量评估MLLMs。视频聊天GPT提出了一个基于视频的会话模型的定量评估框架，该框架包含两种类型的评估，即基于视频的生成性能评估和零样本问答。
开集
与闭集问题相比，对开集问题的回答可以更灵活，MLLM通常扮演聊天机器人的角色。因为聊天的内容可以是任意的，所以判断起来比封闭式输出更难。该标准可分为手动评分、GPT评分和案例研究。人工评分要求人类评估产生的反应。这种方法通常涉及手工制作的问题，旨在评估特定的维度。例如，mPLUGOwl收集了一个视觉相关的评估集，以判断自然图像理解、图表和流程图理解等能力。类似地，GPT4Tools分别为微调和零样本性能构建了两组，并从思想、行动、论点和整体方面评估了响应。
由于人工评估是劳动密集型的，一些研究人员探索了GPT评分，即GPT评分。这种方法通常用于评估多模态对话的表现。LLaVA建议通过GPT-4从不同方面对反应进行评分，如帮助性和准确性。具体而言，从COCO验证集中采样了30个图像，每个图像通过GPT-4上的自我指导与一个简短问题、一个详细问题和一个复杂推理问题相关联。MLLM和GPT-4生成的答案被发送到GPT4进行比较。随后的工作遵循了这一想法，并促使ChatGPT或GPT-4对结果进行评分或判断哪一个更好。
基于GPT-4的评分的一个主要问题是，目前，其多模态接口尚未公开。因此，GPT-4只能基于图像相关的文本内容（如标题或边界框坐标）生成响应，而无需访问图像。因此，在这种情况下，将GPT-4设置为性能上限可能是有问题的。另一种方法是通过案例研究比较MLLM的不同能力。例如，mPLUG Owl使用一个与视觉相关的笑话理解案例来与GPT-4和MM-REAT进行比较。类似地，视频LLaMA提供了一些案例来展示几种能力，如视听协同感知和公共知识概念识别。
其他
一些其他方法侧重于MLLMs的一个特定方面。例如，MultiInstruction提出了一种称为灵敏度的指标，用于评估模型对不同指令的鲁棒性。李等人深入研究了对象幻觉问题，并提出了一种查询方法POPE来评估这方面的性能。赵等人考虑了安全问题，并建议评估MLLM对对手攻击的鲁棒性。

3.2 多模态上下文学习

ICL是LLM的重要涌现能力之一。ICL有两个优点：（1）与传统的从丰富的数据中学习内隐模式的监督学习范式不同，ICL的关键是从类比中学习。具体而言，在ICL设置中，LLM从几个例子和可选指令中学习，并推断出新的问题，从而以少量的方式解决复杂和看不见的任务。（2） ICL通常以无训练的方式实现，因此可以在推理阶段灵活地集成到不同的框架中。与ICL密切相关的一项技术是指令调整（见§3.1），经验表明它可以增强ICL的能力。
在MLLM的背景下，ICL已扩展到更多模态，从而产生了多模态ICL（M-ICL）。基于（§3.1.2）中的设置，在推理时，可以通过向原始样本添加一个演示集，即一组上下文中的样本来实现M-ICL。在这种情况下，可以对模板进行扩展，如表3所示。请注意，我们列出了两个上下文中的示例进行说明，但示例的数量和顺序可以灵活调整。事实上，模型通常对演示的安排很敏感。
在这里插入图片描述
就多模态的应用而言，M-ICL主要用于两种场景：（1）解决各种视觉推理任务和（2）教授LLM使用外部工具。前者通常包括从几个特定任务的例子中学习，并概括为一个新的但相似的问题。根据说明和演示中提供的信息，LLM可以了解任务在做什么以及输出模板是什么，并最终生成预期的答案。相比之下，工具使用的示例通常是纯文本的，而且更细粒度。它们通常包括一系列步骤，这些步骤可以按顺序执行以完成任务。因此，第二种情况与CoT密切相关（见§3.3）。

3.3 多模态思维链

正如先驱工作所指出的，CoT是“一系列中间推理步骤”，已被证明在复杂推理任务中是有效的。CoT的主要思想是促使LLM不仅输出最终答案，而且输出导致答案的推理过程，类似于人类的认知过程。
受NLP成功的启发，已经提出了多项工作来将单模态CoT扩展到多模态CoT（M-CoT）。我们对这些工作进行了总结，如图3所示。首先，与M-IT的情况类似（见§3.1），需要填补模态缺口（§3.3.1）。然后，我们介绍了获得M-CoT能力的不同范式（§3.3.2）。最后，我们描述了M-CoT的更具体方面，包括配置（§3.3.3）和链的配方（§3.3.4）。
在这里插入图片描述

3.3.1 模态桥接

要将成功从NLP转移到多模态，模式桥接是首先要解决的问题。实现这一点大致有两种方法：通过特征的融合或通过将视觉输入转换为文本描述。与§3.1.5中的情况类似，我们将它们分别归类为可学习接口和专家模型，并依次进行讨论。
可学习接口
这种方法包括采用可学习接口将视觉嵌入映射到单词嵌入空间。然后可以将映射的嵌入作为提示，将其发送给具有其他语言的LLM，以引发M-CoT推理。例如，CoT PT链接多个元网用于提示调整，以模拟推理链，其中每个元网将视觉特征嵌入到提示的特定步骤偏差中。多模态CoT采用了一个具有共享基于Transformer的结构的两阶段框架，其中视觉和文本特征通过交叉注意进行交互。
专家模型
引入专家模型将视觉输入转换为文本描述是一种替代的模态桥接方式。例如，ScienceQA采用图像字幕模型，并将图像字幕和原始语言输入的级联提供给LLM。尽管这种方法简单明了，但在字幕处理过程中可能会出现信息丢失。

3.3.2 学习范式

学习范式也是一个值得研究的方面。获得M-CoT能力的方法大致有三种，即通过微调和无训练的少/零样本学习。三种方式的样本量要求按降序排列。
直观地说，微调方法通常涉及为M-CoT学习管理特定的数据集。例如，ScienceQA构建了一个包含讲座和解释的科学问答数据集，该数据集可以作为学习CoT推理的来源，并对该提出的数据集进行微调。多模态CoT也使用ScienceQA基准，但以两步方式生成输出，即基本原理（推理步骤链）和基于基本原理的最终答案。CoT PT通过提示调整和特定步骤视觉偏见的组合来学习隐含的推理链。
与微调相比，少/零样本学习的计算效率更高。它们之间的主要区别在于，小样本学习通常需要手工制作一些上下文中的例子，这样模型就可以更容易地一步一步地学习推理。相比之下，零样本学习不需要任何具体的CoT学习示例。在这种情况下，通过提示“让我们逐帧思考”或“这两个关键帧之间发生了什么”等设计指令，模型学会在没有明确指导的情况下利用嵌入的知识和推理能力。类似地，一些工作提示模型，描述任务和工具使用情况，将复杂任务分解为子任务。

3.3.3 链配置

链配置是推理的一个重要方面，可以分为自适应结构和预定义结构。前一种配置要求LLM自行决定何时停止推理链，而后一种设置则以预定义的长度停止推理链。

3.3.4 生成模式

如何构建链条是一个值得研究的问题。我们将当前的工作总结为（1）基于填充的模式和（2）基于预测的模式。具体而言，基于填充的模式需要在周围上下文（前一步和后一步）之间推导步骤，以填补逻辑空白。相反，基于预测的模式需要在给定条件（如指令和先前的推理历史）的情况下扩展推理链。这两种类型的模式有一个共同的要求，即生成的步骤应该是一致和正确的。

3.4 LLM辅助视觉推理

3.4.1 引言

受工具增强LLM成功的启发，一些研究探索了调用外部工具或视觉基础模型进行视觉推理任务的可能性。这些工作将LLM作为具有不同角色的助手，构建特定任务或通用的视觉推理系统。
与传统的视觉推理模型相比，这些工作表现出几个良好的特点：（1）较强的概括能力。这些系统配备了从大规模预训练中学习到的丰富的开放世界知识，可以很容易地推广到具有显著零/小样本性能的看不见的物体或概念。（2）突发能力。在强大的推理能力和丰富的LLM知识的帮助下，这些系统能够执行复杂的任务。例如，给定一张图片，MM-REAT可以解释表面下的含义，比如解释为什么一个模因很有趣。（3）更好的交互性和控制力。传统模型通常允许有限的控制机制，并且通常需要昂贵的策划数据集。相比之下，基于LLM的系统能够在用户友好的界面中进行精细控制（例如点击和自然语言查询）。
本节的以下部分如图4所示：我们首先介绍了LLM辅助视觉推理系统构建中使用的不同训练范式（§3.4.2）。随后，我们深入研究了LLM在这些系统中发挥的主要作用（§3.4.3）。最后，我们以各种类型的绩效评估结束了我们的讨论。
在这里插入图片描述

3.4.2 训练范式

根据训练范式，LLM辅助视觉推理系统可以分为两种类型，即无训练和微调。
无训练
预训练的LLM中存储了丰富的先验知识，一种直观而简单的方法是冻结预训练的模型，并直接提示LLM满足各种需求。根据设置，推理系统可以进一步分为小样本模型和零样本模型。小样本模型需要一些手工制作的上下文样本（见§3.2），以指导LLM生成程序或执行步骤序列。这些程序或执行步骤用作相应基础模型或外部工具/模块的指令。通过直接利用LLM的语言学/语义知识或推理能力，零样本模型又向前迈进了一步。例如，PointCLIP V2提示GPT-3生成具有3D相关语义的描述，以便更好地与相应的图像对齐。在CAT中，LLM被指示根据用户查询来细化字幕。
微调
为了激活与工具使用有关的规划能力并提高系统的指令跟随能力，GPT4Tools引入了指令调整方法（见§3.1）。收集并使用一个新的与工具相关的指令数据集来微调模型。

3.4.3 函数

为了进一步检验LLM在LLM辅助视觉推理系统中究竟扮演着什么角色，现有的相关工作分为三类：

LLM作为控制器
LLM作为决策者
LLM作为语义精炼器

前两个角色，即控制者和决策者，与CoT有关（见§3.3）。它经常被使用，因为复杂的任务需要分解为中间的更简单的步骤。当LLM充当控制器时，系统通常在单轮中完成任务，而在决策者的情况下，多轮更常见。我们将在以下部分描述LLM如何发挥这些作用。
LLM作为控制器
在这种情况下，LLM充当中央控制器，（1）将复杂任务分解为更简单的子任务/步骤，（2）将这些任务分配给适当的工具/模块。第一步通常是通过利用LLM的CoT能力来完成的。具体而言，LLM被明确提示输出任务规划，或者更直接地，输出要调用的模块。例如，VISPROG提示GPT-3输出可视化程序，其中每个程序行调用一个模块来执行子任务。此外，LLM需要为模块输入输出参数名称。为了处理这些复杂的要求，使用了一些上下文中手工制作的示例（见§3.1）作为参考。这与推理链的优化密切相关（见§3.3），或者更具体地说，与最少到最多提示技术密切相关。通过这种方式，复杂的问题被分解为按顺序解决的子问题。
LLM作为决策者
在这种情况下，复杂的任务以多轮的方式解决，通常是以迭代的方式。决策者通常履行以下职责：（1）总结当前上下文和历史信息，并决定当前步骤中可用的信息是否足以回答问题或完成任务；（2）整理和总结答案，以方便用户的方式呈现。
LLM作为一种语义精炼器
当LLM作为语义精炼器使用时，研究人员主要利用他们丰富的语言学和语义学知识。具体而言，LLM通常被指示将信息整合到一致流畅的自然语言句子中，或根据不同的特定需求生成文本。

3.4.4 评估

有两种方法可以评估LLMAided视觉推理系统的性能，即基准度量和手动评估。
基准度量
一种简单的评估方法是在现有的基准数据集上测试系统，因为度量可以直接反映模型完成任务的情况。例如，Chameleon是根据复杂的推理基准进行评估的，包括ScienceQA和TabMWP。IdealGPT报告了VCR和SNLI-VE的准确性。
手动评估
有些工作采用手动评级来评估模型的特定方面。例如，ChatCaptioner要求人类注释者判断不同模型生成的标题的丰富性和正确性。GPT4Tools计算思想、行动、论证的成功率和总体成功率，以衡量模型在分配工具使用方面的能力。VISPROG在语言指导的图像编辑任务中评估模型时手动计算准确性。

4 挑战与未来的方向

MLLMs的发展仍处于初级阶段，因此仍有很大的改进空间，我们总结如下：

目前的MLLM在感知能力方面仍然有限，导致视觉信息获取不完整或错误。这可能是由于信息容量和计算负担之间的折衷。更具体地说，Q-Former只使用32个可学习的token来表示图像，这可能会导致信息丢失。尽管如此，扩大token大小将不可避免地给LLM带来更大的计算负担，LLM的输入长度通常是有限的。一种潜在的方法是引入像SAM这样的大型视觉基础模型，以更有效地压缩视觉信息。
MLLM的推理链可能很脆弱。例如，傅等人发现，在数学计算的情况下，尽管MLLM计算出了正确的结果，但由于推理的失败，它仍然给出了错误的答案。这表明单峰LLM的推理能力可能不等于LLM在接收到视觉信息后的推理能力。改进多模态推理的主题值得研究。
MLLM的指令跟随能力需要升级。在M-IT之后，尽管有明确的指示，“请回答是或否”，但一些MLLM无法生成预期答案（“是”或“否”）。这表明指令调整可能需要涵盖更多的任务来提高泛化能力。
对象幻觉问题很普遍，这在很大程度上影响了MLLMs的可靠性。这可能归因于对准预训练不足。因此，一个可能的解决方案是在视觉模式和文本模式之间进行更细粒度的对齐。细粒度是指图像的局部特征，可以通过SAM获得，以及相应的局部文本描述。
需要参数高效训练。现有的两种模态桥接方式，即可学习接口和专家模型，都是对减少计算负担的初步探索。更有效的训练方法可以在计算资源有限的MLLM中释放更多的功率。

5 结论

在本文中，我们对现有的MLLM文献进行了综述，并对其主要方向提供了广泛的看法，包括三种常见的技术（M-IT、M-ICL和MCoT）和构建任务解决系统的通用框架（LAVR）。此外，我们强调了当前需要填补的研究空白，并指出了一些有前景的研究方向。我们希望这项综述能让读者清楚地了解MLLM的当前进展，并启发更多的工作。