LLaVA 论文笔记-编程知识

LLaVA 论文笔记

news/2025/3/7 0:51:07/文章来源:https://www.cnblogs.com/mianmaner/p/18756840

介绍

提出了 visual instruction-tuning，这是将指令微调扩展到多模态的首次尝试

数据

使用 ChatGPT/GPT-4 来将数据转化为 multimodel instrustion-following data

为每一个图像生成三种 mulmodal instruction-following data，对于每种类型，我们首先手动设计一些示例。它们是我们在数据收集过程中拥有的唯一人工注释，并用作上下文学习中的种子示例来查询 GPT-4

三种 data：conversation、deltailed decription、complex reasoning

框架

训练

对于每个图像，我们生成多轮对话数据 \((X_q^1,X_a^1,\cdots,X_q^T,X_a^T)\)，其中 T 是总轮数，将其组成一个序列

第 t 轮指令我们设置为

同时对于长度为 L 的序列，我们通过一下方式计算答案的概率

这是用于训练模型的输入序列，其中 \(\theta\) 是可训练参数

评估

我们利用 GPT-4 来衡量生成的响应的质量

我们将问题、视觉信息（以文本描述的格式）以及两个助手生成的响应提供给法官（即纯文本 GPT-4）。它评估助理响应的有用性、相关性、准确性和详细程度，并给出 1 到 10 分的总体评分，其中评分越高表示总体表现越好。还要求对评价提供全面的解释，以便我们更好地理解模

ScienceQA

对于 LLaVA，我们使用最后一层之前的视觉特征，要求模型首先预测原因，然后预测答案

我们考虑两种方案来结合我们的模型和 GPT-4 的结果。 (i) GPT-4 补体。每当 GPT-4 无法提供答案时，我们就会使用我们方法的预测。该方案的准确率达到 90.97%，几乎与单独应用我们的方法相同。 (ii) GPT-4 作为法官。每当 GPT-4 和 LLaVA 产生不同的答案时，我们都会再次提示 GPT-4，要求它根据问题和两个结果提供自己的最终答案。其精神与 CoT 类似，但具有来自其他模型的外部知识。令人惊讶的是，该方案能够对所有问题类别提供一致的改进，并达到 92.53% 的新 SoTA 准确率